빅데이터의 두 얼굴
빅데이터의 두 얼굴
  • 송승환 기자
  • 승인 2013.11.03 03:33
  • 댓글 1
이 기사를 공유합니다

빅데이터의 두 얼굴

지난 몇 해 동안 전 세계는 빅데이터에 열광해왔다. 많은 전문가들은 빅데이터가 만들 장밋빛 미래를 제시해왔으며 가히 빅데이터 혁명이라 불릴 정도로 낙관적 활용 사례가 곳곳에서 보고되고 있다. 하지만 빅데이터 시대가 현실로 다가오자 최근에는 빅데이터가 초래할 개인정보 침해와 빅데이터에 대한 맹신에 대해 우려의 목소리가 높아지고 있다. 눈앞으로 다가온 빅데이터 시대, 명과 암의 두 얼굴을 조명해보자.

빅데이터가 만드는 세상

어느 날 아침, 교외의 한 가정집에서 아내의 불륜을 목격한 남자가 자기 아내의 몸에 가위를 내리꽂으려 한다. 그 순간 특수경찰대가 집으로 난입해 남자를 제압한다. “특수경찰대 범죄 예방 부서의 권한에 따라 당신을 미래 살인죄로 체포합니다. 당신의 범죄가 일어날 예정 시각은 오늘 … …”

2002년 개봉한 SF영화 「마이너리티 리포트」의 첫 장면이다. 영화에서는 예지자의 능력을 통해 범죄가 저질러지기도 전에 미리 범죄자를 체포하는 사회가 등장한다. 이러한 사회는 단순히 SF영화에서나 나올 법한 설정일까? 이제는 그렇지 않다. 미국 샌프란시스코에서는 빅데이터 분석을 도입한 범죄예방시스템을 가동해 예측한 10곳 중 7곳에서 실제 범죄가 발생했다. 예지자의 능력 대신 빅데이터가 예측하는 시대가 도래한 것이다.

전 세계적으로 빅데이터가 주목받고 있다. 시장, 정부, 학계에서는 ‘지식정보사회의 원유(原油)’라 불리는 빅데이터를 어떻게 활용해 가치를 창출해 낼 것인지 논의 중이며 일부에서는 이미 빅데이터를 이용해 사회의 변화를 이끌어내고 있다. 이러한 흐름에 따라 국내에서도 빅데이터에 대한 관심이 뜨거워지고 있다. 박근혜 정부는 공공 데이터의 개방과 활용을 골자로 하는 ‘정부3.0’ 체제를 창조경제의 원동력으로 꼽고 있으며 기업들도 새로운 시장 확보를 위해 기술개발과 인력양성에 투자를 늘리고 있다. 서울대 역시 지난해 ‘빅데이터 센터’를 개소해 정부, 기업과 연계한 활발한 연구를 진행하고 있다.

◇ 규모, 다양성, 속도=빅데이터의 정의는 그 활용 분야만큼 다양한 측면에서 논의되고 있지만 합의된 정의가 존재하지는 않는다. 때문에 빅데이터의 대표적 속성인 거대한 크기(Volume), 다양한 데이터 형태(Variety), 빠른 처리 속도(Velocity)의 측면에서 3V로 설명하는 것이 일반적이다.

빅데이터의 크기는 보통 수십 테라바이트(TB=1000GB)에서 페타바이트(PB=1000TB) 혹은 엑사바이트(EB=1000PB) 이상의 규모이다. 일반 화질의 영화 한 편이 약 1GB정도라고 할 때 1PB는 영화 백만 편에 달하는 규모인 것이다. 때문에 크기에 주목하는 관점에서는 빅데이터를 ‘기존의 관리나 분석 체계로는 감당할 수 없을 정도로 거대한 데이터 집합’이라고 설명한다. 하지만 거대한 크기만으로는 빅데이터를 충분히 설명하기에 부족하며 그 크기의 기준이 절대적이지도 않다. 이를테면 장기간에 걸쳐 실시간으로 수집된 시청률 데이터의 경우 그 크기는 수십 기가바이트(GB)에 불과하지만 빅데이터 분석에 사용될 수 있기 때문이다.

빅데이터의 가장 큰 특징은 어떤 형태의 데이터도 빠르게 처리할 수 있다는 것이다. 데이터는 그 형태에 따라 정형(Structed), 반정형(Semi-Structed), 비정형(Unstructed) 데이터로 분류된다. 정형 데이터는 일정한 규칙을 갖고 체계적으로 정리된 데이터로 통계청이 발표하는 통계자료, 기업의 시장 실태조사 자료, 연구소의 과학적 데이터 등이 이에 해당한다. 반면 비정형 데이터는 페이스북에 올리는 감정 상태, 카카오톡에서 나누는 대화와 같이 개인들이 스마트 기기 등을 통해 생성하는 정리되지 않은 데이터를 말한다. 이러한 비정형 데이터는 과거에도 존재해왔지만 형식에 맞춰 정리돼 있지 않기 때문에 분석의 대상이 될 수 없었다. 하지만 빅데이터 시대에는 데이터의 수집·보관·처리 기술의 발전으로 방대한 양의 비정형 데이터도 빠르게 분석할 수 있다.

한편 최근에는 빅데이터를 통해 필요한 정보를 추출하고 문제 상황에 능동적으로 대처하는 가치 창출의 측면을 강조해 Value를 추가한 4V로 빅데이터를 설명하기도 한다.

◇ 많아지면 달라진다=스몰데이터 시대에는 생성되는 데이터의 양도, 처리 가능한 데이터의 양도 적었다. 때문에 수집된 데이터는 가능한 정밀하고 체계적으로 정리돼 있어야만 했다. 작은 오차도 결과에 큰 영향을 줄 수 있기 때문이다. 하지만 빅데이터 시대에는 달라진다. 사람뿐만 아닌 사물도 언제 어디서나 인터넷에 연결돼 상태를 전송하고 수집한다. 이로부터 모인 데이터들은 때론 오차가 있지만 많아진 데이터는 작은 오차를 압도할 수 있다. 그리고 적을 때는 볼 수 없었던 새로운 통찰을 제공한다.

한국석유공사(석유공사)는 지난해부터 석유정보서비스 오피넷(OPINET)을 통해 국내 유가 단기 예보 서비스(유가단기예보)를 제공하고 있다. 과거에도 추세선을 통한 대략적인 유가 예측은 시행돼 왔지만 이는 시기성도 떨어지고 정확도도 낮았다. 반면 빅데이터를 활용해 세계 최초로 도입한 지역별 유가단기예보 시스템은 비교적 정확한 예측을 통해 국내 석유가격 안정 및 유류비 절감에 기여하고 있다.

유가단기예보가 가능해진 것은 석유공사의 수집 가능한 데이터가 급증했기 때문이다. 이전까지 석유공사는 전국 주유소의 유가를 파악하기 위해 직원들이 선정한 몇몇 주유소에 일일이 전화를 걸어 가격정보를 수집했다. 때문에 정보의 양이 적었을 뿐만 아니라 오차도 상당했다. 하지만 2009년부터 전국의 주유소 사업자가 관련 사업을 하기 위해서는 관련 정보를 석유공사에 제공하도록 법이 개정되면서 석유공사는 전국 주유소의 카드 단말기를 통해 하루 여섯 차례 3백만 건에 이르는 유가 정보를 수집할 수 있게 됐다. 이에 더해 석유공사는 국제 유가의 변동이 국내 유가에 약 2주 후 반영된다는 점을 바탕으로 2년간의 국제 유가와 보유하고 있던 2백만 건의 국내 주유소 가격 정보를 비교했다.

이를 통해 개발된 예측 모델은 안정적인 유가단기예보를 제공하고 있다. 『대학신문』이 지난달 26일 휘발유 현재가를 기준으로 오피넷에서 1주 전에 예측한 지역별 휘발유 가격과 비교해 본 결과 제주에서 26.52원의 큰 차이가 난 것 외에 충북 0.54원(최솟값)을 비롯한 모든 지역에서 3.8원 이내의 오차 범위를 보였다.(오차 평균 3.84원, 중앙값 2.25원, 표준편차 6.11)

하지만 아직 석유공사의 유가단기예보 시스템이 빅데이터 기술의 장점을 온전히 활용하고 있는 것은 아니다. 유가 변동에는 정치적 상황, 기후 변화 등과 같은 비정형 데이터가 고려돼야 하는데 이와 관련한 정보는 아직 예측 모델에 정량적 변수로 반영되지 못하고 전문가의 임의적 판단에 따라 조정되고 있기 때문이다. 이에 대해 석유공사의 한승완 과장(유가서비스팀)은 “세금이나 정책 변화와 같은 비정형 데이터를 정량적 변수로 반영시키는 것이 앞으로 남은 과제”라며 빅데이터의 장점을 십분 활용해 예측 모델을 더 고도화시키겠다는 의지를 밝혔다.

◇ 전수조사로 진짜를 본다=그동안 인류는 데이터에서 정보를 얻고자 할 때 샘플링(표본 추출)에 의존해 왔다. 수집할 수 있는 데이터가 한정돼 있고 거대한 데이터를 다룰 능력이 없었기 때문이다. 하지만 빅데이터 시대에는 훨씬 더 많은 데이터를 수집하고 분석할 수 있으며 때론 특정 현상과 관련된 데이터를 모두 조사할 수도 있다. 이렇게 가능해진 전수조사는 샘플링에서 볼 수 없었던 세부 사항을 보여준다. 그리고 때로는 이 세부 사항이 그 데이터의 본질일 때도 있다.

다음소프트는 소셜미디어에서 데이터를 수집해 여론을 분석하는 소셜데이터 분석업체다. 다음소프트가 실시했던 국내 냉장고 시장의 소셜분석은 전수조사의 중요성이 잘 드러나는 사례 중 하나다. 다음소프트 권미경 이사에 따르면 기존에 기업들은 냉장고 시장을 조사할 때 하우젠을 좋아하는지, 디오스를 좋아하는지 묻고 다녔다. 하지만 실제 사람들은 평소에 냉장고 브랜드에 관한 얘기는 잘 하지 않는다. 그는 분석 결과를 보여주며 “실제로 사람들이 소셜미디어에서 냉장고에 관해 한 말은 넣고 빼기는 좋은지, 냄새는 안 나는지에 관한 것이었다”며 “어느 브랜드가 더 좋은지 궁금해 하는 것은 기업들 뿐”이라고 설문조사의 한계를 지적했다. 설문조사에서는 질문에 대한 답을 수집하기 때문에 무엇을 묻는가가 중요하지만 전수조사를 하면 사람들이 평소에 하는 진짜 생각을 알 수 있다는 것이다.

하지만 분석대상의 이용자 범위가 한정돼 있을 때는 전수조사의 결과가 사회 전 구성원을 대표하는 것은 아니기 때문에 주의해야 한다. 이를테면 소셜미디어를 바탕으로 한 전수조사는 이용자의 주 연령층이 한정돼 있기 때문에 이를 근거로 전 연령층에 해당하는 공공정책을 만들 경우 정책 효과에서 소외되는 계층이 발생할 수 있기 때문이다. 이에 대해 권 이사는 “분석대상이 대표하는 전수가 어디까지인지 그 범위를 분명하게 파악하고 그에 맞는 해석과 의사결정을 내려야한다”며 데이터에 대한 올바른 해석의 과정을 강조했다.

◇ 상관성이 주는 통찰=인간은 모든 일의 원인을 찾는 데 길들여져 있다. 하지만 인과관계를 찾는 일은 쉽지 않을 뿐 아니라 때론 잘못된 인과관계를 파악해 낭패를 보기도 한다. 빅데이터가 제시하는 통찰 역시 어떤 일이 정확히 왜 벌어지고 있는지 설명하진 못한다. 하지만 때론 어떤 현상의 원인은 알 수 없지만 그것이 현재 진행 중임을 알려주는 것만으로도 충분한 경우가 있다. 그 대표적 경우가 의료 현장이다.

“그동안은 사건이 발생한 뒤 원인을 분석하고 수습을 해왔다면 앞으로는 발생할 사건에 대한 예측을 바탕으로 대비를 해 나갈 것이다” 분당서울대병원의 황희 의료정보센터장은 빅데이터 분석 기술에 기반한 차세대 임상데이터웨어하우스(CDW:Clinical Data Warehouse) 구축의 이유를 이와 같이 밝혔다.

CDW는 병원에서 환자의 건강 상태와 진료 및 치료기록을 모아 놓은 데이터베이스로 축적된 데이터의 재가공을 통해 진료 시 의사의 의사결정에 도움을 주는 용도로 사용된다. 과거에도 분당서울대병원에는 자체 개발한 CDW가 있었지만 이는 데이터 재가공 시간이 최소 30분에서 3~4일 이상씩 걸렸기 때문에 실제 진료 현장에서 즉각적 활용을 할 수 없었다. 하지만 차세대 CDW는 처리시간이 보통 2~3초 이내이기 때문에 의료 현장에서 실시간으로 관련 데이터를 재가공해 보여줄 수 있다.

차세대 CDW를 사용한 분당서울대병원의 환자 질 관리(Quality Control)는 환자 개인 및 사회적 비용을 절감하는 효과를 내고 있다. 황 센터장은 그 대표적 사례로 항생제 사용량의 감소를 꼽았다. 그에 따르면 항생제는 감염 치료에 필수적이지만 남용할 경우 내성균이 발생해 환자 개인의 추가 비용을 발생시키고 사회적으로도 사용 가능한 항생제의 폭을 줄이는 부작용이 있다. 하지만 현장의 의사들은 수술 후 1주일 정도 예방적 항생제를 처방하는 것이 습관처럼 굳어져있어 이를 고치기가 여간 쉽지 않았다. 이에 분당서울대병원은 진료 시 의사들에게 항생제 사용량과 환자의 감염 상태간의 상관관계를 분석해 항생제 사용량이 줄어도 환자의 감염 상태가 악화되지 않음을 실시간으로 보여줌으로써 평균 투약 기간을 1.2일로 줄여내는데 성공했다. 황 센터장은 “진행 상황을 데이터로 보여주지 않고서는 의사들을 설득할 수 없었을 것”이라며 “이러한 임상 질 관리가 현재 가장 시급한 300개 분야에서 시행되고 있다”고 밝혔다.

빅데이터는 당신을 보고 있다

조지 오웰의 소설 「1984년」에서는 빅브라더가 집안과 사무실을 24시간 비추는 텔레스크린, 풀과 나무에도 숨겨진 마이크로폰을 통해 모든 개인을 감시하는 사회가 그려진다. 사생활과 개인 공간이 허용되지 않는 이 사회는 단지 소설 속에서나 가능한 일일까? 이제는 그렇지 않다. 네이버는 우리의 관심사를, 페이스북은 우리의 인간관계를 감시하고 있으며 트위터에 올린 내 의견을 누군가는 수집하고 있다. 빅브라더 대신 빅데이터가 당신을 보고 있는 것이다.

빅데이터가 초래할 가장 명백한 위험은 개인정보 침해다. 사실 빅데이터 시대 이전에도 국내에서 개인정보 침해의 문제는 꾸준히 있어 왔다. 이에 지난 2011년에는 「개인정보보호법」이 제정돼 시행 중이며 이 법은 유럽연합(EU)의 ‘데이터 보호규제안’에 버금가는 개인정보에 대한 포괄적 보호와 강력한 규제를 지향하고 있다. 때문에 빅데이터로 인한 새로운 유형의 개인정보 침해 가능성이 제기되기 전까지는 현행 개인정보보호법의 철저한 시행만으로도 빅데이터의 부작용을 방지할 수 있을 것이라고 예상됐다.

하지만 빅데이터는 개인정보 수집에 있어서도 3V의 특징을 그대로 드러내기 때문에 현행 개인정보보호법으로는 해결할 수 없는 새로운 형태의 개인정보 침해를 야기했다. 빅데이터 기술은 개인 식별과 관계된 정형 데이터뿐만 아니라 개인의 취향, 사고, 감정, 습관 등을 담은 방대한 양의 라이프로그(Life Log)를 부지불식간에 수집해 빠르게 재조합해 내기 때문이다.

라이프로그는 텍스트, 사진, 동영상, 음성 등 일상생활에서 경험하는 모든 정보가 디지털 장치를 통해 기록으로 남겨진 것인데 스마트 기기의 확산과 더불어 그 생성과 수집의 규모가 기하급수적으로 증가하고 있다. 이러한 라이프로그 수집의 가장 대표적 경로로는 인터넷 쿠키와 모바일 어플리케이션이 지적된다.

지난달 10일 건국대 법학연구소가 주최한 ‘빅데이터 시대 개인정보보호’ 국제학술대회에서 이은우 변호사(법무법인 지향)는 라이프로그 수집의 대표적 사례로 3,400만 명의 회원을 보유한 국내 최대 포털 네이버를 꼽았다. 그에 따르면 네이버는 2006년부터 이용자의 모든 로그데이터를 저장해왔으며 하루 평균 수집되는 로그데이터만 3TB 수준이다. 네이버는 이를 바탕으로 맞춤형 서비스와 광고를 제공해 한해 1조 원이 넘는 매출을 올리고 있다. 실제로 많은 이용자가 읽어보지 않은 채 동의하는 네이버 개인정보취급방침을 살펴보면 이용자에게 광고를 포함한 최적화된 맞춤형 정보를 제공하기 위해 네이버는 이용자의 IP주소, 방문일시, 서비스 이용기록, 결제기록 등을 자동으로 생성해 수집한다고 명시돼 있다.

또 지난달 30일 페이스북은 사용자의 마우스포인트 동작과 머무르는 시간까지 수집하는 기술을 도입할지 시험 중이며 이를 통해 맞춤형 서비스를 강화해 나갈 계획이라고 밝혔다. 이용자의 개인정보와 친구관계, 위치정보를 넘어서 웹페이지 이용 습관까지 수집을 하겠다는 것이다.

이렇게 수집된 라이프로그는 보통 익명화된 상태지만 빅데이터 기술은 이를 식별 가능한 개인 정보로 재조합시킬 수 있다. 개인정보의 익명화는 무작위하게 파편화하면 아무런 가치가 없기 때문에 개인 식별이 가능한 정보를 숫자와 같은 부호로 전환시키는 것인데 빅데이터는 이 수준의 파편화된 정보에서 손쉽게 일정한 경향성을 찾아내기 때문이다. 실제로 미국에서는 영화 대여 서비스업체인 ‘넷플릭스’가 영화 추천 시스템을 개선하기 위해 이용자의 대여기록을 익명화한 채 통계 전문가들에게 공개했는데 이 데이터를 빅데이터 분석을 통해 재조합한 결과 커밍아웃하지 않은 채 자녀를 두고 지내온 한 레즈비언 여성의 개인정보가 밝혀져 소송에 이르는 사건이 있었다. 이 변호사에 따르면 이러한 문제는 국내에서 더 심각하게 나타날 수 있다. 그는 “한국은 높은 IT보급률로 인해 어떤 국가보다 인터넷 상에 개인정보 축적량이 많으며 인터넷 실명제의 여파로 대다수의 인터넷 서비스 이용 시 실명가입과 주민등록번호, 개인 휴대전화번호 입력이 강제돼 왔다”며 국내의 높은 개인정보 재식별 가능성을 강조했다.

수집된 라이프로그에 반영된 개인의 성향이 프로파일화 돼 사회적 차별이 행해질 수 있다는 점도 빅데이터 시대에 발생 가능한 개인정보 침해 유형으로 제기되고 있다. 이를테면 자신의 인터넷 검색 기록 때문에 보험료나 대출이자율이 더 높게 책정될 수 있다는 것이다. 이 변호사는 이러한 차별이 개인의 양심과 사상의 자유를 침해하는 것이라고 지적한다. 인간 사회의 기본 원칙은 자신이 행한 행동에 대해서만 책임을 지는 것인데 인터넷 검색과 같이 공개될 것이라고 생각지도 못한 내밀한 영역까지 추적해 책임을 묻는 것은 인격체로서 존엄을 훼손할 수 있기 때문이다. 이러한 문제 때문에 해외에서는 프로파일 결과가 개인에게 불리한 영향을 줄 경우 프로파일의 기준이 무엇인지 명확히 공개하도록 강제하는 법안이 마련되고 있지만 국내의 경우 대출이자율 책정의 기준조차도 아직 투명하게 공개되지 못하고 있기 때문에 프로파일 규제 법안의 마련은 요원해 보인다. 또한 한국정보화진흥원의 연구보고서에 따르면 개인의 프로파일이 제3자에게 제공됐을 때는 그 사용을 규제할 방안이 현재로선 마땅치 않으며, 특히 외국인에게 제공된 경우 규제 수단을 마련하기도 쉽지 않아 로그정보 수집을 통한 개인정보 침해 가능성은 무방비 상태에 노출돼있는 실정이다.

빅데이터 시대에 이와 같은 개인정보 침해의 가능성이 제기되고 있음에도 이에 대응하는 개인정보보호법 개정이 빠른 시일 내에 이뤄지기는 쉽지 않을 전망이다. 현행 개인정보보호법은 개인정보를 엄격히 보호해야 하는 기본적 인권으로 보고 이를 활용하기 위해서는 사용목적을 명확히 고지한 후 개인의 동의를 반드시 구하도록 규정하고 있다. 그런데 빅데이터 기술의 가장 큰 특징은 무질서해 보이는 방대한 데이터 속에서 예기치 못했던 가치를 찾아내는 것이기 때문에 개인정보를 빅데이터 분석에 사용할 경우 사전에 개인에게 어떤 목적으로 개인정보가 활용될 것인지 명확히 고지하기가 어렵다. 현행법을 유지할 경우 개인정보를 빅데이터 분석하는 많은 경우가 위법 행위가 돼 그 활용이 크게 위축될 수 있고 고지와 동의의 체계를 허물면 심각한 개인정보 침해가 발생할 수 있는 딜레마 상황인 것이다. 이에 대해 고학수 교수(법학과)는 “고지와 동의를 기본으로 하는 현재의 규제 틀이 빅데이터 시대에 현실성이 떨어진다는 점은 대부분 동의하지만 어떤 방향으로 개선책을 모색하는 것이 바람직한지는 아직 공감대가 형성되지 않았다”며 “법률 전문가뿐만 아니라 소프트웨어 개발자나 실무 담당자까지 함께 모여 현장의 상황을 충분히 반영한 대안을 찾기 위해 노력할 필요가 있다”고 의견을 밝혔다.

사람이 만드는 빅데이터 세상

인류는 언제나 더 나은 의사결정을 하고자 했다. 고대에는 거북이 등껍질이 갈라지는 것을 봤고 중세에는 신의 목소리에서 구원을 얻고자 했으며 최근에는 스티브 잡스와 같은 탁월한 경영자의 감에 따르기도 했다. 하지만 이에 지나치게 의존했을 때 인류는 어리석은 결정을 내리곤 했다. 빅데이터의 본질 역시 이와 다르지 않다. 빅데이터는 의사결정에 도움을 주지만 전지전능하지는 않기 때문이다.

빅데이터에 대한 지나친 기대는 빅데이터가 완전히 새로운 것이고 항상 옳은 결정을 내린다는 오해에서 비롯한다. 하지만 빅데이터는 갑자기 등장한 새로운 개념이 아니다. 인터넷의 확산과 더불어 다양한 형태의 정보가 무수히 발생하면서 정보 홍수(Information Overload) 혹은 정보 폭발(Information Explosion)로 논의되던 개념이 최근 스마트 기기의 확산과 데이터 처리 기술의 발전에 힘입어 빅데이터라는 이름으로 조명 받고 있는 것이다.

빅데이터가 항상 옳은 결정을 내리는 것도 아니다. 서울대 빅데이터센터의 부센터장 조성준 교수(산업공학과)는 빅데이터가 과거보다 좀 더 나아진 의사결정 방식 중 하나라는 점을 강조한다. 그는 “우리는 살면서 몇 안 되는 경험만으로도 잘 살아가고 있는데 빅데이터 분석은 그 경험의 폭을 획기적으로 넓혀서 더 나은 의사결정을 돕기 위한 시도인 것”이라며 “‘빅데이터만이 옳은 통찰을 줄 수 있다’가 아닌 ‘이제는 빅데이터로도 의미 있는 통찰을 얻을 수 있다’가 빅데이터에 대한 제대로 된 이해”라고 설명했다.

최근의 빅데이터에 관한 무분별한 열기와 오해는 정부와 기업이 빅데이터를 홍보의 수단으로 남용한 탓도 크다. 실제로 정부가 발표한 국내 공공기관의 빅데이터 활용 사례와 기업이 언론에 알린 대부분의 사례는 기존에도 해왔던 일반적 데이터 분석이나 고객관계관리(CRM)인데 빅데이터 분석이라는 이름으로 그 효과를 포장한 경우가 대다수다. 빅데이터가 의사결정 수단이라는 본질을 상실하고 홍보 구호로 전락해 나타난 부작용인 것이다. 이에 대해 다음소프트 송길영 부사장은 빅데이터 분석을 시도하기 전에 해당 문제가 빅데이터 분석에 적합한지 먼저 따져보는 것이 중요하다고 말한다. 빅데이터라는 수단에 매료돼 모든 문제를 빅데이터 분석하려는 것은 목적과 수단이 뒤바뀐 자원낭비라는 것이다.

이어 그는 빅데이터 속에 사람이 있다는 점을 잊어서는 안 된다고 강조했다. 그는 “모든 기술에는 긍정적인 면과 부정적인 면이 필연적으로 존재하는데 빅데이터 역시 마찬가지”라며 “사람이 만든 데이터를 사람이 해석하고 사람을 위해 사용할 것”을 빅데이터 시대에 염두에 둬야할 점으로 제시했다.

빅데이터가 이끌 새로운 변화에 대응하기 위해 많은 전문가가 다양한 분야에서 고군분투하고 있다. 이 과정에서 빅데이터는 하나의 수단이며 그 명암을 가르는 기준이 사람임을 기억한다면 빅데이터가 가져올 변화가 그저 두려운 것만은 아닐 것으로 전망된다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 1
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
이이이이 2019-05-30 19:41:38
1빠