조성준 교수(산업공학과)
조성준 교수(산업공학과)

빅데이터는 미래의 원유, 4차 산업의 원재료, 인공지능의 재료로서 현재 혁신의 총아이며 원천이다. 그런데 이를 가지고 새로운 가치를 만들려면 세 가지 요소가 필수적이다. 첫째, 데이터. 둘째, 데이터를 인사이트로 변환시키는 사람. 셋째, 데이터 저장 장치나 CPU, GPU 같은 하드웨어와 분석 소프트웨어 등이다. 이 글에서는 첫 번째 요소인 빅데이터가 언제 어디서 어떻게 만들어지는지, 누가 왜 사용하고 싶어 하는지, 누가 소유하는지, 누가 누구의 데이터를 사용할지는 누가 결정하는지에 대해 이야기해 보겠다.

먼저 빅데이터는 어디서 어떻게 만들어지나? 첫째, 기계나 장비에서 온다. 사물이 24시간 어떤 상태인지 센서로 측정해 인터넷을 통해 서버 컴퓨터 한곳에 데이터를 모은다. 이걸 사물인터넷(Internet of Things, IoT)이라 부른다. 골목마다 설치된 CCTV, 주차장과 엘리베이터에 설치된 카메라, 기상청 온도계, 미세먼지 측정시설 등이 예다. 둘째, 소셜 미디어에서 온다. 오늘날 스마트폰을 통해 많은 사람이 ‘페이스북’에, ‘인스타그램’에, ‘유튜브’에 글과 이미지, 동영상을 올린다. 돈을 벌 목적이거나 내 주장을 펼쳐 영향력을 행사할 목적이므로 많은 사람이 읽고 봐야 하는 것이고, 따라서 전혀 프라이버시 보호 대상이 아닌 것들이다.

세 번째는 공공기관이나 기업에서 온다. 한 개인이 언제 태어났고, 어디서 누구와 살고 있는지에 관한 정보들이 행정안전부 컴퓨터에 보관되어 있다. 아침에 집에서 걸어 나가면 동네 골목에 설치된 CCTV가 나를 찍는데 이 동영상은 지자체 관제센터에 쌓인다. 매년 얼마나 어디서 벌었는지는 국세청에, 언제 출입국했는지는 법무부 출입국관리소에 쌓인다. 남자의 경우 군대에 가야 한다는 사실과 다녀온 기록은 병무청에 쌓인다. 내가 혹시라도 죄를 지어 재판을 받고 감옥에 다녀오면 그 기록도 법무부에 있다. 요즘에는 코로나바이러스감염증-19로 인해 어느 음식점, 커피숍, 시설에 다녀왔는지 질병관리청에 그 흔적을 꼭 남기게 됐다. 

기업에는 더 많은 데이터가 쌓인다. 어떤 단어나 사람을 검색했는지는 ‘구글’이나 ‘네이버’ 같은 검색 서비스 업체에, 언제 어디로 이동했는지는 교통카드나 내비게이션 앱 회사에, 어느 순간에 어디에 있었는지는 통신사에, 누구와 통화했는지도 통신사에 쌓인다. 누구와 어떤 메시지를 주고받았는지는 카카오에, 이메일은 네이버, ‘카카오’, ‘마이크로소프트’나 구글에 쌓인다. 얼마 예금하고 얼마 인출했는지는 은행에, 어떤 가맹점에서 언제 얼마 결제했는지, 현금 서비스를 얼마나 받았는지는 카드사에 쌓인다. 몸이 아파 병원에 가 증상을 이야기하고 검사받고 처방받으면 그 내역이 고스란히 해당 병·의원에 쌓인다. 일반 개인들도 꽤 많은 데이터를 확보할 수 있다. 강남역 사거리에 신호대기를 하고 있으면 그곳을 지나가는 수많은 사람들의 모습을 내 블랙박스가 찍고, 내 앞에서 주행하는 차, 끼어드는 차 모두 번호판을 찍고 저장하고 있다. 우리의 일거수일투족은 데이터화되고, 기관이든 개인이든 누군가의 저장장치에 들어간다.

세 번째 유형의 데이터는 다른 데이터와 달리 개인에 관한 프라이버시가 있는 데이터면서 개인이 소유하고 있지 않다는 특징이 있다. 개인의 의사와 무관하게 쓰일 수 있다는 위험이 있다. 그러나 한편으로는 우리나라에 있는 좋은 자원이므로 이걸 이용해 좋은 기회를 만들어 볼 수도 있다. 예를 들어, 개인의 병원 방문 데이터를 모두 모아 사람마다 ‘건강하게 사는 방법’ 서비스를 추천하는 스타트업을 생각해 보자. 해당 서비스를 제공하려면 내 데이터를 확보해야 한다. 과거 건강 검진 결과, 현재 복용하는 약, 과거 받은 시술이나 수술에 부모와 형제의 가족 병력 등이다. 그리고 나 말고도 다른 많은 사람의 데이터가 필요할 것이다. 다른 사람들, 특히 나보다 다섯 살 많은, 열 살 많은 사람의 사례로부터 나의 미래를 유추하기 때문이다. 이것이 인공지능·머신러닝의 핵심 구동 방식인 귀납적 추론이다. 그런데 개인정보 보호법·정보통신망법·신용정보법 등 소위 ‘데이터 3법’에 의해 타 기관 및 기업이 데이터를 확보하는 것은 불가능하다. 이런 법률을 만드는 것은 공무원, 국회의원이고 시민단체도 압력을 행사한다. 결국 내 데이터를 누가 활용할지를 결정하는 과정에서 정작 나 자신은 완전히 배제되고 있는 것이다.

프라이버시 보호가 중요함에도 불구하고, 데이터를 전혀 못 쓰게 하면 우리는 주요한 자원을 활용하지 못해 기회를 놓치는 우를 범하게 된다. 교통사고로 인해 소중한 생명을 많이 잃는다고 해서 아예 자동차를 타지 말자고 하지는 않는다. 위험과 기회 사이에서, 기회를 살리면서 위험을 최소화하는 방법을 찾아야 한다. 한 가지 희망은 ‘마이데이터’라는 개념인데, 데이터를 생성한 우리 개인이 주인이라는 생각에 따라, 우리에게 허락을 받으라는 것이다. ‘허락’하면 제3자가 내 데이터의 저작권을 가지고 있는 소유주로부터 적법하게 받아올 수 있다. 앞에서 언급한 건강 서비스를 제공하는 스타트업이 탄생할 수 있다. 이는 아직 금융 분야에서만, 그것도 몇몇 회사에만 허가하고 있다. 이를 금융뿐만 아니라 의료 데이터, 위치 데이터, 검색 데이터를 대상으로 누구에게든 주거나 팔 수 있도록 해야 한다. 그리고 마이데이터로 사업을 하고자 하는 기업도 누구든지 할 수 있게 허가제가 아닌 신고제로 바뀌어야 한다. 이를 통해 우리나라의 소중한 자원인 빅데이터가 우리의 삶을 향상시키는 방향으로 활용돼야 한다.

저작권자 © 대학신문 무단전재 및 재배포 금지