데이터 과학의 이해
데이터 과학의 이해
  • 대학신문
  • 승인 2019.12.01 04:25
  • 댓글 0
이 기사를 공유합니다

통계학과 김용대 교수
통계학과 김용대 교수

2019년도에 학계와 산업계에서 가장 많이 회자되고 있는 단어로 ‘4차 산업혁명’ ‘빅데이터’ ‘인공지능’과 더불어 ‘데이터 과학’을 꼽을 수 있을 것이다. 데이터 과학과 관련해 서울대에서는 2020년에 데이터사이언스 대학원이 교수 15명, 석사 40명, 박사 10명의 정원으로 새롭게 설립되는 큰 경사를 맞는다. 그런데, 다른 단어들과는 조금 다르게 데이터 과학이라는 단어에 대한 이해는 전공 분야나 유관 분야에 따라서 상이하며, 때때로 서로 배치되기도 한다. 데이터 과학에 대한 명확한 이해는 국가적으로는 4차 산업혁명의 선도에, 교내에서는 새롭게 설립되는 데이터사이언스 대학원의 지속적인 발전을 위해 필수적이며, 시급히 정립돼야 할 것이다.

데이터 과학에 대한 첫 번째 오해는 ‘과학을 위한 데이터’라는 인식이다. 최근에 과학의 새로운 패러다임은 데이터다. 과거에는 실험, 이론, 계산에 의존했던 과학의 발전이 현재는 데이터에 크게 의존하고 있다. 의학에서의 정밀 의료, 생물학에서의 생물정보학, 기상학에서 엘리뇨 예측, 인지과학에서 뇌 네트워크 분석, 언어학에서 텍스트마이닝 등의 데이터 중심 연구가 다양한 과학 분야에서 크게 각광받고 있다. 물리학에서도 데이터가 핵심적인 역할을 하는데, 2017년에 노벨물리학상을 받은 중력파 입증에 대한 연구에서도 데이터가 중요한 역할을 했다.

데이터가 다양한 과학 분야에서 큰 역할을 하고 있지만, 이런 연구는 데이터 과학을 활용한 것이지 데이터 과학 그 자체는 아니다. 데이터 과학은 데이터를 기반으로 합리적 사고를 하는 방법에 대한 과학이다. 즉, 데이터 과학은 데이터 분석을 위한 과학이며 기존의 학문 분야 중에서는 통계학과 가장 관련이 깊다. 데이터 기반의 합리적 의사 결정은 일반인의 생각보다 훨씬 어려우며, 특별한 교육을 통해서만 길러질 수 있다. 

영국에서 샐리 클라크라는 여자의 첫 번째 아이는 출생 11주 만에 죽었고 두 번째 아이는 8주째에 죽었다. 소아과 의사로부터 받은 “우연히 두 아이가 갑자기 죽을 확률은 거의 1/73,000,000”이라는 계산을 바탕으로 검사는 클라크를 살인범으로 구속했다. 하지만 그 이후에 검사가 계산한 확률을 바탕으로 한 의사 결정에 큰 문제가 있었음이 드러난다. 두 아이가 갑자기 급사할 확률도 낮지만, 두 아이가 엄마한테 살해당할 확률도 매우 낮다는 것이다. 통계학 전문가에 의해서 확률이 다시 계산되는데, “엄마가 두 아이를 연속으로 살해할 확률”은 “두 아이가 연속적으로 갑자기 급사할 확률”의 1/9 수준이라는 결론이 나왔고 상급 법원은 클라크를 무죄로 풀어 준다. 하지만 이미 알코올 중독자가 된 클라크는 출소 이후 4년 만에 알코올 과다 섭취로 사망한다. 이 사건은 데이터 기반의 합리적 사고가 얼마나 어려운지, 합리적 의사 결정이 결여됐을 때 어떤 인권 침해가 발생하는지를 잘 보여 준다. 데이터 과학이 필요한 이유다.

데이터 과학의 두 번째 오해는 ‘데이터를 위한 기술’이라는 것이다. 데이터 과학이란 데이터로부터 새로운 정보나 지식을 찾기 위한 데이터의 수집, 저장 그리고 분석을 위한 유관 기술(컴퓨터, 통신, 소프트웨어 등)이라는 것이다. 사실 데이터 기술은 데이터 과학의 중요한 한 부분이기는 하지만 데이터 과학의 전부는 아니다. 데이터 과학의 핵심은 데이터로부터 유용하고 새로운 정보와 기술을 찾기 위한 합리적 사고 방법이다. 

데이터 과학은 요리에 비유할 수 있다. 요리의 4요소는 재료, 도구, 조리법 그리고 요리사다. 데이터 과학의 4요소에서 재료는 데이터, 도구는 서버, 조리법은 분석 방법론과 알고리즘 그리고 요리사는 분석가에 대응된다. 요리에서 추구하는 것은 단순히 음식을 만드는 것이 아니라 맛있게 만드는 것이다. 그런데 여기서 ‘맛있는 음식’의 정의는 과학적으로 정할 수 없는 예술의 영역이며, 맛있는 음식을 만들기 위해서는 요리사의 역량이 가장 중요할 것이다. 데이터 과학에서도 단순히 데이터를 분석하는 게 중요한 것이 아니라 잘 분석하는 것, 즉 새롭고 유용한 정보를 찾는 합리적인 분석을 하는 것이 중요하다. 그리고 데이터를 잘 분석하는 데 있어 가장 중요한 요소는 바로 분석가며, 분석가는 합리적 의사 결정을 위한 방법론에 대한 깊은 이해가 있어야 한다. 

국내에는 데이터 과학의 발전 방향을 이끌어 가는 기관이나 연구 집단이 잘 보이지 않는다. 비즈니스에서 데이터 사용에 관심이 많은 빅데이터나, 기계 학습을 기반으로 하는 인공지능 분야에서 데이터 과학이 언급되기는 하지만, 데이터 과학 자체에 대한 고민이나 연구는 충분하지 않은 듯하다. 관악에서 2020년에 데이터사이언스 대학원이 개교하는 것을 계기로 서울대가 국내, 아니 나아가 국제적으로 데이터 과학을 선도해주기를 간절히 바라본다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.