인문데이터과학, 직관에 객관을 더하다

| 취재 | 인문데이터과학의 현재와 미래

어느 날 A나라로 테러범의 편지 한 통이 전달돼 나라 전체가 발칵 뒤집혔다. 편지의 내용이 “지금 당장 내 계좌로 100만 불을 입금하지 않으면 국회에 설치해놓은 폭탄을 터뜨리겠다”였기 때문이다. 모두가 당황하는 사이 데이터 사이언티스트들이 침착하게 편지를 분석하기 시작했다. 그들은 그동안 축적된 A나라 사람들의 필적에 관한 데이터를 기반으로 테러범의 필체를 비교분석하기 시작했다. 분석 결과, 테러범은 과격파 국회의원 중 한 명으로 드러났다. A나라는 폭탄이 터지기 전에 무사히 테러범을 체포할 수 있었다. 이는 박진호 교수(국어국문학과)가 제시한 빅데이터의 활용 가능성에 관련한 시나리오 중 하나다.

기하급수적으로 많은 양의 데이터가 쌓이면서 이를 보다 효율적으로 처리하는 기술이 필요해졌고, 이 같은 기술은 반도체, 유통, 보험, 보안 등 여러 산업 전반에도 활용되며 그 중요성이 커지고 있다. 더 나아가 빅데이터는 다양한 학문과도 연계돼 큰 도움을 주고 있다. 특히 수치화나 통계 처리와는 전혀 관련 없어 보이는 인문학에까지 빅데이터 기술이 연결되면서 인문데이터과학 관련 연구가 활발히 진행되고 있다.

국사학과 연계해 연구를 진행했던 김준식 씨(통계학과 박사과정·16)가 자신이 참여 중에 있는 인문데이터과학 연계 연구 진행 상황에 대해 설명하고 있다. 회색 선은 이어진 인물 간의 관계를 보여주며 인물 이름 위의 점은 그 크기가 커질수록 중요성이 더 높음을 의미한다.

데이터과학, 인문학의 새로운 동반자

그러나 인문데이터과학의 출발점이 단순히 빅데이터 처리 및 분석 기술의 발전에 있는 것은 아니다. 인문학 자료를 데이터로 만들고, 이를 처리하고 분석하는 일은 인문학 연구에서의 주요한 업무였다. 특히 언어학의 경우 수학적 방법론을 이용해 이론을 객관적으로 검증하고 효과적으로 연구하고자 하는 움직임이 90년대부터 있었다. 이 시기에 역사, 철학, 문학, 언어학 등 여러 학문 분야의 자료들도 전산화 작업이 진행됐다. 박 교수는 “당시 국사편찬위원회, 고전번역원, 한국학중앙연구원을 비롯한 인문학을 연구하는 국책기관들이 세워졌으며 조선왕조실록, 승정원일기 등 문헌 자료의 데이터베이스화가 이뤄졌다”고 언급했다.

이처럼 인문데이터 처리와 분석을 위한 기초 데이터는 이미 구축돼있었다. 그러나 수치화된 정형 자료와 달리 수치화되지 않은 비정형 자료에 가까웠던 인문학 데이터는 당시 기술로 분석하기 어려웠다. 신효필 교수(언어학과)는 이와 관련해 당시의 작업은 “보다 많은 사람이 접근할 수 있도록 디지털화된 자료를 보여주는 웹을 만드는 공공 서비스적 요소가 더 강했다”고 언급했다. 그러나 빅데이터의 처리가 가능해지면서 비정형 자료도 분석할 수 있는 기반이 마련됐고, 딥러닝, 머신러닝 등 다양한 빅데이터 처리 기술과 인문데이터가 결합해 인문학 연구에 있어서 새로운 연구 방향을 제시하거나 연구 영역을 더 넓힐 수 있었다.

이는 기존 인문학 연구 방법에 큰 변화를 일으켰다. 박 교수는 “그동안 인문학의 전통적인 연구방법은 서적을 많이 읽는 것이었다”며 “읽으면서 중요한 내용을 정리하고 주제와 관련된 내용을 직접 찾아 인용하며 논문을 쓰는 방식이었다”고 말했다. 그러나 데이터 처리기술이 발전하면서 직관이나 주관성이 다소 개입될 수밖에 없었던 연구 방식이 보다 객관적이며 정밀한 방식으로 바뀌게 됐다. 이는 수치와는 전혀 관련 없어 보이는 문학 연구에도 적용된다. 실제로 셰익스피어의 것으로 추정되는 작품의 진위여부를 판단하는 데에도 데이터과학이 큰 역할을 했다. 박 교수는 영국에서 이뤄진 해당 연구를 설명하며 “동사나 형용사의 사용 비율, 문장의 형식, 문체 등을 기준으로 셰익스피어의 작품과 동시대 다른 작가의 작품을 비교해 문제의 작품이 셰익스피어의 것인지 아닌지를 판단할 수 있었다”고 말했다. 이외에도 수많은 자료를 수작업으로 일일이 찾아보지 않아도 돼 많은 서적의 분석이 필요했던 인문학의 연구 속도와 효율성이 훨씬 높아졌다.

데이터의 홍수 속에서 더 좋은 콘텐츠를 낚으려면

언뜻 보면 인문데이터과학에서 수학적 모델링이 인문학적 지식보다 훨씬 중요하게 보인다. 실제로 데이터 처리가 잘못되면 분석 자체에 오류가 생기기 때문에 데이터를 처리하는 기술이 데이터과학의 가장 중요한 부분이라고 할 수 있다. 그러나 신 교수는 “데이터의 속성을 알고 접근하는 것과 이를 모르고 단순히 데이터에 처리기법을 적용하는 것은 다르다”며 인문데이터과학을 데이터과학과 별반 다르지 않게 보는 시각을 경계했다. 그는 “내용을 모르고 데이터 처리를 하면 오류를 낼 수 있다”고 말했다. 이는 국사학과와 연계해 조선왕조실록의 예송논쟁을 연구했던 장원철 교수(통계학과)의 연구에서 잘 드러난다. 장 교수는 “통계학도들이 조선왕조실록에서 중국 성현의 이름이 인용된 부분을 조선의 관료 이름으로 인식했다”며 “관련 지식이 부족하면 데이터 분석이 아예 잘못될 수도 있다”고 말했다.

일한 번역기 제작 프로젝트를 진행했던 박 교수도 비슷한 경험을 했다. 그는 당시의 상황을 회상하며 “띄어쓰기가 없는 일본어의 특성 때문에 번역기를 만들기 위해서는 주어, 목적어, 조사를 나눠 분석하는 언어학적 알고리즘이 필요했다”고 말했다. 그는 “이 일을 프로그램 개발부에 맡겼지만, 한국어와 일어의 문법적 차이를 제대로 이해하지 못해 이상한 결과물이 나왔었다”며 언어학적 지식 부족으로 인해 소통이 잘 되지 않았던 상황을 설명했다. 장 교수는 “같이 연구하는 상대방과 그의 특수한 학문을 이해할 수 있어야만 데이터 분석도 제대로 할 수 있다”며 인문학적 지식의 필요성을 재차 강조했다. 무엇보다 인문학적인 연구주제를 생각해내고 그 결과에 대해 해석하는 일은 전공지식을 가진 인문학도만이 할 수 있다. 박 교수는 “통계 기법은 분석 결과가 나오더라도 어떤 인문학적 특성이 이런 결과를 만들어냈는지 설명해주지 못한다”며 이를 해석하는 것이 인문데이터과학의 몫이라고 말했다.

숫자를 발판 삼아 도약할 인문학의 미래

이처럼 인문데이터과학은 인문학 연구의 효율성, 정확성의 향상에 큰 영향을 끼치며 날이 갈수록 중요해지고 있다. 이에 미국에서는 디지털 연구 센터와 같이 인문학적 데이터를 다루는 기관을 설립하는 등 많은 투자를 하고 있다. 선두주자는 아니지만 한국도 인문데이터과학 연구에 박차를 가하고 있다. 경희대에는 인문사회과학 중심의 빅데이터 연구소가 생겼으며, 서울대에는 인문데이터과학 연계전공이 생기는 등 대학마다 관련 전공과 연구소가 생기고 있다. 그러나 신 교수는 “유사한 관련 전공이 많이 생기고 있으나 여전히 인프라가 부족하다”며 인문학을 중심으로 하는 데이터과학에 대한 연구 및 지원 확대의 필요성을 언급했다. 대학의 제도적 문제, 비용의 문제 때문에 인문데이터과학은 하나의 독립된 전공보다는 연계전공 정도로만 개설된다는 것이다.

신 교수는 이러한 제도적 문제뿐만 아니라 수학, 통계에 대한 두려움 때문에 학생들이 시도조차 하지 않는 상황에 대한 우려도 드러냈다. 그는 “데이터의 기본적 처리 방법만 알면 인문학 내에서 다양하고 새로운 것을 개척할 수 있는 영역이 매우 확대된다”며 인문학도들이 수학에 대한 두려움을 떨쳐버려야 한다고 말했다. 장 교수도 “인문대 학생들이 수학, 통계를 못 한다는 장벽을 스스로 만들어 길을 막는다”며 “잘할 자신이 없다면서 처음부터 시도를 잘 하지 않으려 한다”고 덧붙였다.

이처럼 수치를 통한 분석과는 가장 거리가 멀어 보이는 인문학이라는 분야와 데이터과학이 결합하면서 다양하고 새로운 연구가 진행되고, 실제로 많은 성과를 보이고 있다. 그동안 해결하지 못했던 유명 작가의 작품 진위를 비롯해 평론가들의 성향에 대한 구체적이고 객관적인 분석을 하는 것 등이 그 예시다. 장 교수는 “인문학과 데이터과학은 서로 상호보완적인 관계”라고 말했다. 인문학과 데이터과학의 결합을 통해 인문학의 새로운 길이 열리길 기대해본다.

사진: 강승우 기자 kangsw0401@snu.kr

상단영역

본문영역

SNS 기사보내기