기계번역, 역사와 미래를 조망하다

‘언어의 장벽’이란 말이 점점 무색해지고 있다. 자동번역 설정만 켜놔도 웹 정보를 바로바로 한국어로 열람할 수 있고, 번역 앱 하나면 낯선 외국 땅에서도 큰 무리 없이 현지어로 소통할 수 있다. 최근 2, 3년간 기계번역은 인간의 번역업무를 빠르게 대체해 나갔다. 한 명의 번역가를 양성하는 데 필요한 시간과 비용, 노력을 생각해보면 기계번역의 효율성을 가늠해볼 수 있다. 물론 아직 기계번역이 인간의 번역능력을 온전히 구현했다고 볼 수는 없다. 그럼에도 기계번역은 날로 발전해가고 있으며, 이제 인간이 해야 할 일은 직접 번역작업을 하는 것이 아니라 번역에 필요한 데이터를 연구하는 일인 것처럼 보인다. 기계번역은 어떻게 작동하고, 앞으로 얼마나 더 진화할 수 있을까? 『대학신문』에서 기계번역의 발전사와 원리, 활용, 그리고 전망에 대해 살펴봤다.

 

기계는 어떻게 번역을 해낼까?

 

기계번역 연구는 1954년 미국 조지타운대와 IBM이 최초의 기계번역 공개실험을 시연한 이후 본격적으로 시작됐다. 이들은 몇 가지 언어 규칙을 토대로 60개의 러시아어 문장을 영어로 번역하는 데 성공했다. 이때부터 1980년대까진 번역에 사용되는 언어적 규칙들을 알고리즘화하는 ‘규칙기반 기계번역’(Rule Based Machine Translation)이 개발의 주가 됐다. 규칙기반 기계번역은 ‘‘나’를 ‘I’로 번역한다’ ‘주어를 제일 앞에 둔다’와 같이 언어학적 규칙에 따라 투입된 문장을 번역문으로 산출하는 방식을 가리킨다. 하지만 이 방식은 무조건 규칙대로만 번역을 수행하므로 번역의 유연성이 매우 떨어진다. 네이버 파파고팀 신중휘 리더는 “규칙기반 기계번역은 규칙에 없는 문장이 투입될 시 번역이 불가능하며 규칙 간의 관계를 조정하는 것이 지나치게 복잡해 개발에 너무 오랜 시간이 걸린다”고 설명했다.

이런 한계를 극복하고자 1993년 ‘통계기반 기계번역’(Statistical Machine Translation)이 등장했다. 통계기반 기계번역은 어떤 단어가 특정 단어로 번역될 통계적 확률을 바탕으로 번역을 수행한다. 이때 사용되는 확률값들은 ‘병렬 코퍼스’(Parallel Corpus)로부터 추출된다. 코퍼스는 발화된 말이나 발간된 글을 모아놓은 방대한 데이터베이스를 뜻한다. 그중에서도 번역을 목적으로 원문과 번역문을 대응시켜 쌍을 이루고 있는 코퍼스를 병렬 코퍼스라 한다. 통계기반 기계번역이 이뤄지는 과정은 다음과 같다. 병렬 코퍼스 내에서 ‘love’라는 단어는 ‘사랑’이라는 단어와 쌍을 이루는 경우가 가장 많을 것이다. 하지만 ‘love’-‘우정’의 단어 쌍이 등장할 확률은 그에 비해 훨씬 낮을 것이다. 통계기반 기계번역에선 병렬 코퍼스 내 각각의 단어쌍이 대응 관계로 출현할 확률을 그 단어쌍의 통계값으로 간주한다. 이때 높은 확률로 결합하는 쌍들이 선택돼 번역이 이뤄진다. ‘love’-‘사랑’이 0.9의 통계값을, ‘love’-‘우정’이 0.05의 통계값을 갖는다면 ‘love’를 ‘사랑’으로 번역한 결과가 도출된다. 신중휘 리더는 “그러나 단어기반 통계적 기계번역은 단어가 문맥에 따라 다르게 번역될 가능성을 유연하게 반영하지 못해 결국 규칙기반 기계번역의 성능을 넘어서지 못했다”고 지적했다. ‘ball’이라는 단어는 대개 ‘공(球)’과 결합하므로 번역과정에서 채택되겠지만 ‘ball’은 분명 ‘무도회’를 의미할 때도 있기 때문에 오역을 낳을 수 있다는 것이다.

이에 비해 인접 단어들을 함께 파악하는 ‘구(phrase)기반 통계적 기계번역’은 단어들이 연속으로 등장했을 때 이를 묶음으로 이해해 문맥을 좀 더 정확하게 짚어낼 수 있었다. 예를 들면 ‘function’은 ‘기능’으로 번역될 확률이 가장 높으므로 단어기반 방식에선 ‘quadratic function’이 ‘이차 기능’으로 번역할 것이다. 그러나 구 기반 방식에선 ‘quadratic’과 ‘function’이 나란히 등장하면 높은 확률로 ‘이차 함수’를 의미한다는 것을 알 수 있으므로 같은 구를 번역할 것이다. 구 기반 통계적 기계번역은 높은 성능을 보여줬고, 2006년 구글 번역이 이를 적용한 서비스를 선보이기도 했다. 그러나 신중휘 리더는 “연결된 의미로 파악할 수 있는 두 단어가 긴 문장 내에서 멀리 떨어져 있는 경우 이를 구로 인식하는 데 어려움이 있다”고 말했다. 이어 그는 “문장의 어순을 배열하는 작업이 통계적 확률의 연산으로 가능한 일이 아니라는 점 역시 해결해야 할 과제였다”고 지적했다.

 

신경망 기반 기계번역, 새로운 시대를 열다

임베딩 기술은 3차원 벡터 공간에 단어 정보를 위치시킨다. 남자(man)-여자(woman), 삼촌(uncle)-이모(aunt)의 의미 관계를 벡터상에 나타낸 모습이다.

이와 같이 통계기반 기계번역에선 공통적으로 ‘데이터’만을 최대한 활용해 번역모델을 개발하려는 노력이 두드러졌다. 머신 인텔리전스 연구실 황용근 연구원은 “과거의 연구들이 주로 언어학적 지식을 모형화하는 데 초점을 맞췄다면 최근으로 올수록 데이터를 제외한 다른 자원들을 배제하려는 경향이 나타난다”고 설명했다. 현대 기계번역 연구의 주류를 이루는 신경망 기반 기계번역(Neural Machine Translation)은 기존의 단어나 구 기반 방식에서 더 나아가 데이터를 보다 정교하게 처리해 한층 자연스러운 번역문을 산출해내는 방식이다.

신경망 기반 기계번역은 입력된 문장의 요소들을 3차원 공간의 벡터값으로 전환하는 과정을 포함한다. 이때 해당 요소들은 의미 연관성에 따라 공간 내에 정렬된다. 이는 마치 기계가 단어의 의미를 이해하고 일종의 구조화를 시도하는 것처럼 보인다. 예를 들어, 그림①의 ‘uncle’에 해당하는 벡터값에서 ‘man’을 소거하고 ‘woman’을 더하는 연산을 거치면 ‘aunt’라는 값이 도출된다. 이를 ‘임베딩(Embedding) 기술’이라고 한다.

신경망 기반 기계번역은 임베딩 기술을 활용해 입력 문장을 벡터 형태로 변환하는 부분인 인코더(Encoder)와 출력될 번역문 문장을 생성하는 부분인 디코더(Decoder)로 구성된다. 디코더에선 구조화된 의미를 담고 있는 벡터 형태의 원문 정보를 사람이 이해할 수 있는 번역문으로 출력할 수 있도록 신경망을 활용한다. 그 방법 중 하나가 ‘어텐션(Attention) 기술’이다. 어텐션 기술은 문장을 구성하는 벡터 형태의 정보들 중 번역할 때 어떤 부분에 가중치를 둘지 조절하는 기술이다. 신효필 교수(언어학과)는 “어텐션 기술을 통해 문장을 이루는 구성요소들 가운데 주가 되는 의미와 부가 되는 의미를 파악해 번역과정에 반영할 수 있게 된 것이다”라고 설명했다. 이처럼 어텐션 기술은 언어적 정보들이 신경망 내에서 더욱 정교하게 정렬돼 정확한 의미를 담아 번역할 수 있도록 한다.

신경망 기술의 도입으로 기계번역의 성능도 비약적으로 상승했다. 그 배경엔 컴퓨터의 성능 발전과 데이터 규모의 증가가 있었다. 정보 처리의 복잡도가 증가함에 따라 이전보다 방대해진 연산 규모를 감당할 수 있는 컴퓨터의 성능과 이를 충분히 실험할 수 있는 데이터가 필요했다. 특히 대량의 질 좋은 데이터를 활용해 번역모델의 성능을 높일 수 있다는 점 때문에 번역 데이터를 많이 확보하고 있는 IT업계를 중심으로 신경망 기반 기계번역이 개발되고 있다.

기계번역의 대표주자는 구글이지만 국내에서도 활발한 연구와 번역모델 개발이 진행되고 있다. 네이버 파파고는 2016년에, 카카오 아이 번역은 2018년에 신경망 기반 기계번역 서비스를 제공하기 시작해 높은 번역 성능을 보여주고 있다.

국내 번역기 서비스에선 한국어의 특성을 잘 반영한 모델을 개발하려는 노력도 두드러진다. 신중휘 리더는 “한국어는 형태소 기반의 언어로 어떻게 끊어 분석하는지에 따라 정보의 처리가 달라진다”고 말했다. 예를 들어 ‘백조’라는 단어를 단일한 형태소로 분석할 경우 ‘swan’으로 번역되지만 ‘백’과 ‘조’라는 두 개의 형태소로 인식한다면 ‘100 trillion’으로 번역될 것이다. 신중휘 리더는 “파파고는 이처럼 한국어의 형태적 특성들을 많이 들여다보고 번역모델 개발에 적용한다”고 말했다. 한편 카카오 아이 번역에선 기계 학습에 활용되는 데이터의 품질을 높이기 위해 기계가 스스로 데이터를 평가하고 분류 기준을 개선할 수 있게 하는 기술을 개발하기도 했다.

 

기계번역이 보여준 가능성

 

여러 단계를 거쳐 발전한 기계번역은 오늘날 다양한 분야에서 활용되고 있다. 아직 기계번역의 품질이 인간의 번역물만큼 좋진 않지만, 초벌 번역에 기계번역을 활용해 작업 시간을 단축하는 사례는 곳곳에서 찾아볼 수 있다. 특히 이는 용어의 일반적인 의미가 어느 정도 통용되는 분야에서 텍스트를 번역할 때 기계번역이 일반적으로 활용되고 있다. 예를 들어 스포츠 기사에선 ‘ball’을 ‘무도회’가 아닌 ‘공(球)’으로, 수학 논문에선 ‘function’을 ‘기능’이 아닌 ‘함수’로 번역하는 것을 원칙으로 하면 오류가 날 가능성이 적다. 황용근 연구원은 “기사, 산업문서, 카탈로그, 특허문서, 과학논문초록 등에 관한 데이터셋은 이미 많이 확보됐다”며 “날마다 쏟아지는 정보들을 인간 번역가가 일일이 번역할 수는 없으므로, 전반적인 내용만을 파악하려는 경우 기계번역을 적극적으로 활용하는 편”이라고 말했다. 일례로 지난 5월 특허청은 외국인이 한국 특허심사정보를 자국어로 조회할 수 있도록 신경망 기계번역을 도입할 것을 결정했다고 발표했다.

기계번역의 활용 가능성은 여기서 그치지 않는다. 수백 년 전에 쓰인 고전문헌은 최첨단 기계번역과 어울리지 않는 듯 보이지만 실제로는 그렇지 않다. 한국고전번역원 고전정보센터에선 신경망 기반 기계번역을 활용한 고전문헌 기계번역시스템을 개발하고 있다. 한국고전번역원 선보민 담당은 “2017년부터 진행된 1, 2차 프로젝트에서 총 78만 건의 코퍼스 기계 학습이 이뤄졌다”고 설명했다. 선 담당은 “아직은 데이터 확충 및 번역시스템의 고도화가 필요한 상황으로, 작업을 계속 진행해 초벌 번역수준의 자동번역시스템 구축이 완료되면 『승정원일기』의 완역에 필요한 시간을 감축할 수 있을 것으로 내다본다”고 말했다.

기계번역은 과거의 흔적을 해석하는 데 도움을 주는 한편 새로운 기술과의 연동으로 미래 사회의 모습을 만들어나가는 데 기여하기도 한다. 카카오 아이 번역 오형석 연구원은 “기계번역을 문자인식(Optical Character Recognition, OCR) 기술, 음성인식/합성 기술 등을 함께 활용할 경우 다양한 서비스로 확장시킬 수 있다”고 말했다. 오 연구원은 “예를 들어 사물인터넷(IoT)* 기술을 활성화하기 위해선 텍스트뿐 아니라 발화 상황, 사진, 영상 등으로부터 정보를 추출하고 번역해 여러 사물 주체들이 이를 주고받을 수 있어야 한다”고 설명했다.

 

날로 발전하는 기계번역기술을 보고 있으면 과연 기계번역이 인간의 번역능력에 수렴할 정도로 진화할 수 있을지 궁금증을 품게 된다. 그 답을 쉽게 내릴 순 없겠지만 적어도 우리가 오늘날 체감하는 놀라운 변화를 과거의 사람들은 전혀 상상하지 못했을 것이다. 번역이라는 행위는 기본적으로 소통을 위해 이뤄진다. 기계번역을 통해 우리는 더 빠르게, 더 많이, 그리고 어쩌면 더 정확하게 소통할 수 있을 것이고, 이는 지금의 우리가 상상하지 못하는 미래를 열어갈 것이다. 기계번역기술이 그려낼 내일의 모습이 기대되는 대목이다.

 

 

*사물인터넷(IoT): 사물에 센서를 부착해 실시간으로 정보를 인터넷으로 주고받아 소통할 수 있는 기술이나 환경.

삽화: 권민주 기자 kmj4742@snu.kr

 

저작권자 © 대학신문 무단전재 및 재배포 금지