[연재] 생활 속의 과학 쩘 음성 인식

“조명!”을 외치면 알맞은 밝기의 조명이 켜지고, “뉴스!”를 외치면  뉴스가 들려온다. 이렇게 영화같은 현실을 만드는 음성 인식 기술은 어떤 원리로 작용할까.

‘음성을 인식한다’는 것은 ‘성대의 진동이 공기를 통해 전달돼 사람의 청각으로 지각된다’는 것을 의미한다. 컴퓨터가 음성을 인식하기 위해서는 우선 이 진동이 주기적으로 반복되는 수, 즉 주파수를 분석해야 한다.

일반적으로 ‘음성 인식 시스템’은 사용자가 발성한 음성의 특징을 추출하는 ‘전(前)처리부’와 그 특징을 분석해 결과를 얻는 ‘인식부’로 나눌 수 있다.

전처리부에서는 주파수 분석을 통해 특징벡터를 추출한다. 특징벡터란 주파수의 특징을 숫자열로 표현한 것이다. 특징벡터를 추출하는 방법으로는 모든 주파수 대역을 동일한 비중으로 분석하는 ‘LPC(Linear Predictive Coding) 추출법’과 사람의 청각적 특성(달팽이관의 주파수 특성)을 반영해 더 정교한 음성인식에 사용되는‘MFCC(Mel Frequency Cepstral Coefficients) 추출법’이 많이 쓰인다.

한편 인식부에서는 기존에 저장된 음성학적 정보와 전처리부에서 추출한 특징벡터를 비교해 최종적으로 문장을 인식한다. 인식부에서 주로 사용하는 기술은 음성을 단어로 조합한 후 단어를 문장으로 통합[]구성하는 과정인 HMM(Hidden Markov Model) 방식이다. 이 방법은 음성단위 형태의 통계적 정보를 확률모델 형태로 저장해놓은 뒤 실제로 음성이 입력되면 각각의 모델에서 이 패턴이 나올 수 있는 확률을 계산해 가장 적합한 음성단위를 찾아내는 것이다.

예를 들어 ‘신문을 읽다’는 [신무늘 일따]로 발음되지만 음성인식 시스템은 이 발음을 ‘신문을 읽다’란 문장으로 바르게 인식한다. 음성 인식 시스템은 기존에 저장돼 있던 데이터베이스를 통해 ‘을’과 ‘늘’이라는 두 개의 후보 단어를 만들고, 문장 구조 분석을 통해 ‘을’이 문장에서 조사 역할을 담당한다는 것과 ‘늘’이라는 조사는 존재하지 않는다는 것을 파악한 후 ‘을’을 선택한다. 즉, 데이터베이스에 저장됐던 어휘 및 문장 구조와 실제 음성의 비교를 통해 알맞은 문장으로 인식하는 것이다.

최근에는 기존의 음성인식 시스템의 한계를 보완한 ‘멀티모달(multimodal)’ 음성인식 시스템 연구가 진행 중이다. 음성은 같은 언어라도 화자의 성별, 나이, 발음 상태 등에 따라 물리적 성질이 달라진다. ‘멀티모달’ 시스템은 이를 보완하기 위해 음성뿐 아니라 입술의 움직임 등 말 하는 화자의 영상도 함께 분석하는 방식이다.
저작권자 © 대학신문 무단전재 및 재배포 금지