▲지동표 교수 ©

시간, 거리, 질량에는 기본단위(예를 들어 초, cm, gr)가 있어 이를 이용하여 전혀 관계없는 두 물건(혹은 사건)의 질량, 크기 혹은 시간을 말할 수 있다. 예를 들어 키가 178cm, 책상의 높이는 87cm 등이다. 이들에 비하여 아름다움을 계량화한다는 것은 말도 안 된다고 할 것이다. 그런데 소설 「토지」가 주는 정보와 「삼국지」가 주는 정보를 비교할 수 있을까? 더 나아가 이들 정보의 양을 길이나 무게처럼 계량화할 수 있을까? 정보의 양을 체계적으로 계량화할 수 있으면 정보의 홍수시대에 살고 있는 이 시대에 큰 도움이 될 것이다.


정보의 계량화는 이미 1940년대에 미국의 샤논과 구소련의 콜모고로프 등에 의하여 이뤄졌다. 19세기 열역학, 특히 열은 온도가 높은 데서 낮은 데로 흐른다는 열역학 제 2법칙에서 그 기원을 찾을 수 있으나 제 2차 세계대전을 통하여 암호와 통신의 중요성이 인식되면서 정보를 계량화하는 작업이 시작되었다. 그리고 컴퓨터의 탄생으로 이 작업의 중요성이 더욱 고양되었다. 시간, 질량, 길이와 같이 정보를 하나의 물리적 양으로 이해한 정보의 계량화는 상대성 이론이나 양자역학에 결코 뒤지지 않는 20세기에 이룩한 가장 중요한 과학적 사건이다. 이는 현재 우리가 누리고 있는 정보사회의 초석이 된다.


정보의 계량화는 복잡성의 계량화라 할 수 있다. 어떤 구조물의 복잡성은 그 구조물을 재구성하기 위하여 가장 경제적으로 정보를 줄 때 필요한 비트(0과 1) 수이다. 0과 1로 이루어진 유한 수열에 대하여 그 복잡성을 알아보자. 예를 들어 '00……………0'과 같이 '0' 천 개로 이루어진 수열을 그대로 다 쓰는 대신 '0 천 개'라고 하면 될 것이다. '0101……………01'과 같이 0과 1이 교대로 나오는 수열은 '0과 1을 교대로 천 개'라고 하면 될 것이다.


이에 비하여 동전을 던져 앞이 나오면 0, 뒤가 나오면 1을 대응시켜 동전을 천 번 던져 나온 결과가 있다면 이는 짧게 표현할 방법이 없다. 0과 1로 이루어진 수열의 복잡성은 이 수열을 만들어 주는 가장 경제적인 표현의 길이로서 잰다.


따라서 처음 두 예는 1000보다 훨씬 작아진다. 3번째 예는 1000이 된다. 이를 '콜모고로프 복잡도'라고 한다. 콜모고로프 복잡도는 현재 우리가 자주 이용하는 그림, 동영상, 음성 압축에서와 같이 데이터 압축이나 통신, 무작위도(randomness) 측정에 기본이 된다.


앞에서 정보의 계량화는 복잡성의 계량화라 하였다. 이 개념은 자연어의 연구에도 쓰인다. T(n)을 길이가 n인 의미 있는 구(句)의 개수라 하고 이를 T(n) 쩁 2ⁿH 형태로 표현할 때 H가 그 언어의 엔트로피라 한다. 이를 어떤 특별한 책에 한정시켜 조사하여 얻을 때 H는 그 책이 주는 정보의 척도가 된다. H가 크면 많은 정보를 준다고 할 수 있다. 1960년 미국에서 조사한 바에 의하면 성경책의 경우는 4.086, 「Atlantic monthly」라는 고급잡지의 경우는 4.152였다. 또한 성경을 여러 나라 언어로 번역된 경우에 H를 조사하였는데 사모아 언어로 번역된 경우는 3.37, 구러시아 언어로 번역된 경우는 4.612이였다. 사모아 언어는 16개의 알파벳으로 구러시아어는 35개의 알파벳으로 이뤄졌다. 한글의 경우는 자료가 없어 인용하지 못하였다.

지동표 교수 (자연대ㆍ수학과)

저작권자 © 대학신문 무단전재 및 재배포 금지