인공지능 씨앗 한글 말뭉치, 2007년 멈춰선 까닭

가 +
가 -

자연어 처리는 인공지능 기술에서 중요한 축을 담당한다. 인간의 말을 인식해 메시지를 분석하고 다시 답변을 내놓으려면 자연어를 처리할 수 있는 향상된 기술이 필요하다. 현재 많은 연구들이 인간의 눈을 대체하는 ‘비전 인식’에 몰두하고 있다. 이미지나 영상을 기계가 인식해 사물을 분별하고 나누고 예측하는 다양한 기술들이 선보이고 있다.

인간의 입과 귀를 보완하거나 대신하기 위한 연구도 한창이긴 하다. 애플이 시리나 썸리와 같은 기사 요약 서비스 등이 여기에 해당한다. 번역에서도 자연어 처리는 필수적이다. 하지만 비전 인식에 비해 더딜 수밖에 없다. 문자 언어가 깊숙이 관여돼있기 때문이다.

▲네이버 번역기 화면 갈무리

▲네이버 번역기 화면 갈무리

 

기계가 인간의 언어를 인식하기 위해서는 인간이 수천년 간 사용한 문자 언어를 ‘통달’해야 한다. 특히나 한국어를 이해하려면 한글이라는 언어의 역사적 굴곡까지도 파악해낼 수 있어야 한다. 이를테면, 현대 한글뿐 아니라 고어, 심지어 사자성어와 같은 자주 쓰는 한자어도 인식할 수 있어야 한다.

방언도 예외일 순 없다. 로봇의 모양을 한 인공지능 로봇이 제주에 거주하는 고령층의 대화를 인식하기 위해서는 제주어에 대한 데이터베이스가 갖춰져야 한다. 언어의 역사와 사회성에 대한 방대한 학습이 전제돼야 한다는 얘기다.

말뭉치(코퍼스)가 뭘까?

sejong

꼬꼬마 세종 말뭉치 검색 시스템 개요.(출처 : 이동주 등.(2010))

자연어 처리의 가장 밑단, 즉 기단부 역할을 하는 게 한글 말뭉치다. 이를 개발용어로는 코퍼스(Corpus)라고 부른다. 한글 말뭉치는 쉽게 말하면 한글 어휘와 어휘 특성의 저장소다. 디지털 사전에 비유될 수 있지만 그보단 복잡하다.

일반적으로 문서를 디지털화한 뒤 해당 문서에 사용된 모든 어휘를 문장, 어절, 형태소별로 추려내고 각각에 특성을 부여한다. 뿐만 아니라 동사의 경우 다양한 활용형태, 예를 들어 감사합니다, 감사하다, 감사해요? 등과 결과치들을 데이터베이스화 한다. 이동주(2010) 등은 “말뭉치는 분석 결과가 태그로 부착된 파일들의 집합”이라고 했다.

말뭉치는 텍스트분석이든 인공지능이든 언어 분석이든 개발과 연구를 위해 반드시 갖춰져야 할 디지털 데이터베이스다. 하지만 구축에 상당한 비용이 든다. 방대한 오프라인 문서를 디지털화한 뒤 일일이 태깅하는 작업이 필요하기에 초기 구축비용이 어마어마하다.

말뭉치 구축 범위를 어디까지 확장하느냐도 비용에 직접적으로 미치는 요인이다. 고어나 방언, 북한 언어까지 포함하게 되면 민간이 접근하긴 쉽지 않아진다. 결과적으로 한글 말뭉치 구축 작업은 공공 영역이 개입할 수밖에 없다. 그 결과물 또한 저작권으로 묶어두기 어려워 커먼스로 풀어야만 한다.

민간이 개발하기엔 너무나도 큰 비용

정부는 한글 말뭉치의 이 같은 성격 때문에 상당한 비용을 들여 프로젝트를 추진했다. 대표적인 사업이 21세기 세종 프로젝트다. 국립국어원은 1998년부터 2007년까지 150억원의 예산을 투입해 이 프로젝트를 완료했다. 여기엔 세종 말뭉치라는 한글 말뭉치 사업이 포함돼있었다. 그것도 무려 2억 어절에 해당하는 방대한 구축 작업이었다. 이는 영국이나 미국, 일본에 뒤지지 않는 규모로 평가됐다.

그렇게 탄생한 세종 말뭉치는 자연어 처리 분야에서 다양하게 활용되고 있다. 대표적으로는 서울대에서 개발한 꼬꼬마 세종 말뭉치 활용 시스템이다. 세종 말뭉치를 데이터베이스에 저장해 웹 프로그램 형태로 구현한 사례다. 말뭉치 통계 정보 조회, 말뭉치 검색, 한국어 쓰기 학습의 세 가지의 기능을 갖추고 있다.

일본어 형태소 분석기 엔진에 세종 말뭉치를 학습해 한국형 형태소 분석기로 탄생한 사례도 있다. 은전한닢 프로젝트에 따라 개발된 ‘mecab-ko’ 형태소 분석기다. ‘mecab-ko‘는 세종 말뭉치에서 2만여 문장을 가져와 분석 엔진을 학습시켰다.

자연어처리 스타트업엔 또다른 ‘장벽’

NLP_TREND

자연어 처리에 광범위하게 활용되던 세종 말뭉치는 2007년 기점으로 업데이트가 사실상 중단됐다. 더 이상 제2의 21세기 세종 프로젝트가 진행되지 않고 있는 탓이다. 10년이 지나는 동안 수많은 인터넷 신조어가 탄생하고 있고 광범위하게 일상에 활용되고 있지만 세종 말뭉치에는 반영이 되지 않는다. 비교적 변화가 적은 언어 유형은 상관이 없지만 구어와 같은 메신저 용어 등은 세종 말뭉치에서 품사 구별조차 하지 못하는 실정이다.

세종 말뭉치 사업을 주도하고 관리하고 있는 국립국어원도 아쉬워하기는 마찬가지다. 최정도 국립국어원 학예사는 “국립국어원에서 말뭉치를 만들어서 배포하고 싶지만 지속적으로 지원이 안되는 측면이 있다”고 했다. 그는 “예산을 따서 하고 싶지만 어려운 측면이 있다”고도 했다. 그는 “최신 것들이 코퍼스에 들어와야 하고 구성면에서도 IT와 관련해서 등장하는 단어들을 찾고 싶다면 구성도 잘해야 한다”라며 “하지만 현실적으로 여의치가 않다”고 말했다.

정부가 ’한국형 알파고‘니 하며 인공지능 사업에 1조원의 예산을 투입할 기세지만 한글 말뭉치 사업과 같은 구체적인 항목은 아직 포함되지 않은 상태다.

한국 말뭉치 업그레이드가 단절되면 자연어처리 기술로 인공지능 시장에 진입하고자 하는 스타트업이 부담이 된다. 당장 IT 대기업과 이 분야에서 간극을 좁히기가 어렵다. 네이버와 같은 IT 대기업들은 이미 십수년 간 수집한 뉴스 문서, 기타 블로그와 전문 자료들을 광범위하게 확보해 정교한 말뭉치를 자체적으로 구축해왔다. 오랜 공을 들여 구축한 말뭉치이기에 공개하기도 어렵다. 반면 스타트업이 이에 준하는 수준으로 말뭉치를 구축하기는 비용 문제로 사실상 불가능하다. 말뭉치라는 디지털 커먼스가 공공에서 제공돼야 할 이유이기도 하다.

학계는 웹 서비스화 돼 있는 전문 말뭉치를 사용하면 된다. 고려대 민족문화연구원이 구축한 ’물결 21‘은 대학연구소가 개발한 최대 규모의 디지털 말뭉치다. 국내 4대 일간지의 14년치(2001년~2014년) 6억 어절의 문서가 분석돼있다. 이 서비스를 이용하면 언어 연구에 필요한 결과를 다양한 형태로 받아갈 수 있다(최재웅&이도길. 2014).

그러나 이 말뭉치는 한계도 있다. 외부 형태소 분석기과 결합해 사용하기 어렵다는 점이다. 세종 말뭉치와 달리 소스 파일이 공개돼있지 않아서다. 일반적으로 기분석 사전과 형태소 분석기를 통합하면 높은 정확도와 효율성을 만들어낼 수 있다. 곽수정(2013) 등은 “기분석 사전은 대용량의 품사 부착 말뭉치의 고빈도 어절로 구축되어 형태소 분석기의 속도를 향상시키기 위해 사용돼왔다”고 적고 있다. 기분석 사전을 구축하려면 기존 말뭉치가 필요한데, 소스 파일이 공개되지 않아 두 시스템을 결합하기 어려운 것이다.

연세대 말뭉치, 카이스트 코퍼스 등 공개된 말뭉치가 없지는 않지만 규모로 따지면 세종 말뭉치나 물결21에 비할 바는 못된다. 말뭉치는 공공이 개입해 커먼스로 구축하기에 적합한 모델이라고 할 수 있다.

디지털 커먼스로서 한글 말뭉치와 공공의 역할

언어는 끊임없이 변화한다. 신조어 탄생하는가 하면 일부 어휘는 사멸하기도 한다. 예전 단어에 새로운 의미가 부여되는가 하면 단어와 단어의 새로운 결합이 나타나 전혀 다른 용례로 쓰이기도 한다. 말뭉치는 이처럼 역동적인 언어의 변동에 대응할 수 있어야 한다. 자연어 처리를 기반으로 하는 인공지능 기술은 역동성에 대응하는 말뭉치의 힘에 의존할 수밖에 없다.

문제는 막대한 비용이 투입되는 말뭉치를 누가 구축할 것이냐이다. 말뭉치 구축은 따지면 기초연구에 해당한다. 비용은 많이 들지만 곧장 수익이 나지 않는 사업이다. 그것의 공적 가치는 무한하지만 그 자체의 상업적 가치는 제한적일 수밖에 없다. 2007년 이후로 멈춰버린 세종 한글 말뭉치, 인공지능 기술이 부상하는 현재 국면에서 여전히 외면받고 있는 현실이 안타까울 수밖에 없다.

참고 자료

  • 곽수정, 김보겸, & 이재성. (2013). 한국어 형태소 분석을 위한 효율적 기분석 사전의 구성 방법. 정보처리학회논문지. 소프트웨어 및 데이터 공학, 2(12), 881-888.
  • 이동주, 연종흠, 황인범, & 이상구. (2010). 꼬꼬마: 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구. 정보과학회논문지: 컴퓨팅의 실제 및 레터, 16(11), 1046-1050.
  • 최재웅, & 이도길. (2014). 특집. 물결 21 코퍼스: 공유와 확산: 물결 21 코퍼스: 공개 웹 자원 및 활용 도구. 민족문화연구, 64(단일호), 3-23.
네티즌의견(총 14개)