"예문을 잘 정리해서 보여주는 것만으로도 사전이 됩니다. 지금 사람들에게 쓰이는 예문으로 실제 뜻을 알 수 있지요."

다음 영어사전에서 'apple'을 검색해보자. 사전이 영어단어 뜻을 보여주는 방법과 다른 걸 발견할 수 있다. 일단, 우리말 뜻이 아주 간단하다. '1. 애플'이 먼저 보이고 뜻풀이 오른쪽에 '355건'이란 숫자가 보인다. 명사나 동사, 전치사와 같이 품사 설명도 없다.

그런데 가만! 'apple'은 '사과'가 아니었던가. 무슨 까닭인지 다음 영어사전은 미국의 컴퓨터 제조회사 '애플'을 먼저 보여준다. 'apple'이 미국 회사 '애플'이란 뜻으로 쓰인 때가 많기 때문이다. 이렇게 다음 영어사전은 예문에서 가장 많이 쓰인 순으로 뜻을 보여준다. 실제로 자주, 널리 쓰이는 뜻으로 풀이하는 게 '살아있는 사전'이란 생각에서다.

사전의 뜻풀이 vs 예문과 해석

그동안 영어 단어를 모를 땐 사전을 찾는 게 가장 정확했다. 영어 공부하는 데 영한이든 영영이든 사전 한 권은 필수였다. 그러다 전자사전이 나왔고, 다음과 네이버 등에서 검색해 찾는 방법이 등장했다. 모습은 달라도 출판사가 편찬한 사전을 바탕으로 하는 점은 같았다. 출판사와 사전편찬위원이 잘 정리한 사전 말이다. 다음은 영어 문장과 우리말로 번역된 문장을 갖고 영어 단어의 뜻을 찾아주기로 했다.

다음의 사전과 지식서비스를 총괄하는 정철 다음커뮤니케이션 지식서비스기획팀장과 같은 팀의 이정범 기획자는 예문으로 영한사전을 만들고 있다.

정철 팀장은 사전에 관한 고민이 많았던 모양이다. "사전이 많이 쓰이는 순서대로 뜻을 풀이했다고 생각하는데요. 사전은 사전편찬자가 개입해 '이렇게 쓰는 게 맞다'라는 식으로 만들어집니다. 사전에는 사전편찬자의 의도가 개입돼 있습니다."

정철 이정범 다음 지식서비스기획팀
▲ 정철 이정범 다음 지식서비스기획팀

▲정철 다음커뮤니케이션 지식서비스기획팀장과 이정범 기획자


사전편찬자가 많고 감수 위원이 권위가 높은 사람이어도 해당 사전이 편견없이, 실생활에서 쓰이는 대로 뜻풀이를 했다고 보긴 어렵다. 비속어나 은어를 사전에서 찾아본 경험이 있는가. 내 또래는 다 쓰는 말인데 사전에 없는 건 사전편찬자, 감수위원 또는 출판사가 넣지 않았기 때문이다.

이따금 영한사전 중 어떤 단어는 여러 뜻을 보여준다. 그중에서 내가 접하는 영어문장에서 그 모든 뜻이 다 활용된 예를 본 일은 드문 단어가 있다. 이런 뜻은 예문도 없다. 'fuck'은 미국 영화나 드라마, 만화, 소설 등에서 욕설로 자주 언급된다. 누군가를 대상으로 말하거나 말하는 사람이 자기도 모르게 혼잣말로 욕설을 내뱉는 장면에서 등장하는 경우가 잦다. 헌데 영한사전에서 가장 먼저 나오는 뜻은 이 상황에 맞춰 풀이하기엔 좀 어색하다.

실생활에서 쓰이는 단어와 뜻이 '살아있다'면 사전은 죽은 뜻, 죽은 단어를 보여주는 셈이다. 정철 팀장이 "사전을 쓸 때 기존 사전을 참고하는데, 옛 사전을 덧칠하는 식이라 무의미한 내용도 있다"라고 말한 데엔 이런 배경이 숨었다.


▲다음 영어사전은 예문으로 뜻을 보여주기 시작했다. 사전 페이지에서 위와 같이 '예문'이 활성화돼 있으면 쓸 수 있다.



▲종이사전을 활용한 영어사전. 예문으로 뜻풀이하는 사전이 익숙하지 않으면 '본문' 단추를 눌러 기존 사전을 쓰면 된다.


실제 영어 문장에 활용돼야 제대로 된 뜻풀이

다음 영어사전은 예문과 우리말 뜻을 맞춰보며 통계를 낸다. 'A란 뜻으로 쓰인 문장이 몇 건', 'B라는 뜻으로 쓰인 문장은 몇 건' 식으로 순위를 매기는 것이다. 이게 간단한 작업은 아니다. 예문의 조건에 관한 설명부터 들어보자.

일단, 우리말 뜻과 쌍을 이루는 예문이 있어야 한다. 다음은 영타임스와 타임스코어, 코리아헤럴드 등 주로 제휴한 영자신문에서 예문을 뽑아냈다. 300만개 정도 확보했다. 영어사전 한 권이 보통 10만개로 만들어지는 걸 감안하면 대단한 분량이다.

예문으로 우리말 뜻을 세어도 이게 끝이 아니다. 이용자가 예문으로 뜻을 확인하게 하려면, 보여줄 예문 순서도 정해야 한다. 또, 그 예문이 잘 쓰이지 않는 예이면 곤란하다. 기준은 기초 영단어로 만들어진 문장인지가 우선이다. 쉬운 문장인지가 중요한 것이다. 그리고 단문으로 구성돼 문장 구조가 단순하고 원어민 발음 파일이 있는 예문 순으로 보여준다. 이 기준은 예문을 확보할 때도 활용된다. 지금은 영문 기사에서 가져오지만, 저작권 보호기간이 지난 영문학도 예문으로 확보할 생각이다. 이렇게 작업이 진행되면 다음 영어사전은 가장 자주 개정되고, 본디 뜻을 가장 잘 전하는 사전이 되리라.

헌데 이 예문을 확보하는 과정이 만만찮은 눈치다. 300만개 예문을 하나씩 입력한다고 생각하면 들일 시간과 비용, 인력이 상당했을 것이다. 게다가 위 기준대로 예문을 추리는 것도 까다롭다. 앞으로 예문을 더 늘리려면 이 수고는 더 커지지 않을까. 이 의문에 두 사람은 문장 단위로 자동으로 글을 자르는 도구를 개발 중이라고 설명했다.

다음 영어사전이 수시로 진화하는 힘, '예문'

이정범 씨는 "지금은 제휴한 콘텐츠로 영어문장을 확보했는데 앞으로 웹에서 예문을 찾아올 생각"이라며 "이 때 글 속에서 영어 문장을 추릴 건데 이용자에게 문장이 제대로 추출됐는지, 해석은 제대로 됐는지를 묻는 식으로 참여를 유도해 우리가 서비스하는 예문 사전의 질을 높이려 한다"라고 말했다.

이렇게 예문으로 뜻을 보여주는 건 사전 쪽에선 새로운 개념은 아니라고 한다. 다만, 사전을 이 방식으로 제작해 서비스하거나 출간한 예가 드물 뿐이다. 언어 연구에선 이 방식이 50여년 전부터 쓰였다. 언어의 뜻을 전문가 한 사람이 '이건 맞고, 저건 틀리다'라고 주장하지 않고 실제 쓰이는 행태를 자료로 파악하는 방식은 1960년대에 퍼지기 시작했다. 바로 컴퓨터가 복잡한 계산을 대신하는 기계로 쓰이던 때이다.

지금도 언어학자는 연구할 때 다음이 예문으로 통계를 내 사전을 만드는 것과 비슷한 방법을 쓴다. 겪는 어려움도 비슷하다. 정철 팀장은 저작권법을 위반하지 않으면서 예문을 확보하는 게 쉽지 않다고 털어놨다. 이건 학자들도 마찬가지다.

학계 전문 용어론 이 예문을 '말뭉치'라고 부른다. 다음 영어사전이 양질의 서비스를 제공하려면, 말뭉치의 질도 높아야 하는 게 당연하다. 언어학자도 질 좋은 말뭉치를 찾아야 제대로 된 연구를 할 것이다. 분야마다 말뭉치의 조건은 다를 것이다. 그런데 이 말뭉치를 어설프게 모았다면, 다음 영어사전 이용자는 '이 뜻이 맞나'란 의문을 품기 시작할 것이다. 다음 지식서비스팀이 예문을 추리는 기준을 까다롭게 정한 것도 이러한 까닭에서다. 그래야 다음 영어사전을 더 풍성하게 할 테니 말이다.

"예문이 풍성해지면 시간이 갈수록 다른 걸 느낄 겁니다. 이과 모드/문과 모드와 같이 이용자가 누구냐에 따라 사전 서비스도 맞춤으로 제공할 수 있어요. 같은 단어도 분야에 따라 다르게 쓰이니까요. 또, 이용자 수준에 따라서 예문을 보여줄 수도 있겠지요. 이렇게 변화하는 사전을 만드는 건 종이사전을 만들던 방법으론 할 수 없습니다."

지금은 예문을 제휴처에서 확보했지만, 점차 웹에서 수집하는 양이 늘면 사전 API를 제공할 수 있을 것으로 기대된다. 지금까지는 사전 서비스의 원 데이터는 출판사의 저작물이어서 다음이 API 제공할지를 정할 수 없었다. 영어사전과 비슷한 양과 질로 예문을 확보할 수 있다면, 제2외국어 사전도 등장하지 않을까.

다음은 어렵사리 모은 이 예문을 연구 목적으로 쓰겠단 요청이 있는 곳엔 제공할 생각이라고 한다. 저작권 때문에 예문 확보하는 게 얼마나 어려운지 잘 알기 때문이다.

다음 영어사전은 PC와 모바일 웹브라우저, 모바일 앱(안드로이드,아이폰), PC용 꼬마사전 등으로 이용할 수 있다.

저작권자 © 블로터 무단전재 및 재배포 금지