트렌드

[블로터포럼] 사전, 포털 안에서 안녕하신가?

2014.03.16

책을 읽거나 대화를 나누다가 모르는 단어가 나오면 어떻게 하는가. 혹시 그 자리에서 사전을 펴보는가. 만약 그렇다면 그 사전은 어떤 모습인지 묻고 싶다. ‘가나다’순으로 찾는 종이사전인가, 아니면 손에 쥔 스마트폰에서 검색해서 찾는 사전인가. 그도 아니라면 포털에서 검색은 하지만 사전을 쓰지 않는다고 대답할 사람이 있을까.

종이사전의 감촉, 사용법을 잊어가는 가운데 사전은 어느 틈에 포털 통합검색에서 자리를 차지했다. 사전도 검색의 일부가 된 것이다. 사전은 e메일, 검색 서비스와 함께 네이버와 다음의 성장을 지켜온 서비스다. 네이버 어학사전은 2000년, 백과사전은 2003년 세상에 나왔다. 다음 사전은 더 빨랐다. 다음 어학사전은 1999년 백과사전은 네이버와 비슷한 2003년 시작했다. 다음이 1995년, 네이버가 1999년 회사를 설립하였으니 앞서 사전이 두 포털의 성장을 지켜봤다고 말한 게 과장이 아니다.

네이버와 다음이 서비스 초기부터 사전에 눈을 돌린 까닭은 무엇일까. 그리고 지금도 서비스를 끝없이 닦고 윤을 내는 배경을 두 회사의 사전 담당자에게 들어보자.

  • 일시: 2014년 3월 7일 금요일 오후 4시
  • 장소: 블로터닷넷 사무실
  • 참석자: 김종환 네이버 어학사전 실장, 정철 다음커뮤니케이션 지식서비스 팀장, 권혜미/정보라 블로터닷넷 기자

bloter_forum_201403_dictionary_main

정보라 블로터닷넷 기자 네이버는 2013년 12월 어학사전 6종을 추가해 18개 언어 19종으로 늘렸다. 2014년 2월 들어서 다음은 19개 언어를 추가해 23개 언어 25종으로 늘렸다. 엎치락뒤치락 사전 서비스를 개선하는 모습을 보고, 사전에서만큼은 두 회사가 경쟁한다고 생각했다. 그 모습이 재미있는 게, 사전 콘텐츠를 팔거나 광고를 붙여서 돈을 벌기 어려운데도 두 곳 모두 사전에 투자를 지속한다. 사전 서비스에 신경을 쓰는 까닭이 궁금했다. 또, 포털 서비스이자 검색 서비스 회사에서 사전의 위상이 무엇인지, 앞으로 한국에서 디지털 사전이 어떻게 변화할지 가늠하고자 이 자리를 마련했다.

사용자 적어도 사전은 포털 검색의 뼈대

bloter_forum_dic_naver_timmykim_201403김종환 네이버 어학사전 실장 한국 사회 자체가 세계화돼 가고 있다. 2013년 해외에 방문한 사람이 1200만명이란 기사를 봤다. 그 정도로 한국 사회가 글로벌 환경에 노출되고 그에 따라서 언어적인 수요가 많이 증가한 것 같다. 또, 제2외국어를 하나씩 해야 하는 상황이 됐다. 그 트렌드가 저변에 깔렸다. 네이버는 2010년 프랑스어 사전을 열면서 어학사전을 늘리기 시작했다. 물론, 그때에 지금의 트렌드를 깊게 고민한 것은 아니다. 그때는 소박했다. 이미 있는 사전을 개선할지, 아니면 새로운 사전을 만들지에 관한 고민을 했다. 결론은 ‘프랑스어 사전은 아예 없잖아’였다. 없는 걸 만들었기 때문에 사람들이 좋아할 것이란 의견과 ‘지금 있는 사전으로 뭐가 부족해?’라는 반대 의견이 있었다.

정보라 지금 사전 사용자는 얼마나 되는가.

김종환 (어학 사전 기준) 월간 UV가 몇십만 정도는 된다. 프랑스어 사전은 제2외국어 사전 중에서 가장 잘 나가는 사전이다. 프랑스어 사전을 열고 반응은 뜨거웠다. 내부에서 인정을 받았다. 이용자가 적더라도 그분들이 네이버 어학사전을 좋아하면 좋다. 네이버에서 프랑스어 사전을 검색하면 긍정적인 피드백이 보인다.

정보라 사전이 네이버에서 칭찬받는 유일한 서비스인 게 아닌가.

김종환 하하. 그렇지는 않고, 직접적인 반응이 좋다. 네이버는 트래픽이 많은 회사다. 서비스 중에서 트래픽이 많은 게 있고, 어학사전처럼 소수이지만 좋아할 사람을 위해서 만드는 서비스가 있다. 포털이 이제 이런 방향으로 가는 것이다. 사용자의 요구가 크지 않더라고 그것을 만족하는 단계까지 가고 있다. 그래서 프랑스어 사전을 열고 나서 다른 사전으로 확장하는 힘이 됐다.

정보라 다음도 사전에 대한 사용자 피드백을 받는가.

정철 다음 지식서비스 팀장 다음 사전의 사용자 피드백은 앱을 보면 알 수 있다. 앱 후기가 참 좋다. 실은 다국어 사전의 PV이든 UV이든 다 더해도 일본어 사전에 미치지 못한다. 각 언어의 해당 전공자가 많지 않기도 하다. 수요는 크지 않지만, 다음은 산이 있어서 올라간 느낌이 있다. 다국어 사전을 한국외국어대학교와 만들었는데 한국외대는 (사전 콘텐츠를) 노출하고 싶은데 적절한 방법이 없고, 다음은 책만 있으면 알아서 하겠다고 해서 진행했다.

정보라 사용자 반응은 좋지만 쓰는 사람은 적다고 했다. 그런데도 포털이 사전을 서비스하는 이유가 무엇인가. 포털에 사전은 어떤 쓸모가 있는 건가.

정철 검색에서 사전은 선택지가 아니다. 검색의 뼈대다. 통합검색에서 다양한 것이 나온다고 하더라도 백과사전이 어느 정도 균형성을 갖춘다. 푸코가 있으면 라캉이 있고, 라캉이 있으면 헤겔이 있어야 할 것 같은 것처럼 말이다. 그것과 비교하면 검색은 그런 균형성이 없다. 연예와 엔터테인먼트, 생활에 관한 것이 많다. 사전은 검색 균형감각을 맞추는 데에 중요한 역할을 한다. 다국어 사전은 그런 역할을 덜 하지만, 한·중·일·영어는 한국인의 일과도 밀접한 관계가 있기 때문에 검색 품질에 도움이 된다. 포털 중 사전을 안 하는 데가 없다.

정보라 사전, 그중에서도 어학사전에 얼마나, 어느 정도로 투자하는지 궁금하다.

김종환 2013년 금액을 발표한 적이 있다. (편집자 주: 한성숙 본부장은 2013년 5월 한국 18세기 학회에서 “NHN은 2009년부터 백과사전에만 매년 100억 이상을 투자해왔으며, 앞으로도 연간 100억원을 투자”한다고 밝혔다) 난 올해 어학 사전만 전담하게 돼 사전 서비스 전체 계획은 잘 모르겠다. 앞으로 어학사전은 언어 종류를 늘릴 수 있다.

정보라 네이버가 어학사전과 지식백과를 한 팀에서 둘로 쪼갰다는 것은 그만큼 사전에 투자한다는 뜻이 아니겠나.

김종환 네이버가 어학사전에 관심을 보인다는 간접증거겠다. 지금 어학사전 팀만 30명 정도다. 실은 ’30명이다’라고 말하긴 어렵다. 네이버는 기능별로 인력과 팀이 쪼개져 있고, 우리만 일하는 게 아니라 출판사도 연결된다.

정보라 사전 사용자가 많지 않다고 했는데 검색 사용자 중에서 사전을 쓰는 사람은 얼마나 많은가.

김종환 통합검색에서 뜻을 간단하게 찾는 사용자가 있다. 그 다음 경로가 세부 정보를 보는 것이다. 절대 비중으로 보면 검색 결과에서 멈추는 비중이 훨씬 크다. 간단한 뜻을 알려고 검색하는 사용자가 많다는 얘기다. 사전 상세 페이지에는 예문이 나오고 뜻도 나온다. 검색 결과에서 끝나는 사람과 상세 페이지로 오는 사람은 학습자와 정보를 찾는 사람의 차이다.

정철 한국 사람이 한국어 검색엔진에서 로마자 쿼리를 넣는다는 것 자체가 영한사전 요구를 반영한다. 다음 꼬마사전은 요약을 제공하고, 요약에서 상세 화면으로 연결한다. 그런데 요약에서 보고 상세 화면까지 안 오는 경우가 많다. 해석하다가 요약만 보는 것이다.

다음 사전의 요약을 가져가서 단어장을 만들고 싶다는 요구가 심심찮게 온다. (이런 걸 보면) ‘본문은 없어도 된다.’, ”book=책’이면 된다’는 게 현실적인 요구일 수 있다. 그런데 사전은 포털이 가볍게 서비스하기에 사람들의 기대 수준이 너무 많이 올라왔다. 사용자는 많이 찾지 않는 사전일지라도 눌러서 부실하면 아쉬워한다. 다음이 다국어 사전을 서비스하지만, 사람들은 ’20개 언어가 되는 게 좋지만, 독일어가 없다’란 얘기를 한다. 결국, 만족보다 불만이 더 많이 표출되는 것 같다.

부족한 사전 콘텐츠, 때론 직접 채우기도

정보라 네이버와 다음은 사전을 만드는 게 아니라 사전 서비스를 만든다. 콘텐츠를 잘 보여주는 것인데 사람들은 ‘네이버 사전’, ‘다음 사전’이라고 부른다. 오탈자가 보이면 네이버나 다음의 탓을 한다. 이런 오해를 받을 바에 직접 편찬하는 건 어떠한가.

김종환 편찬이라기보다 오류를 잡는 장치를 만들었다. 우리가 어학사전 관련해 제휴하는 출판사가 50여곳이 있다. 이분들과 일하며 우리의 영역은 사전 편찬이 아니라고 생각했다. 우리가 사전 전문가도 아니다. 언어학 전공자도 아니다. 나보다 몇십 년 사전을 고민하고 만든 사람을 따라갈 순 없다. 사전 편찬은 사전과 언어에 대해서 깊이 있게 고민하는 분들의 영역이다. 우리는 그분들이 잘하도록 지원하는 것이다. 기계적 또는 기술적인 일, 웹 크롤링 등 서비스를 편리하게 만드는 데 집중하는 게 맞다.

정철 정보라 기자가 개별 사전의 출처 문제를 어떻게 할 것인지를 얘기했다. 그것은 큰 문제인데 뜻밖에 사람들이 신경 쓰지 않는다. 다음 국어사전의 출처는 고려대학교 한국어대사전, 네이버 영어사전은 옥스퍼드나 다른 영어 사전이다. 그런데 출처가 명백하게 드러나지 않았다. 다음은 사전을 개편하면서 우리 회사의 브랜드 로고를 빼고 그 옆에 출처를 노출했다. 사람들로 하여금 ‘이 콘텐츠가 네이버/다음의 것이 아니다. 이것은 ○○○ 출판사에서 만든 것이다. 사전의 질을 판단할 때 그 출판사, 내용을 가지고 얘기할 때도 그 출판사와 얘기해서 고치는 것’이라고 하는 게 맞는다고 생각했다. 그래야 그 출판사의 존재감이 생긴다.

bloter_forum_dic_daum_main

▲다음은 사전 서비스에서 ‘다음’ 로고를 뺐다.

두 번째로 제기한 ‘포털이 사전을 어떻게 만들 것이냐’는 어려운 문제다. 출판사가 개정판을 안 낸 지 꽤 됐다. 네이버가 외부 데이터를 가공해서 넣겠다는 것도 출판사가 개정판을 만드는 작업을 포기하고 편찬팀을 해체한 상황 때문일 것이다. 다음은 병렬 말뭉치를 만들어서 통계값을 뽑아 제일 많이 쓰이는 뜻을 제일 앞에 보여준다. 출판사에 의존하는 방법은 아니다. 웹상에 있는 각종 예문을 활용하는 것이다. 편찬한다고 말하긴 어렵다. 우리는 방법론을 쓰는 것이지 사람이 개입하는 것은 아니다. A가 ‘ㄱ’이라는 뜻인지, 얼마나 많이 쓰이는 것인지는 예문으로 결정된다.

bloter_forum_dic_daum_endic

▲다음은 영어사전에 금성출판사에서 가져온 콘텐츠를 그대로 보여주지만, ‘예문’이라는 별도 페이지를 만들어 원문과 번역문 데이터를 토대로 가장 많이 겹치는 경우를 찾아내 해당 영단어의 뜻으로 보여준다.

김종환 앞서 크롤링을 얘기했는데 네이버 사전을 보면 ‘웹 수집’이란 게 있다. 기본 사전은 전문적인 영역이지만, 기계적으로 데이터를 추출해 대역어를 보여주는 것이다. 네이버는 기본이 되는 사전을 탑재하고, 전문용어 사전을 탑재하고, 그다음에 부족한 부분이 있으면 기계적인 처리를 해서 표제어를 추출한다. 추가로 예문 번역 기능을 만들어 사용자 참여를 받는다.

bloter_forum_dic_naver_web_crawling

▲네이버는 사전에 없는 항목은 웹에서 수집한 데이터로 채운다.

bloter_forum_dic_naver_translate

▲네이버는 사전 상세 페이지의 오른쪽 귀퉁이에 이용자에게 번역해달라고 요청하는 칸을 만들었다.

정철 (그런데 포털이 사전을 직접 편찬할 정도로) 그만큼의 수요가 없다. 규모의 경제를 가진 곳은 포털밖에 없고. (유통) 채널을 포털이 먹은 상태에서 다른 데가 개입할 여지가 없다. 능률영어사는 상당히 훌륭한 영한/한영사전을 운영했는데 더는 운영을 하지 않는 것으로 안다. 한영사전은 능률사전이 만든 게 제일 좋지만, 직접 서비스를 못한 것이다. 포털 사전만큼의 트래픽을 가져가는 곳은 거의 없다.

김종환 포털의 역할 중 사용자와 상호작용하는 게 있다. 국립국어원이 개방형 사전을 만드는 데 네이버의 오픈사전을 활용했다고 한다. 이 재료가 전문가가 보기에 괜찮은 자료인 모양이다. 일본어 사전은 민중서림과 작업한다. 일본어 사전에서 표제어가 없는데 사용자가 주문하는 것, 이런 것은 민중서림에 제작 의뢰를 한다. 민중서림은 일본어 사전을 오래 편찬했는데 포털과 그렇게 시너지가 나는 것 같다.

bloter_forum_dic_naver_open_dic

▲네이버 오픈사전. 사용자가 만드는 사전이다.

포털은 검색 쿼리가 많이 들어오고 기계적인 처리가 쉬워 고빈도의 소비자 요구를 알려준다. 표제어를 선정하는 작업이 사전에서 중요한데, 민중서림과 협업은 포털의 장점과 전문가의 비결이 결합하는 포인트다. 각자의 역할에 충실하면서 시너지가 나는 방법을 찾는 게 좋은 것 같다. 이것이 종이사전 편찬 방식을 뛰어넘는 방법이다.

편집자 주) 국립국어원은 표준국어대사전과 위키백과의 편찬 방식을 더해 사전을 만드는 중이다. 전문가가 뜻풀이할 표제어를 추리고 정리하는 기존의 방식과 위키백과를 결합했다고 보면 된다.

정보라 김종환 실장이 검색 쿼리로 표제어를 추린다고 했는데 그와 같은 기계적인 방식으로 포털이 ‘book=책’과 같은 서비스를 할 수 있지 않을까. 한 단어의 품사, 뜻, 용례를 보여주는 방식 대신 단어장처럼 말이다. 이미 단어장 앱인 ‘비스킷’과 같은 서비스가 있다.

정철 그런 방식을 구글이 한다. 구글에 사전이 있었는데 어느새 자동번역으로 집어넣었다. 좋은 판단이라고 본다. 그들이 잘할 수 있는 것에 녹여서 마이너한 언어의 뜻이 궁금할 때 사람들은 구글로 간다.

bloter_forum_dic_google

▲구글 사전을 검색하면 구글 번역 서비스만 나온다. 구글 번역을 아주 간단한 사전으로 쓸 수 있다.

bloter_forum_dic_google_2

▲구글 번역은 80개 언어를 지원한다.

정보라 얼마 전엔 이런 일도 있었다. 신조어를 검색해봤다. 당연히 사전에 있을 리가 없었다. 네이버는 ‘○○○가 뭐예요.’이라는 식의 웹문서를 보여줬고, 구글은 아예 그 단어의 뜻에 관한 검색 결과를 보여줬다. ‘book=책’보다 한발 나아갔다는 생각이 들었다. 어떻게 봐야 하나.

김종환 원천 쿼리를 리다이렉팅할 것이냐, 사용자의 원 쿼리를 유지할 것이냐는 해석의 문제다. 검색을 구성하는 철학적인 차이일 수도 있다. 기술적 난이도의 문제가 아니다.

정철 하면 된다. 그런데 일의 순위에서 밀리는 것이다. 구글은 자연어 처리를 많이 쓰는 서비스다. 인하우스가 아니고 아웃링크로 보내는 서비스이고. 그래서 구글은 좀 더 자연어 처리를 해서 표현하는 면이 있다. 얼마만큼의 리소스를 써서 어느 정도의 기간에 해내느냐의 문제인데, 그 부분에서 구글은 자연어 처리를 하는 데 있어 경이롭다. 예를 들어서 자연어 처리를 할 때 (마침 책상에 과자 ‘초코하임’이 있었다.) ‘초코하임’이 있으면 낱자씩 뗄 수 있고 ‘초코’, ‘코하’, ‘하임’, ‘초코하’, ‘코하임’ 이런 식으로 어마어마한 데이터를 파싱해서 웹상에 공개한다.

콘텐츠를 담아서 보여주기 vs 아웃링크로 보여주기

정보라 구글은 사전을 풀이해 보여주는 대신 데이터를 활용해 대역어를 보여준다. 네이버는 출판사와 제휴해 콘텐츠를 잘 담아서 보여준다. 다음도 그렇게 하긴 하지만, 종종 아웃링크로 외부 사전을 연결한다. 둘 중 어느 쪽으로 가야 맞는지 궁금하다. 미래 사전은 어떤 모습일 것 같나.

bloter_forum_dic_daum_pinkcrimson_201403정철 힘은 한쪽에 몰리면 안 된다. 우리와 사전을 만드는 쪽이 공존하는 방법은 아웃링크라고 생각한다. 다음이 모든 서비스를 아웃링크로 운영하는 것은 아니다. 그런데 적어도 사전이 좀 더 나아지려고 한다면 사전을 만드는 쪽과 어떻게 공존할 것인지를 고민해야 한다. 그런데 이런 일도 있다. 사전 만드는 쪽(외부 서비스)이 PC 페이지밖에 못 만드는 것이다. (모바일 서비스가 불가능한 상황) 내지는 유지보수를 못 하는 곳도 많다. 사전에 대한 수요가 그만큼 없으니까 안 만드는 것이라고 볼 수 있고, 그럼 수요가 없는데 포털은 왜 만들어야 하는지 의문이 들 수 있다.

사용자가 얼마만큼 요구하느냐에 따라서 사전은 달라진다. 사람들은 좀 더 좋은 사전을 만들어 달라고 요구해야 한다. 요구한 대로 나오면 그에 대하여 내는 게 있어야 하는데 지금 사전은 그 두 가지 (①요구하는 것 ②콘텐츠를 사는 것)가 없이 ‘공짜로 나오니 좋네!’이라는 면이 있다. (이런 상황에서) 한국에서 포털이 나름 사전을 지킨다고 생각한다.

정보라 포털이 아니라 네이버가 지키는 게 아닌가. 네이버는 어학사전과 백과사전에 한 해 100억원을 쓴다고 했다. 사전을 만드는 데 이만큼 비용을 낼 곳이 있을까.

김종환 ‘사전의 미래가 무엇이냐’와 ‘오픈이냐, 제작하는 것이냐’가 질문의 요지였다. 둘 다 맞다. 네이버가 많은 돈을 투자하는 까닭은 정보 생산이 안 되기 때문이다. 수요는 있는데 출판할 엄두가 안 나는 분야가 있다. 해외 지리 정보, 국내 지리 정보 같은 건 국가적으로 가장 기본적인 데이터인데 국민이 보기 쉬운 크기로 잘 정리되고, 믿을 만한 건 많지 않다. 그런 것을 누군가는 만들어야 한다.

포털 속 사전팀, IT 괴짜 가운데 괴짜

정보라 네이버는 2013년, ‘PC보다 모바일로 사전에 접속한다’라고 밝힌 바 있다. 적은 인력으로 사전을 만들면서 콘텐츠에 모바일까지 신경 써야 하는 게 너무 많은 것 아닌가. 사전팀이 가장 신경 쓰는 문제는 무엇인가.

김종환 콘텐츠 문제가 근본적이다. 좋은 사전이 없으면 사전 서비스를 만들 수 없다. 사전이 10년, 20년 동안 업데이트되지 않으면 사전 서비스는 있어도 사전 콘텐츠는 죽어 있을 것이다. 저도 직원과 얘기하면서 늘 꺼내는 말이 ‘사전은 처음부터 끝까지 콘텐츠’이다. 서비스 하나 열면 콘텐츠를 어디에서 제휴해서 어떻게 디지타이징해서 서비스 프레임에 올리면 어떤 문제가 있는지, 구조적으로 잘 됐는지, 구조에서 벗어난 것은 무엇인지 찾고 수정하고, 계속 수정하고, 열기 하루 전까지 부딪히는 문제가 콘텐츠다.

말이라는 게 비정형적이라서 예외 상황이 많다. 디지털로 서비스하는 것은 규칙을 기준으로 서비스하는데 말은 그렇지 않다. 문법적으로 틀려도 관용적으로 쓰이면 보여줘야 하고….

정보라 사전을 서비스하는 일이 속된 말로 ‘노가다’란 얘기인가.

김종환 그렇게 표현할 수도 있겠다. 종이사전을 디지털로 만드는 게, 그냥 얹으면 되는 게 아니다. 말은 규칙에서 벗어나는 게 많다. 기계적인 표현할 때 예외 처리가 너무 많다. 그런 작업을 하는 데 시간과 노력이 많이 든다.

정철 사전 작업을 하다가 무엇 하나 고치려고 하면 20만개를 고쳐야 한다. 어떤 언어이든지 한 사람이 평소 2만~3만개 어휘를 쓰고 학술적인 어휘까지 포함하면 10만~20만개 정도다. 표준국어대사전은 표제어가 50만개이고. 그런데 여기에 ‘성조를 표시하자’라고 의사결정을 하면 죽는 것이다. 어떤 작업을 하든지 10만번, 20만번 해야 한다. 게다가 기계적으로 되는 게 있고 안 되는 것도 있다.

김종환 언어라는 게 예외가 있어서, 데이터를 만질 때 일괄 적용하기 어려운 게 있다.

정보라 일의 특성이 그렇다면, 네이버와 다음은 인터넷 서비스 회사이지만 사전팀만큼은 사내 분위기와 인재상이 다르겠다.

정철 별다를 게 있느냐마는, 이런 건 있다. 반복적인 엑셀 작업과 텍스트 작업을 해야 한다. 이런 일과 맞는 사람이어야 한다.

김종환 우리도 인내심이 있는지를 꼭 본다. 콘텐츠 작업하는 사람은 기본적으로 인내심이 있고, ‘A는 B인데 잘못됐네?’라면서 오류를 집어내는 데 희열을 느끼는 사람을 찾으려고 하는데 쉽지 않다.

정철 아까 정보라 기자가 영화 ‘행복한 사전’을 봤다고 했다. 그 영화에서 적절한 편집자가 나오자마자 영입하러 가지 않았던가. 맞다. 그런 인물은 ‘레어템’이다.

편집자 주) 영화 ‘행복한 사전’은 출판사의 사전 편찬팀이 일본어 대사전을 만드는 과정을 그린 소설 ‘배를 엮다’가 원작이다. 일본에서 2013년, 한국에서 2014년 개봉했다.

출판사가 사전을 편찬하지 않는 시대, 누가 바통 이어 받을까

정보라 종이사전을 만드는 게 고된 일이란 것은 들어서 알고 있다. 품도 많이 들고, 디지털 사전 또한 마찬가지인 것 같다. 네이버와 다음과 같은 디지털 사전은 이제 진입 장벽이 생긴 게 아닌가. 지금이라도 누구나 서비스할 수 있는 건가.

김종환 네이버가 사전을 서비스하는 건 공익적인 목적이 있지만, 검색 데이터를 얻는다는 투자의 의미도 있다. 이런 의미 없이 사전을 서비스한다면 일회성에 불과할 것이다. 네이버는 검색이란 수요를 계속 충족해야 해서 재생산할 수 있다. 정보를 지속해서 생산하는 동력이 된다. 어학사전도 비슷하다. 또, 소수이지만 사전 서비스를 좋아하는 사용자가 있다.

정철 구조적인 난해함은 장벽이 아니다. 개인이 위키를 만들 수 있다. 클래식 동호회 중에서 ‘고클래식’은 음악가와 음반 정보를 위키로 정리한다. 동아리 단위에서도 사전을 만들 수 있다. ‘다산학사전’이 예다. 친일인명사전은 모바일 응용프로그램(앱)으로 나왔고. 한국학중앙연구원은 굉장히 구조적인 사전을 만든다. 향토문화 대사전은 정말 어렵겠다 싶을 정도로 깊이 있게 만들고 있다. 이처럼 사전을 제작하는 데 기술 장벽은 크지 않다. 그런데 공부해서 써야 하는 것, 그 자체가 노동이 많이 들어간다. 그것은 기계가 하기 어려운 부분이다.

김종환 공공기관이 데이터를 만들면서 출판의 영역에서 하던 게 공공의 영역으로 넘어왔고, 포털이 유통하는 모양새를 갖췄다.

정보라 공공기관이 데이터를 만든다는 건, 사전 데이터를 이른 것인가. 사전이 공공의 영역으로 넘어왔다고 생각해 그리 말한 것인가.

김종환 국립국어원은 5개 한국어 기초 사전을 만든다고 공표했다. 여러 출판사도 소수이지만 만든다.

정보라 네이버 사전이 공공서비스에 준한다는 생각을 품고 있지는 않은가.

김종환 기업체가 그렇게까지 생각할 건 아니다. 사용자가 많은 분야가 있고 적은 분야가 있지만, 적은 분야도 신경을 쓰고 만족을 줘야 한다고는 생각한다. 그에 대해 투자를 하고 있고.

정철 사전과 공공재란 문제는 간단하게 보면 된다. 사전을 안 볼 것은 아니다. 사전 없이 공부하진 않을 것이다. 그것이 전제다. 사전을 재생산하는 곳은 별로 없다. 사전을 돈을 벌 물적 토대도 없다. 붕괴했으니까. 그런데 사전은 필요하다면, 그리고 민간이 사전을 재생산할 수 없다면 공공의 영역에 요구해야 한다.

사전은 이미 물리적으로 공공재가 됐다. 그래서 사람들이 사전을 누군가에게 내놓으라고 해야 한다. 포털은 한국 인터넷 환경에서 사람들에게 많은 영향을 미친다. 그렇다면 사용자는 포털에 더 요구해야 한다. 내용이 틀렸다고 지적하고.

정보라 ‘사전은 물리적으로 공공재가 됐다’라고 말한 배경이 궁금하다.

정철 공공재가 아니면 언제든 없어질 수 있는 상황이란 얘기다. 헌데 사전은 접속만 하면 뜨니까 사람들은 여전히 있는 것이라고 여긴다. 그런데 그게 아닌 게, 사전 개정판이 안 나온다.

정보라 지금은 사전을 종이가 아니라 디지털로 서비스한다. 디지털의 장점은 추가하기 좋고, 분량의 제한이 없다는 점 아닌가. 사전 개정판을 내지 않고 표제어를 추가하면 될 것 같은데.

정철 종이사전은 물리적 한계가 있다. 어떤 단어가 중사전의 10만~12만 항목에 속하느냐 아니냐는 중요한 문제다. 사람들이 기본으로 쓰는 어휘로 정착했느냐를 나타내는 것이다. 그러므로 종이사전은 물리적 한계가 있는 상황에서 이것저것 넣기 위해 엄청나게 압축한다. 지금은 압축할 필요가 없다. 음식이면 ‘음식’이라고 쓰면 되지 더는 한자어로 ‘식’이라고 쓸 필요가 없어졌다. 그런데 정보라는 것은 압축하는 과정에서 더 나아지는 경우가 있다. 종이책에서 ‘판’은 그래서 의미가 있었다.

그리고 출판사는 사전 개정판을 내면 모든 항목을 다 본다. 포털이 사전 콘텐츠를 가져오면서 그걸 처음부터 끝까지 10번씩 읽는 사람은 없다. 출판사도 10번씩 안 볼 것이다. 종이와 다르니까. (사전을 만들 때 10교를 본다고 한다.)

김종환 네이버 일본어 사전과 같은 모습이 요즘 환경에서 적합한 방법일 수 있다. 출판사에 사용자가 요구하는 표제어를 전달하고, 집필하면 우리는 기본적인 검수를 하고 올린다. 서비스하다가 보면 사용자 댓글이 달리고 ‘오타가 있어요’란 식의 반응이 쌓이면 사용자에게 검증된 버전으로 낼 수 있다. 그런 점에서 선순환의 사이클이 만들어질 수 있을 것 같다.

정철 그런데 네이버와 다음 모두 사전 쪽에서 콘텐츠를 많이 공급받지 못하기 때문에 어떤 식으로 채울지 고민한다. 그 과정에서 자연어 처리를 쓰고 있다.

정보라 결국 사전 편찬에 대해서 기댈 곳은 출판사보다 네이버와 다음 같은 포털뿐인 것 같다.

정철 사전 제작 관련해 마이너한 움직임이 있다. ‘만토우’란 회사가 중국어 사전을 만든다. 고도로 훈련을 받은 사람들이 만드는 것은 아니지만, 중국 신문에 나오는 단어 위주로 정리한다. 많이 알려지지 않았지만, 이런 식으로 움직임이 아예 없는 것은 아니다. 그렇지만 체계적이지는 않다. 포털이 아닌 곳에서 사전을 만들 기반은 없는 것 같다. 영한사전은 옥스퍼드, 롱맨, 일본어는 코지엔이 번역됐다. 자체적으로 사전을 업데이트하는 시대는 가고 번역 사전의 시대로 가는 게 아닌가 싶다.

borashow@bloter.net

인터넷, SNS, 전자책, 디지털 문화, 소셜게임, 개인용 SW를 담당합니다. e메일: borashow@bloter.net. 트위터: @borashow