보고서, 자기소개서, 쪽글 등 다양한 글쓰기에는 항상 맞춤법 검사가 수반된다. 기본적인 맞춤법 검사기는 워드 프로그램을 활용할 수 있지만, 조금 더 면밀하게 고치고 싶은 경우에는 맞춤법 검사 전문 서비스가 필요하다. 철자가 틀린 것은 물론, 어색한 표현 등을 잡아 더 매끄러운 글을 만들기 위해서다.

한국어 맞춤법/문법 검사기’(이하 맞춤법 검사기)는 그중에서도 대표적으로 사랑받는 서비스 중 하나다. 많은 사람이 사용하는 한글과컴퓨터의 ‘아래아한글’ 맞춤법 검사기의 바탕이기도 하다. 글로 업으로 삼는 기자나 학자들도 크게 빚을 지고 있다. 맞춤법 검사기는 26년간 맞춤법 검사기 개발에 매진한 권혁철 부산대 교수가 만들어 낸 서비스다.

이 서비스를 개발한 권혁철 교수가 지난 8월15일 본인의 페이스북을 통해 포털을 강도높게 비판했다. 포털이 26년간 열심히 개발한 부산대의 맞춤법 검사기의 기술을 활용해 자사의 서비스를 개발하는 것도 모자라서 개발한 서비스를 무료로 공개해 맞춤법 검사기의 생존을 위협한다는 주장이다.

kor_speller_750
▲ kor_speller_750

https://www.facebook.com/hyukchul.kwon.902/posts/10202049620798459

26년 개발한 맞춤법 검사기인데…

10년 전쯤 생각이 나네요. 네이버 과장이 와서 맞춤법 검사기 네이버에서 서비스해줄 테니 비용을 내라고요. 네이버가 도우면 장사가 잘될 거라고요. 웃었더니 6개월 후쯤 무료로 해주겠다고요. 그리고 6개월쯤 지나자 연 5천만 원, 그 이상이면 안 되니 그렇게 하자더군요. 그래서 화가 나서 월 5천만 원은 내야 한다. 거기에 너희 회장(이해진)이 와야 한다고 화냈습니다. 그러니 곧 소문나더군요. 부산대학이 엄청난 액수를 불렀고 무례하다고요. 다음도 비슷했고요.

네이버는 2010년, 다음은 2014년부터 자체적으로 맞춤법 검사기를 개발했다. 권혁철 교수는 네이버와 다음의 맞춤법 검사기가 부산대 맞춤법 검사기의 기술의 상당부분을 가져다 썼다고 보고 있다. 특히 다음 맞춤법 검사기의 경우는 거의 '베꼈다'고 비판했다. 권혁철 교수는 "올해 3월만 하더라도 다음 시스템은 맞춤법 검사기라 할 수준이 아니었다" 라고 말했다. 이 정도로 빠르게 맞춤법 검사기의 수준을 높일 수 없다는 주장이다. 권혁철 교수가 추정하는 방법은 다음과 같다. 동의를 얻어 포스팅에서 관련 부분을 인용한다. 기본적으로는 다른 맞춤법 검사기를 활용해서 자사의 서비스를 향상하는 방식이다.
6개월 만에 최고 맞춤법 검사기 만드는 방법

방법은 그리 어렵지 않습니다. 그 전에 완벽한 맞춤법검사기는 없다는 점과 일반 사용자가 틀리는 철자 오류 유형은 아주 제한됨을 말씀드리겠습니다. 따라서 저희가 만든 규칙 10% 정도(2,000개)가 95% 오류를 고치고, 나머지가 5%를 고친다고 보면 됩니다.
만드는 방법은 3단계이며, 각 2개월이 필요합니다. 이 방법은 지도검색서비스 등 다양한 서비스의 역공학에 활용할 수 있습니다. 그런데 이것이 법적 또는 도덕적 판단은 알아서 하십시오.

(1) 멍청한 맞춤법검사기 만들기

먼저 형태소 분석기를 이용하여 대충 맞춤법검사기를 만듭니다. 단, 규칙과 도움말 따위는 기존 맞춤법검사기를 참고로 완벽히 작동하게 합니다. 부산대 시스템의 구성 원리는 논문에 나와 있으니 그대로 만들면 됩니다. 그리고 몇 가지 중요한 규칙을 적용하여 검증하십시오. 형태소분석기를 가지고 있다면 아마 2개월이면 만들 겁니다. 특히 맞춤법검사기는 등록된 단어가 중요합니다. 표준국어대사전이나 기타 사전의 단어를 찾아서 다른 맞춤법검사기에 돌리세요, 단 명사는 ‘-을/를(목적격 조사)’을 붙여서 돌리세요. 허용되면 사전에 넣고, 아니면 적합한 단어만 골라서 추가하세요. 다양한 사전을 가진 곳이라면 이것으로 다른 시스템을 앞섭니다.

(2) 다른 맞춤법 검사기로 똑똑하게 만들기

이제 대용량 말뭉치(아마 신문 1년 치면 충분할 겁니다)를 구해서 다른 맞춤법검사기에 돌려서 오류와 도움말을 모으세요. 모은 오류를 새로 만드신 맞춤법검사기에 돌려서 오류로 판단하고 대치어가 같으면 제거하세요, 그리고 오류 유형에 따라 분류하세요. 아르바이트생을 동원해 그 결과는 분석하여 다른 맞춤법검사기의 결과가 옳으면 내용을 추가하고, 아니면 바르게 수정하여 반영하세요.

제가 95% 오류를 반복적이라 했지요. 따라서 이 정도면 원시스템의 성능을 거의 따라잡았을 겁니다. 물론 5% 정도는 차이가 있겠지만, 원시스템의 오류도 반영했으므로 오히려 좋을 겁니다.
예를 ‘친구밖에 없다’와 ‘친구 밖에 있다’처럼 ‘밖에’가 조사인 경우와 명사인 경우를 구별하는 규칙을 찾아서 만드는 데는 열흘 이상 걸립니다. 그러나 부산대 시스템을 돌려보면 반복해서 뒤에 ‘없다’가 나오면 붙이고, ‘있다’가 나오면 땔 겁니다. 제가 봐서는 10분이면 만듭니다. 단, 문제점은 규칙이 과적용될 수 있다는 점입니다.

어떻든 더 똑똑한 맞춤법검사기가 만들어졌습니다. 당연히 여러 맞춤법검사기를 사용했다면 더 좋은 결과가 나올 겁니다.

이 방법을 원천적으로 막을 수는 없지만, 막는 방법이 있습니다. 하루에 몇 건 이상을 동일 사이트에서 검사하지 못하게 하는 방법입니다. 또 아주 빠르게 재검사를 하면 못 하게 합니다. 부산대처럼 검사 결과 오류를 정리해서 제공하지 않으면 됩니다. 두 단어가 연계되어 오류가 만들어졌을 때 오류 부분만 보여주고, ‘마를린 몬로’처럼 틀렸을 때 각각 오류를 따로 나오게 하면 됩니다. 실제 부산대는 이런 방어장치가 전혀 없고, 어떤 시스템은 철저합니다. 부산대 시스템의 모듈을 사용하는 회사에서 몰래 가져와 써도 됩니다.

오비이락인지 모르지만 지난 몇 달간 부산대 시스템이 속도가 늦어졌다는 항의가 자주 있었습니다. 우리말배움터를 보시면 알 수 있을 겁니다(올해 4월 7월). 저희 오류 찾는다고 엄청나게 고생했습니다. 그런데 이유 없이 며칠 후부터 해결되었습니다. 이 부분은 짐작이지 증명된 것은 아닙니다.

(3) 만든 시스템을 검증하고 마지막 금상첨화

이제 꽤 똑똑한 시스템이 만들어졌습니다. 그러나 규칙이 과적용될 수 있습니다. 대용량 말뭉치를 새로 만든 시스템에 돌리세요. 그리고 틀렸다고 하는 것을 모두 모아서 다른 맞춤법검사기에 돌리세요. 다른 시스템과 같은 결과가 나온 것은 제거하고, 나머지를 직접 검증하세요. 규칙이 과적용되었으면 고치고, 아니면 다른 맞춤법검사기 오류이니 뿌듯해하세요…. 다른 어떤 맞춤법검사기보다 최소한 5%는 좋은 맞춤법검사기를 완성했습니다.


▲  다음 맞춤법 검사기
▲ 다음 맞춤법 검사기

소규모 업체의 생존에도 위협

카카오는 다음 맞춤법 검사기의 API를 완전히 공개했다. 포털 같은 업체가 API를 공개해버리면 맞춤법 검사기를 서비스하고 있는 나라인포테크 같은 업체는 당장 생존을 걱정해야 한다. 한 업체에 A를 팔기로 계약하고 있는데, 모 업체에서 A와 거의 차이가 없는 A'를 무료로 공개한다. 계약은 어그러진다. 권혁철 교수는 “저희와 계약하려던 일부 업체가 다음이 공개한 API 사용을 고려하고 있다고 합니다”라고 밝혔다.

그런데 드디어 다음마저 공개했네요. 그런데 듣기로는 참고만 했다고 했지만, 우리 것과 네이버 것 그대로 베꼈습니다. 물론 우기겠죠. 참고는 했지만, 자기들의 아이디어도 있다고…. 그리고 다음은 아예 API도 공개했습니다. 심하게 말하면 도둑질해서 선심 쓰는 의적인지도 모르죠. 남이 한 것을 훔치면서 부끄럼 모르고 자랑하는 현실……. OOO 교수님께서 소프트웨어 교육과 육성해야 한다고 외치시지만……. 우리나라 소프트웨어 업계 장래성 없습니다.

권혁철 교수는 “로마자 변환기를 만들었더니 네이버도 곧 만들더군요. 그러더니 무료로 API 공개해서(상업적 사용 가능) 그나마 진행되던 은행과의 계약이 모두 취소됐습니다”라고 네이버도 비판했다.

권혁철 교수는 “무료로 API를 공개하여 사용하게 하여 다른 업체나 개발자의 싹을 잘라버려서는 안 됩니다”라고 주장했다. 물론 이번 사안은 해당 분야의 기술을 축적해 온 소규모 업체의 기술을 활용했다는 의문이 제기된다는 점에서 다르지만, 서비스의 공개는 사회 공익적인 측면을 따져서 논의할 문제다. 카카오는 이에 대해 “API 공개에 대해서는 이용자는 물론 다양한 서비스 사업자, 개발자들과의 상생과 함께 올바른 한글 사용을 장려하기 위한 공익적 취지에서 무료 공개를 결정했다”라고 밝혔다.

네이버·카카오, “부산대와 무관하게 자체 개발”

카카오는 자사의 서비스가 부산대와는 전혀 무관하게 개발한 서비스라는 입장이다. 카카오는 “포털 사업자로서 검색 서비스를 포함한 다양한 서비스 영역에 맞춤법 검사가 활용됨에 따라 지난 2014년 7월부터 자체 역량을 활용해 개발했으며 지속적인 성능 향상 작업을 진행해 오고 있다”라고 입장을 밝혔다.

네이버는 “맞춤법 검사기와 제휴를 추진한 것은 맞지만, 2010년부터 자체적으로 개발했다”라며, “부산대의 맞춤법 검사기가 제일 좋기 때문에 품질 검사에는 활용했지만, 개발 단계에서 역공학 등의 방법을 사용하진 않았다” 라고 입장을 밝혔다. 로마자 변환 API에 대해서는 “네이버에서 공개한 한글인명 로마자 변환 API 는 국립국어원의 표기를 서비스화 한 수준의 간단한 것”이라며 “기술적 난이도도 낮고, 니즈가 있어서 공개하게 됐다”라고 말했다. 다만 “공익적 차원에서 API를 공개했지만, (API 공개와 같은 부분은)내부에서 좀 더 고민해 보겠다”라고 덧붙였다.

저작권자 © 블로터 무단전재 및 재배포 금지