‘야민정음’도 번역하네…구글 번역기의 흥미로운 사실 5가지

가 +
가 -

구글 번역기는 올 11월에 한국어를 포함, 8개의 언어조합에 ‘구글 신경망 기계번역(GNMT)’이라는 새로운 기술을 적용했다. 구글 번역기는 새로운 기술로 월등한 수준의 성능 향상을 이뤄냈다. 이해는 물론이고, 번역이 완결된 문장의 완성도도 대폭 끌어올렸다. 구글에서 위키피디아 및 뉴스 매체의 샘플 문장을 기준으로 주요 언어 조합의 번역을 평가했을 때, GNMT 번역 오류는 55%에서 85%가량으로 줄어들었다. 장문의 글도 초벌 번역으로는 전혀 무리가 없으며, 단문은 거의 완벽하다.

google translator

11월29일 구글코리아에서 있었던 버락 투로프스키 구글 번역 프로덕트 매니지먼트 총괄과의 영상 기자간담회를 바탕으로 구글 번역기와 관련된 흥미로운 사실을 정리했다.

google translator

기존 방식의 번역과 새로운 방식의 번역을 비교했다(사진=구글)

1. 번역에 사용된 방법은 네이버와 같다

구글 번역기는 웹에서 번역 콘텐츠를 긁어와서 학습한다. 기계는 수많은 데이터를 바탕으로 인간의 개입이나 도움 없이 스스로 어떻게 번역됐는지 익힌다. 기존 통계적 번역과의 차이는 번역의 단위인데, 기계번역의 번역 단위는 단어나 구문이 아니라 문장이다. 문맥을 활용해 적합한 번역을 파악하는 방식이다.

naver_translate (1)

네이버의 인공신경망 기반 번역 서비스

구글 번역기에 사용된 기술인 ‘신경망 기계번역’의 기술 자체는 보편적으로 알려져 있다. 회사마다 확보한 훈련 데이터를 바탕으로 커스터마이징하는 정도다. 네이버도 같은 기술을 쓰는데, 그래서 각 사의 번역 기술 이름도 비슷하다. 구글은 GNMT(Google Neural Machine Translation), 네이버는 N2MT(Naver Neural Machine Translation)라고 부른다.

google translator (5)

11월29일 기준 가장 유명한 문장을 번역기에 넣어보았다.

2. 한국어·일본어·터키어는 한데 묶여 학습됐다

구글 신경망 기계번역 기술이 적용된 언어는 한국어를 비롯해 영어, 프랑스어, 독일어, 스페인어, 포르투갈어, 중국어, 일본어, 터키어 등의 8개 언어 조합이다. 신경망 기계번역 기술의 장점 중 하나는 다중 언어를 한번에 학습시킬 수 있다는 것이다. 특성이 비슷한 언어는 한꺼번에 트레이닝이 된다. 한국어·일본어·터키어는 언어적 특성이 유사해 묶어서 훈련이 됐다.

google translator (3)

문학적인 글의 번역도 가능하다.

3. 데이터가 부족한 언어의 학습도 가능하다

한국어–영어, 일본어–영어의 번역 데이터가 각각 많고, 한국어–일본어의 번역 데이터는 상대적으로 그 수가 적다고 가정하자. 이 때도 신경망 기계번역을 활용하면 전혀 문제가 되지 않는다. 한국어–영어–일본어를 함께 넣어 기계를 훈련시키면 한국어–일본어 사이에 직접 연결된 훈련 데이터가 없어도 번역할 수 있다.

또한 인터넷에서 잘 사용이 되지 않거나 공개되지 않은 언어의 학습도 가능하다. 예컨대 힌디어 계열의 방언이라면 힌디어 데이터를 활용해 기계에 번역을 학습시킬 수 있다.

google translator (7)

google translator (6)

4. 편견이 반영된 경우도 있다

성별을 특정하지 않는 대명사를 번역할 땐 인간의 편견을 반영한 결과물을 내뱉기도 한다. 예컨대 ‘어린이집 선생님’ 일때는 주어를 여성형으로 사용하고 ‘선생님’은 주어를 남성형으로 사용하는 식이다. 버락 투로프스키 총괄은 “기계번역이 가지고 있는 가장 흔한 문제로, 훈련 데이터만을 사용할 때의 어려움이 있다”라며 “신경망으로 상당히 개선됐지만, 일부 언어는 아직 완벽하게 개선되진 못했다”라고 밝혔다.

google translator (1)

ㅇㅈ

google translator (2)

인터넷에서는 ‘대’와 ‘머’의 형태가 유사한 것에 착안, ‘대’ 자리에 ‘머’를 넣기도 한다. 예) 대가리 – 머가리

5. 인터넷 공간에서 만들어진 언어도 번역할 수 있다

예컨대 요즘 많이 쓰이는 ‘ㅇㅈ?(인정하니? 라는 뜻)’ 의 경우 ‘Is it?’으로 번역이 되기도 한다. 심지어 나이가 많은 사람은 잘 모르는 말인데도 불구하고 기계가 이해한 셈이다. 하나 더, 인터넷에서 쓰이는 ‘야민정음’이라는 한글 표기법도 부분적으로 번역이 된다. 야민정음이란 모양이 비슷한 글자를 대체하는 표기법인데, 박근혜를 ‘박ㄹ혜’ 로 쓰는 식이다(‘근’과 ‘ㄹ’의 형태가 비슷하기 때문). 이는 새로운 번역의 기준이 ‘문장’이기 때문이다. 사례로 든 단어는 제대로 모양이 갖춰져 있지 않았지만, 문장을 통으로 두고 번역하기 때문에 비교적 적절한 번역이 이뤄진다. 물론, 모든 신조어가 제대로 번역되지는 않는다.

블로터 독자를 위한 특별 할인쿠폰이 발행되었습니다.

네티즌의견(총 19개)