"김 교수님한테 나 먼저 간다고 문자 보내줘."


"네 알겠습니다. '나 먼저 간다'고 문자를 보냅니다."



인공지능(AI) 비서에게 친구와 대화하듯이 음성 명령을 내리면 큰 낭패를 볼 수가 있다. 화자와 청자의 관계에 따라 표현이 달라지는 한국어의 특성 때문이다. 한국어는 자연어처리(NLP)가 어려운 언어로 꼽힌다. 한국어가 갖는 풍부한 표현은 컴퓨터와 사람이 인간의 언어로 상호작용하는 데 걸림돌이 된다. 그렇다면 이를 극복하기 위해 어떻게 해야 할까.

구글코리아는 12월5일 'AI 혁신과 자연어 처리'를 주제로 포럼을 열었다. 이 자리에서 구글 전산 언어학자 팀을 이끄는 최현정 연구원은 한국어의 자연어 처리가 가장 어려웠다고 고충을 토로했다. 최현정 연구원은 한국어의 자연어 처리가 힘든 이유로 ▲구어와 문어의 큰 차이 ▲청자와 화자의 관계에 따른 높임법 ▲운율적 요소에 따른 의미 변화 ▲주어·서술어·목적어 등의 빈번한 생략 ▲띄어쓰기의 어려움 등을 꼽았다.

▲  최현정 구글 연구원
▲ 최현정 구글 연구원

구어와 문어의 차이는 한국어에서 도드라지게 나타난다. 최현정 연구원은 "영어에서도 나타나는 현상이지만 특히 한국에서는 구글에서 문어로 검색할 때와 구글 어시스턴트를 사용할 때 나오는 데이터가 굉장히 다르다"라고 말했다. 또 한국어는 화자와 청자의 관계에 따라 높임법이 달라지기 때문에 컴퓨터가 언어를 읽을 수 있도록 말뭉치(Corpus)를 구성하기도 힘들다.

▲  영어권 사용자와 '구글 어시스턴트'의 대화
▲ 영어권 사용자와 '구글 어시스턴트'의 대화

▲  한국어 사용자와 '구글 어시스턴트'의 대화
▲ 한국어 사용자와 '구글 어시스턴트'의 대화

또한 운율 요소가 크게 작용해 같은 단어라도 의미가 달라진다. 예를 들어 영어에서 만날 때 인사와 헤어질 때 인사는 '하이(Hi)'와 '바이(Bye)'로 명확하게 나뉘지만, 한국어에서 '안녕'은 말의 높낮이와 길이, 세기에 따라 의미가 바뀐다. 주어와 서술어 목적어가 자유롭게 생략되는 점도 한국어가 갖는 특징이다.

띄어쓰기의 어려움도 자연어 처리를 힘들게 하는 요소다. 최현정 연구원은 "띄어쓰기가 어렵다 보니 잘못된 데이터를 많이 받는다"라며 "중·고등학생들은 일부러 띄어쓰기 사용을 안 하는 경향이 있다"라고  한국어 데이터 수집의 어려움을 전했다.

구글은 이러한 어려움을 머신러닝을 통해 해결하고 있다. 주어나 서술어, 목적어 등 문장의 필수 요소가 생략되는 문제는 완전한 문장을 복원하는 방식으로 풀어낸다. 완전한 문장을 만들어주는 학습 시스템을 통해 컴퓨터는 완전한 문장 데이터를 전달받는다. 또 같은 말에 대한 다양한 표현은 비슷한 의미들을 한 그룹으로 묶어서 이해할 수 있도록 하는 시스템을 사용한다. 문장을 벡터값으로 변환해 벡터값의 거리에 따라 비슷한 것끼리 묶는 방식이다.

구글이 자연어 처리에서 강조하는 부분은 확장성이다. 특정 언어에 대한 학습 코드를 넣는 방식이 아니라 머신러닝을 활용해 더 많은 언어로 쉽게 확장할 수 있는 시스템을 만드는 데 초점을 맞추고 있다. 한국어 데이터가 부족하지 않냐는 지적에 대해 하다 셈토브 구글 리서치팀 디렉터는 "구글은 기술이나 알고리즘 개발에 투자해 한국어 데이터 부족 문제를 극복해왔다"라고 말했다. 최현정 연구원은 "신경망 모델로 넘어가면서 데이터가 적어도 좋은 퍼포먼스를 보이는 경우가 많이 있다"라며 "데이터 양으로 완전히 승부가 결정되는 건 아니다"라고 덧붙였다.

음성인식 기술의 개인정보 침해 여부도 도마에 올랐다. 구글이 안드로이드 사용자의 위치 정보를 동의 없이 수집해 온 사실이 최근 밝혀지며 논란이 됐다. 이에 대해 하다 셈토브 디렉터는 "마이크가 항상 켜져 있는 상태가 아니다"라며 "'오케이 구글' 같은 호출 명령을 내릴 때만 해당 음성 정보가 수집되고 구글에 전송되며 수집된 정보에 대해 신중하게 처리하고 있다"라고 밝혔다.

저작권자 © 블로터 무단전재 및 재배포 금지