네이버, “클로바 보이스 경쟁력 구글보다 높다”

4시간 분량의 음성 데이터로 음성 합성을 할 수 있다.

가 +
가 -

인공지능(AI) 스피커와의 대화에는 전제가 있다. 음성인식, 음성합성, 자연어처리(NLP) 기술이 필요하다는 점이다. 사용자의 목소리를 제대로 인식할 수 있어야 하며(음성인식), 사람처럼 자연스럽게 말해야 하고(음성합성), 무슨 말을 하는지 알아들어야(자연어처리) 대화를 할 수 있다. ‘AI 플랫폼’이 음성 기반 사용자 인터페이스를 사용하면서 음성 기술의 중요성이 대두되고 있다. 구글은 사람처럼 자연스럽게 말하는 ‘듀플렉스’ 기술을 시연해 화제를 모았다. 국내 음성 기반 기술은 어느 정도 수준일까. 네이버는 자사의 음성 합성 기술 ‘클로바 보이스’의 경쟁력이 한국어, 영어, 일본어, 중국어 등에 있어서 구글보다 우위에 있다고 밝혔다.

강인호 네이버 자연어처리 리더

네이버는 7월3일 서울 강남구 ‘D2 스타트업 팩토리’에서 테크포럼을 열고 자사의 AI 스마트 스피커에 적용된 음성인식·음성합성·자연어처리 기술에 대해 발표했다. 이날 발표에 나선 김재민 네이버 클로바 보이스 리더는 “적은 양의 음성 데이터로도 특정인의 목소리 특성을 살릴 수 있는 기술을 개발했으며 4시간 분량의 음성 데이터로 음성합성을 할 수 있다”라고 밝혔다. 특정인의 목소리를 구현하는 음성합성 기술에 있어서 대용량 데이터베이스(DB)가 필수적이지만 딥러닝(DNN)과 파형 접합 합성(UTS)을 결합한 하이브리드 음성합성 기술을 통해 이런 한계를 극복했다는 설명이다.

 

4시간 만에 특정인 목소리 살려낸다

김재민 리더에 따르면 기존 UTS 방식의 음성합성 기술은 40시간 이상의 음성 DB가 있어야 서비스 가능한 수준의 음성을 만들어낼 수 있었다. 음성합성에 대용량 DB가 필요하다는 점은 구글도 풀어내지 못한 과제였다. 하지만 네이버는 DNN과 UTS를 결합한 음성합성 기술(Hybrid Dnn Text-to-Speech, HDTS)을 통해 적은 시간 녹음해도 특정인의 목소리 특성을 살릴 수 있도록 했다. 김재민 리더는 이를 통해 장시간 녹음이 필요한 애니메이션이나 연예인 녹음 등에 다양하게 활용할 수 있다고 설명했다.

네이버의 음성 합성 기술 ‘클로바 보이스’ 경쟁력 비교

이런 음성합성 기술을 기반으로 한 네이버 서비스는 곧 출시될 예정이다. 구체적인 날짜는 명시하지 않았지만 기술은 이미 준비됐으며 저작권 등 계약 문제에 시간이 걸리고 있다는 설명이다. 김재민 리더는 음성합성 기술이 범죄 등에 악용될 거라는 우려에 대해선 “합성음 뒤에 음악을 깔거나 워터마킹을 넣어서 기계음과 실제 인간의 목소리를 구분할 수 있을 것”이라며 “현재까지는 합성된 음성을 자세히 들으면 알아챌 수 있기 때문에 걱정할 만한 수준은 아니다”라고 말했다.

 

지식인 DB 활용해 자연어처리 성능 올렸다

인간의 언어를 이해하고 분석하는 자연어처리(NLP) 기술에는 네이버의 방대한 DB가 활용됐다. 네이버는 패턴과 머신러닝을 결합한 하이브리드 분석 모델을 통해 다양한 변형 질의를 이해하는 기술을 갖췄다. 4천만개 이상의 개체명, 3400개의 속성, 480만개의 동의어 패턴을 보유했으며 외부 개발자 및 파트너에게도 동일한 수준의 NLP 기술이 지원된다. 특히 강인호 네이버 자연어처리 리더는 “2500만건의 지식인 문서로부터 사용자의 언어 표현 행동을 습득할 수 있었다”라며 지식iN DB를 통해 사용자의 의도를 정확히 파악하고 질의응답 시스템의 성능을 향상시킬 수 있었다고 밝혔다.

네이버는 자연어처리 성능을 높이기 위해 지식인 데이터를 활용하고 있다.

지식인 게시물의 제목과 게시글 내용을 매칭시켜 동의어나 오타를 교정하는 등 사용자 질문 의도를 더욱 정확히 파악할 수 있었다는 설명이다. 강인호 리더는 “지식인 서비스와 연계해 자연어처리 능력을 계속 높이고 있으며 점점 더 똑똑해지는 플랫폼을 만들고 있다”라고 말했다. 현재 NLP 기술을 바탕으로 네이버 지식iN에 AI가 답변하는 ‘지식i’의 경우 서비스 개시 1년 만에 채택 답변 수와 답변 채택률에 기반한 등급 중 ‘수호신’에 올랐다. 최고 등급인 ‘절대신’보다 한 단계 낮은 등급이다.

네이버는 화자를 식별하는 음성인식 서비스도 올해 하반기 중 내놓을 예정이다. 누가 말하는지 알아맞히거나 등록된 사용자가 말했는지 인증하는 기술인 ‘화자인식’ 기술은 AI 스피커에서 더욱 개인화된 서비스를 제공해줄 것으로 기대된다. 대개 거실에서 사용되는 AI 스피커는 가족 구성원을 구별하지 못해 개인화 서비스에 있어 한계를 보여왔다. 한익상 네이버 클로바 음성인식 리더는 화자인식 기술을 바탕으로 사용자를 인식해 라인 메시지를 읽어주거나 사용자 취향에 맞춘 음악 서비스가 가능해질 것이라고 말했다.

네티즌의견(총 0개)