네이버의 음성 기술 수준, 어디까지 왔나

화자인식과 음성합성 기술의 현재

가 +
가 -

인공지능(AI) 스피커는 말을 한다. 사람이 말로 대화를 하려면 상대방의 말을 인식하고, 말의 내용을 이해하고, 상대방이 알아들을 수 있도록 말해야 한다. AI 스피커도 마찬가지다. 사용자 목소리를 인식하고(음성인식), 무슨 말을 하는지 알아듣고(자연어처리), 사람처럼 자연스럽게 말해야(음성합성) 한다. 대화의 내용을 구체화하기 위해선 사용자 목소리만 듣고도 누군지 식별(화자인식)할 수 있어야 한다.

AI 플랫폼이 음성 기반 인터페이스를 사용하면서 음성 기술이 서비스 경쟁력에 중요한 요소로 떠오르고 있다. 기술 플랫폼을 지향하는 네이버의 음성 기술 수준은 어느 정도 수준일까? 네이버는 자사의 음성 기술에 대한 자부심을 갖고 있다. 특히 음성합성 분야에 있어서 글로벌 수준에 있다고 자부한다. 기계가 내는 목소리가 자연스러울 뿐만 아니라 음성합성에 필요한 데이터양과 시간을 획기적으로 줄였기 때문이다. 지난 10월11·12일 이틀간 열린 네이버 연례 개발자 행사 ‘데뷰 2018’에서 네이버의 음성 기술 개발에 대한 자세한 얘기를 들어볼 수 있었다.

 

100문장으로 만드는 개인화된 음성합성

특정인의 목소리를 구현하는 음성합성 기술에는 대용량 데이터베이스(DB)가 필수적이다. 적어도 40시간 이상의 데이터가 있어야 한다. 성우 녹음 후 1년 후에나 실제 서비스에 적용할 수 있다. 그만큼 비용도 많이 든다. 우리가 원하는 취향의 다양한 AI 목소리를 들을 수 없었던 이유다. 네이버는 지난 7월 딥러닝(DNN)과 파형 접합 합성(UTS)을 결합한 ‘하이브리드 음성합성 기술(Hybrid Dnn Text-to-Speech, HDTS)’을 통해 이런 한계를 극복했다고 발표했다. 4시간 분량의 음성 데이터로도 특정인의 목소리 특성을 살릴 수 있다는 설명이다. 그런데 이번엔 100문장만으로 개인의 목소리를 구현할 수 있다는 주장이 나왔다.

| 음성합성에는 많은 시간과 비용이 들어간다.

12일 데뷰 2018에서 ‘누구나 만드는 내 목소리 합성기’를 주제로 발표한 이봉준 네이버 클로바 보이스팀 개발자는 100문장, 약 8분의 데이터로 구현한 음성합성 기술을 시연했다. 여기에는 다양한 기법이 적용됐다. 먼저, 모든 음소 조합에 대한 샘플이 필요한 접합(Concatenation) 방식에서 벗어나 음성을 분석해 파라미터로부터 음성을 생성하는 통계적 매개 변수(Statistical Parametric) 방식을 사용했다. 다음으로, 추가적인 정보 없이 웨이브폼과 텍스트만으로 음성을 생성하는 엔드 투 엔드 모델로 보코더 파라미터를 추정했다. 화자적응(Speaker Adaptation) 기법으로 모델을 변환하고 보코더를 이용한 음성 합성이 이뤄졌다. 쉽게 말해 적은 데이터로도 음성합성을 할 수 있도록 일정 부분 품질을 타협하고 필수적인 과정만 거친 셈이다.

| 이봉준 네이버 클로바 보이스팀 개발자

실제로 발표에서 시연된 합성음은 노이즈가 껴 있는 게 느껴졌지만, 상용화된 합성음과 비교해 크게 어색하지 않았다. 이봉준 개발자는 품질을 향상시키고 더 적은 데이터를 사용하도록 개선해 개인이 직접 스마트폰으로 녹음해서 음성합성을 구현할 수 있는 개인화 서비스를 구현하는 게 목표라고 밝혔다. 네이버가 지난 7월 발표한 하이브리드 음성합성 기술이 연예인 등 유명인의 목소리를 상용화하는 데 있어 비용과 시간을 줄이는 데 방점이 찍혀 있다면, 이번에 발표된 음성합성 기술은 사용자 개인이 직접 음성합성 서비스를 이용하는 데 주안점을 둔 셈이다.

| 음성합성을 적은 데이터로 구현할 수 있다면 가능한 서비스

 

상용화 앞둔 화자인식 기술

화자인식 기술은 최근 음성 기술에 있어서 화두로 떠올랐다. 개인화된 서비스를 제공하는 데 있어서 필수적인 기술이기 때문이다. AI 스피커는 집에서 쓰도록 설계된 만큼 개인이 아닌 가족들이 함께 쓰게 된다. 이런 환경은 AI 플랫폼이 지향하는 개인화된 서비스 제공을 어렵게 한다. 누가 말하는지 알아맞히거나 등록된 사용자가 말했는지 인증하는 기술인 화자인식 기술은 AI 스피커의 딜레마를 풀 열쇠다. 화자인식을 적용하면 개인별 맞춤형 음악 추천이나 일정 관리, 상품 구매 시 본인 인증 등 다양한 형태의 개인화 서비스가 가능하다. 구글은 지난해 4월 화자인식 기술을 적용한 ‘보이스 매치’ 기능을 자사의 AI 스피커 ‘구글 홈’에 적용했다.

 

| 화자인식 기술은 AI 스피커 개인화 서비스에 필수적이다.

네이버는 화자인식 기술 개발을 끝내고 상용화를 목전에 두고 있다. 이봉진 네이버 클로바 스피치팀 개발자에 따르면 현재 네이버가 개발한 화자인식 기술은 발화 거리에 따른 성능 하락 폭을 줄였다. 근거리와 중거리의 경우 거의 같은 수준이며, 원거리에서 성능이 떨어지지만 어떤 거리에서든 사용할만한 성능이라고 밝혔다.

또 소음 환경에 따른 성능 변화의 경우 AI 스피커에서 음악이 재생될 때는 성능 저하가 거의 없다. 어쿠스틱 에코 캔슬러 기술을 적용해 음악 소리를 제거하기 때문이다. 하지만 스피커 외부에서 나오는 소음의 경우 성능 저하가 많이 나타난다고 밝혔다. 노이즈 제거를 위해 다양한 알고리즘을 쓰지만, 알고 있는 노이즈 신호(스피커 자체 음악)를 없애는 것과 모르는 신호를 없애는 데는 차이가 있기 때문이다. 화자 수에 따라서도 성능이 달라진다. 화자식별 정확도는 6명일 때부터 떨어지기 시작한다. 이봉진 개발자는 등록된 화자가 6명일 때 2%, 10명 3%, 20명 5%, 50명 8%, 100명일 때 10% 정도 화자식별 정확도가 떨어진다고 전했다.

| 이봉진 네이버 클로바 스피치팀 개발자

이봉진 개발자 성능 개선 사항으로 ▲화자인식을 위한 최선의 훈련 방법 고민 ▲네트워크 구조 최적화 ▲환경과 시간에 따라 변하는 목소리에서 화자인식 성능 유지 등을 꼽았다. 현재 화자인식 기술의 한계점으로는 시작과 끝이 명확한 독립된 음성이 있어야 한다는 점, 화자 등록과정을 거쳐야 한다는 점, 문장이 아닌 말을 알아듣지 못한다는 점을 짚었다. 또 화자인식 기술이 높은 수준의 인증수단으로 사용되기 위해선 녹음된 음성이나 성대모사, 음성변조, 음성합성 등으로부터 뚫리지 않도록 기술을 고도화할 필요가 있다고 밝혔다.

네티즌의견(총 0개)