“손석희 앵커가 댓글 읽어드립니다”

가 +
가 -

“애국은 강요가 아닌 감동, 즉 마음이 움직여야 한다는 것. 그러기 위해 국가가 해야 할 일이 무엇인가를 먼저 생각해야 한다는 것. 이른바 ‘애국 3법’이란 것이 그 옛날 태극기와 애국가로 점철되던 시대를 그리워하는 것이라면 그것이야말로 ‘희미한 옛사랑의 그림자’일지도 모르겠습니다.”

지난 4월8일 <JTBC 뉴스룸> 2부에서 손석희 JTBC 보도 담당 사장이 한 말이다. ‘애국 3법’을 발의한 세태를 꼬집는 문장으로 많은 이들의 공감을 샀다. 코너의 이름은 ‘앵커브리핑’이다. 손석희 사장이 매일 직접 진행하는 대표 코너다.

손석희 사장은 다소 느리게 말한다. 마치 징검다리를 밟고 냇물을 건너듯, 단어와 문장 사이를 신중히 오간다. 조금 높은 톤의 목소리지만, 듣는 이들에게는 신뢰감을 준다. 누군가 성대모사로 그의 목소리를 흉내 낼 수 있을까. 만약 그렇다 해도 완벽한 복제는 어렵지 않을는지.

다음카카오가 손석희 사장의 목소리를 복제했다. 다음카카오는 4월10일 멀티미디어 자료를 활용한 새 음성 합성 서비스를 공개했다. 포털사이트 다음의 ‘미디어다음’에서 ‘앵커브리핑‘ 코너도 만들었다. 이제 <JTBC 뉴스룸>이 아니라 다음 포털에서도 손석희 사장의 목소리를 들을 수 있다. 미리 녹음한 손석희 사장의 목소리를 재생해주는 것 아니냐고? 아니다. 손석희 사장이 댓글을 입력하면, 기계가 손석희 사장의 목소리로 읽어주는 기술이다. 다음카카오의 음성합성 기술에서 음성변환 기술의 내일을 확인할 수 있다.

daum_800

김봉완 다음카카오 음성처리파트 부장(왼쪽), 김의철 다음카카오 음성처리파트 과장

수학과 통계가 완성한 손석희 ‘성대모사’

“음성을 기계가 합성하는 방법에는 두 가지가 있어요. 편집을 통한 방식과 통계적인 방법입니다. 편집은 말 그대로 사전에 녹음한 음성에서 필요한 부분을 자르고 붙여 문장을 만드는 기술입니다. 통계적인 방식은 목소리의 평균 톤과 길이를 수치로 계산해 음성을 만듭니다.”

다음카카오의 새 서비스는 다음과 같이 작동한다. 다음 포털의 새 코너 ‘앵커브리핑’에서 손석희 사장의 댓글 옆에 달린 스피커 단추를 눌러보자. 손석희 사장의 목소리가 흘러나온다. 이는 손석희 사장이 미리 녹음한 내용이 아니다.

김봉완 다음카카오 음성처리파트 부장은 “손석희 사장의 목소리를 서비스할 때 통계적인 관점에서 접근했다”라며 “사전에 녹음된 문장이 없어도 새로운 말을 만들어낼 수 있는 기술”이라고 설명했다.

주변에서 흔히 볼 수 있는 스마트폰의 음성비서 기술을 떠올려보자. 예를 들어 애플의 ‘시리’는 익명의 성우가 스튜디오에서 수많은 문장을 녹음해 만들어졌다. 녹음된 문장에서 필요한 부분을 컴퓨터가 편집해 활용하는 식이다.

다음카카오의 손석희 사장 목소리는 이와 다르다. 음절이나 단어를 편집해 문장을 완성하는 기술이 아니라 손석희 사장의 목소리 톤과 길이의 평균값을 합성에 활용한다. 녹음된 문장이 없어도 손석희 사장이 직접 입력한 댓글을 기계가 목소리로 읽어줄 수 있는 것은 이같은 이유에서다.

사람의 목소리에는 저마다 특징이 있다. 마치 지문과 같다. 말을 할 때 보통 어떤 부분을 강조하는지, 음절을 발음하는 길이는 얼마나 되는지, 혹은 어디에서 쉬고, 의문문으로 끝나는 문장은 어떻게 올리는지 등이다. 통계적 합성 박식은 사람의 말에서 길이와 음성 톤을 수학적으로 평균을 내고 평균값을 낸다. 이 자료는 기계가 문장을 음성으로 읽을 때 가장 중요한 자료다.

다음카카오는 서비스 완성을 위해 다양한 기술을 동원했다. <JTBC 뉴스룸>의 지난 1년 치 동영상을 끌어모으는 과정은 웹 크롤링이다. 손석희 사장의 목소리만 추출할 때는 화자인식 기술을 썼다. 음성을 추출하는 속도를 높이기 위해 분산컴퓨팅 기술을 첨가했고, 뽑아낸 음성을 텍스트로 바꾸는 음성인식 기술도 활용했다. 텍스트가 기존 음성과 일치하는지 변환∙검증과정도 필수다. 다음카카오 서버에 마지막으로 남는 자료는 손석희 사장의 목소리와 그에 대응하는 텍스트 자료다. 길이로 따지면 10시간 남짓, 용량으로 치면 2~3GB 정도 된다. 막대한 덩치를 자랑하는 1년 치 동영상에서 짜내고 짜낸 ‘손석희 사장 추출물’인 셈이다. <JTBC 뉴스룸>의 1년 치 동영상을 활용하는 과정은 그 자체로 빅데이터 기술이다.

김의철 다음카카오 음성처리파트 과장은 “음성인식 기술은 흔하지만, 포털만이 할 수 있는 서비스는 무엇일까 고민했다”라며 “친근한 서비스를 하는 것이 우리의 지향점”이라고 설명했다.

설명을 백번 듣는 것 보다, 한 번 듣는 것이 낫다. 아래 영상을 재생해 기술이 빚은 손석희 사장의 목소리를 들어보자.

daum_2_800

다음 포털의 ‘앵커브리핑’ 코너

“듣고 싶은 목소리 들려주는 것이 목표”

좀 다르게 생각해보자. 다음 포털사이트에서 손석희 사장의 댓글을 그의 목소리로 직접 들을 수 있다는 것의 의미를 말이다. 정보 전달의 신뢰성, 서비스의 다양성, 뉴스 서비스의 친근함을 확보하는 일임에는 분명하지만, 그걸로 끝이다. 다음카카오는 이 기술을 앞으로 어떻게 활용할 계획일까. 오늘보다는 내일 더 빛을 낼 기술이라는 게 이들의 설명이다.

“장애인이나 앞이 잘 안 보이는 분들은 문자가 와도 읽기 어렵잖아요. 그런 분들에게 소식을 전하고 싶은데, 그러기 쉽지 않죠. 앞으로는 이 기술이 가족의 문자가 오면, 가족의 목소리로 문자를 읽어주는 데까지 발전하지 않을까 기대합니다. 그런 것이 기술을 개발하는 이들의 보람이라고 생각해요.”(김봉완 부장)

“본인 목소리를 듣고 싶어하는 사람은 없어요. 다만 나와 특별한 관계에 있는 사람의 목소리는 듣고 싶어 하잖아요. 앞으로는 짧은 시간의 목소리 데이터만 갖고도 그 사람의 목소리를 합성할 수 있는 그런 기술로 발전하지 않을까 생각하고 있어요.”(김의철 과장)

앞을 볼 수 없는 가족을 둔 사람들, 이미 세상을 떠난 이. 이들의 목소리를 토대로 삼아 음성 합성 기술을 활용할 수 있도록 하면 어떨까. 시각장애인의 스마트폰이 가족의 목소리로 문자를 읽어주고, 가족의 목소리가 그리운 이들의 음성을 다시 들을 수 있지 않을까.

김봉완 부장이 “그렇게 하기 위해서는 아직 넘어야 할 산이 많다”라고 덧붙이기는 했지만 말이다. 우선, 목소리 정보가 있어야 한다. <JTBC 뉴스룸>의 지난 1년에서 추출한 10시간짜리 손석희 사장의 목소리처럼, 보통 사람들의 신뢰할만한 정보가 필요하다. 하지만 보통은 그런 정보를 남기지 않는다. 설령 녹음된 목소리 정보가 있다고 해도, 컴퓨터가 합성했을 때 만족할 만한 품질을 기대할 수 있을 정도로 충분한 데이터가 있어야 한다. 현재 다음카카오에서 제공하는 손석희 사장의 목소리는 10시간짜리 정보에서 추출한 통계로 만들어지지만, 시간이 지날수록 품질은 나아질 것이다.

“‘적응기술’이라고 부릅니다. 적은 분량이지만, 깨끗한 데이터를 모으는 거죠. 이게 그 사람의 기본적인 소리 특징이라고 모델을 만들어서 합성하는 것인데, 아직 거기까지 가기에는 시간이 좀 필요합니다.”

지난 2014년 10월 세상을 떠난 가수 신해철은 총 4기에 걸쳐 10여년 동안 라디오를 진행해 왔다. 이런 이들의 목소리를 다음카카오가 합성해 들려줄 수 있지 않을까. 상상일 뿐이지만 말이다. 다음카카오는 기술을 통해 ‘희미한 옛 사랑의 목소리’를 기록하는 일을 연구 중인지도 모르겠다.