지난해 2월 결성된 토종 인공지능(AI) 산학 연합체 'AI 원팀'이 1주년을 맞았다. KT가 주도한 AI 원팀에는 △현대중공업그룹 △LG전자 △LG유플러스 △한국투자증권 등의 기업과 △한국과학기술원(카이스트) △한양대 △한국전자통신연구원(ETRI) 등의 학교 및 연구기관들이 참여했다. AI 원팀은 지난 1년간 AI 분야 주요 기술 고도화와 표준화, 인재 양성 등에 집중했다. 그 결과 1년만에 AI의 음성인식과 음성합성 분야에서 가시적인 성과를 냈다. <블로터>는 음성인식과 음성합성 연구를 각각 주도한 장준혁 한양대 융합전자공학부 교수와 김회린 카이스트 전기 및 전자공학부 교수를 대면 및 화상 방식으로 만나 음성 기술 성과와 향후 계획에 대해 들었다. 장 교수와 김 교수의 인터뷰 내용을 2회에 걸쳐 소개한다.

▲  장준혁 한양대 융합전자공학부 교수가 서울 한양대 연구실에서 진행된 인터뷰에서 AI 원팀의 음성인식에 대해 설명하고 있다. (사진=KT)
▲ 장준혁 한양대 융합전자공학부 교수가 서울 한양대 연구실에서 진행된 인터뷰에서 AI 원팀의 음성인식에 대해 설명하고 있다. (사진=KT)

AI가 더 똑똑해지려면 데이터가 필수적이다. AI가 많은 데이터를 기반으로 학습을 해야 하기 때문이다. 하지만 AI의 학습에 필요한 양질의 데이터를 많이 확보하는 것은 쉽지 않은 일이다. AI 서비스를 내놓고 있는 정보통신기술(ICT) 기업이나 관련 연구를 하는 대학교 모두 겪는 애로사항이다. AI 중 특히 음성인식 분야는 데이터 수급이 더 어렵다. AI 원팀의 장준혁 한양대 융합전자공학부 교수는 데이터를 증폭시키는 '데이터 증강' 방식으로 데이터 수급의 어려움을 극복했다.

AI가 음성인식을 학습하기 위해서는 데이터와 AI가 인식한 결과가 맞는지 확인할 수 있는 정답이 쌍으로 있어야 한다.

가령 '나는 한국인입니다'라는 정답 문장과 이 문장을 말하는 음성 데이터가 함께 존재해야 한다는 의미다. AI는 정답은 1개일지라도 다양한 목소리, 억양, 발음의 음성 데이터가 필요하다. 장 교수는 많은 음성 데이터를 얻기 위해 음성을 강제로 훼손시키는 방식을 택했다. 음성 데이터에 강제로 노이즈를 섞거나 소리를 울리게 하는 등의 방식으로 원본에서 훼손된 음성 데이터들을 만들어내는 방식이다. 하나의 정답과 관련된 다양한 음성 데이터로 학습한 AI는 보다 다양한 상황에 더 잘 대처할 수 있다.

장 교수는 다양한 데이터로 학습한 AI는 딥러닝(기계심화학습)의 한계점을 극복할 수 있다고 설명했다. 기존 딥러닝은 주어진 데이터에 대해서는 뛰어난 성능을 보여준다. 하지만 AI가 학습한 내용에 대해서만 알게 되고 조금이라도 변형된 형태의 데이터에 대해서는 성능이 감소된다. 장 교수는 "너무 특정 데이터에만 맞춰진 AI의 한계를 넘기 위해 데이터를 다양하게 흔들어 데이터의 양을 증폭시킨 방식"이라고 설명했다.

또 장 교수는 음성인식 기술은 E2E(엔드투엔드) 방식을 적용했다. E2E 방식은 최근 음성인식 분야에서 주목받는 기술 방식이다. 과거 고전적인 음성인식 방식은 음성을 텍스트로 변환하는 과정이 다양한 모듈로 구성돼있다. 음성의 가장 작은 단위의 음소를 찾아내고 이를 바탕으로 단어를 뽑아내고 문장도 찾아낸다. 각각의 과정이 다른 모듈을 통해 이뤄지다보니 속도가 한계가 있을 수밖에 없다. 하지만 E2E 방식은 음성 데이터가 인식되면 딥러닝 엔진을 거쳐 바로 하나의 문장이 도출된다. 음성을 음소·단어·문장으로 만들어내는 과정을 거치는 고전적인 방식보다 빠르게 결과가 나오는 셈이다.

E2E 방식은 전세계적으로 활용되고 있다. 구글·애플·아마존·페이스북·바이두·삼성전자 등 글로벌 기업들은 자사의 일부 서비스에 E2E 방식을 적용했다. 장 교수는 음성인식 분야에서 가장 앞선 기업으로 구글을 꼽았다. 구글은 전세계 최대 포털 사이트과 모바일 운영체제(OS) '안드로이드', 온라인동영상서비스(OTT) '유튜브' 등을 운영하며 방대한 데이터를 보유했다. 그만큼 데이터 경쟁에서 유리할 수 밖에 없다. 하지만 모든 음성인식 분야를 구글이 섭렵할 수는 없다는 것이 장 교수의 생각이다. 그는 "우리 연구실은 마이크 4개를 장착한 AI 스피커를 활용한 소스 로컬라이징이란 세계 최고 수준의 기술을 보유했다"며 "구글이 모두 1등을 할 순 없다"고 말했다.

장 교수는 E2E와 데이터 증강 방식을 활용해 음성인식의 단어 오류율을 기존보다 7% 이상 향상시켰다. 장 교수가 공개한 기존 방식과 E2E 방식을 비교한 음성인식 영상을 보면 E2E 방식이 더 정확하게 음성을 인식하는 것을 볼 수 있다.

E2E 방식의 단점도 있다. 기존 음성인식 방식은 모듈별로 음성인식이 이뤄지다보니 수정을 하려면 수정이 필요한 모듈만 고치면 된다. 하지만 E2E 방식은 음성인식 과정 전체를 수정해야 하는 어려움이 따른다. 때문에 주요 기업들은 E2E 방식과 기존 음성인식 방식을 병행하며 업무 효율성을 높이고 있다. 장 교수는 이러한 병행 방식을 내연기관과 배터리의 힘을 동시에 사용하는 '하이브리드카'에 비유했다. 내연기관과 전기차의 중간 역할을 하는 하이브리드카처럼 기존 방식에서 E2E로 넘어가기 위한 중간자 역할이란 의미다.

E2E 방식의 음성인식은 AI 스피커와 스마트폰뿐만 아니라 자동차, 키오스크, 게임 등 다양한 분야에서 관심을 나타내고 있다. 장 교수는 E2E 방식은 장기적으로 로봇과 UAM(도심항공교통), 드론 등에서도 필요할 것이라고 내다봤다. 미래 기술에서 핵심은 무인화이며 음성 대화가 필수적이기 때문이다. 한양대와 함께 AI 원팀에서 음성인식을 연구한 KT도 자사의 AI콘텍트센터(AICC)에 E2E 방식을 적용하는 것을 고려하고 있다. 우선 기가지니같은 많은 이용자들이 사용 중인 AI 플랫폼보다 특정 분야에 적용해본 후 확대하는 방안을 검토한다는 입장이다.

장 교수는 AI 원팀의 음성인식 결과물은 우선 스마트폰같은 단말기에서 서버와의 통신이 필요없는 분야에 적용하는 것을 목표로 하고 있다. 가령 "A에게 전화해줘"라는 음성을 인식해 스마트폰의 주소록에서 A를 찾아 전화를 걸어주는 방식이다. 서버와의 통신이 필요없는 음성인식 분야에 우선 적용한후 성능을 고도화해 서버 통신이 필요한 분야까지 확장한다는 방침이다.

장 교수는 AI 원팀에서 진행한 데이터 증강 방식과 E2E 방식을 활용한 음성인식 연구를 국제 무대에서 발표하기 위해 논문을 준비 중이다. 장 교수가 타깃으로 삼은 무대는 음성인식 분야에서 유명한 인터스피치 컨퍼런스다. 논문이 채택되면 장 교수는 오는 9월 체코에서 열리는 인터스피치 컨퍼런스에서 AI 원팀에서 진행한 음성인식 연구 논문을 발표한다.

저작권자 © 블로터 무단전재 및 재배포 금지