음성인식 서비스 모바일 타고 비상할까?
음성인식 서비스가 부활을 꿈꾸고 있다. 국내 음성인식엔진 업체들은 2000년 초 금융권의 CTI(Computer Telephony Integration) 구축 붐을 타고 동반 성장했다. 음성으로 주식 증권 조회나 계좌정보를 조회할 수 있었고, 휴대폰에서도 음성인식 엔진을 탑재해 음성 명령만으로 주소록에 등록된 연락처로 전화를 걸 수 있었다. 그러나 CTI 시장이 침체기에 접어들면서 투자가 제자리걸음에 머물렀고, 휴대폰에서도 음성 인식율이 낮아 보편적 서비스로 안착하지는 못했다.
(사진 설명 : KT는 이달 초 열렸던 인텔 개발자 회의에서 카PC 전문 업체 맥산과 음성인식 엔진을 적용한 G-5 시리즈를 선보였다. 이 제품은 터치스크린과 음성인식 모두 제공한다)
이런 상황에서 음성인식 서비스 시장이 다양한 모바일 디바이스의 성능 개선과 휴대인터넷 와이브로, HSDPA 등과 같은 모바일 통신 인프라가 구축되면서 다시금 부활의 몸짓을 하고 있다. 이윤근 ETRI 음성언어정보센터 음성처리연구팀 팀장은 "모바일 장비들이 음성인식 엔진을 탑재할 수 있을 만큼 고성능화된 것이 가장 큰 견인 요소"라고 전하고 "모바일 인프라가 구축되면서 자연스럽게 서비스와 연계될 수 있는 환경이 마련되고 있다"고 시장 상황을 전했다. 음성인식 엔진을 효과적으로 구동하기 위해서는 그만큼 고성능의 CPU가 필요했는데 초기 휴대폰이나 PDA는 음성인식 엔진을 100% 구동하는데 한계가 있었던 것. 최근 휴대폰업체나 PDA, PMP 제조 업체들은 내 손안의 작은 PC를 겨냥한 고성능의 단말기들을 출시하고 있기 때문에 음성인식 엔진을 탑재해도 별 무리가 없을 정도다.
초기 음성인식엔진은 화자 종속형이었다. 개인 단말기의 경우 사용자의 음성만을 인식하도록 했던 것. 이런 기술들이 최근엔 화자 독립형으로 변화되면서 활용 범위와 사용시 편의성도 늘고 있다. 관련 분야에서 주목할 업체로는 KT를 들 수 있다. ETRI나 KT 등은 그동안 고성능 서버 제품에 사용되는 음성인식 엔진들을 연구하고 서비스에 적용해 왔다. 이들은 다양한 모바일 장비에 음성인식 엔진을 이식하는 작업을 활발히 전개하고 있다. 이달 초 있었던 인텔 IDF(인텔 개발자 포럼)에서 선보인 음성인식 가능한 카PC가 그 예가 될 수 있다. KT는 서울 우면동에 위치한 미래기술연구소에서 기존 유선 인프라망에 적용됐던 음성인식 엔진을 다양한 모바일 장비에 이식 시키는 작업들을 진행하고 있다.
KT는 삼성전자나 소니가 출시한 울트라모바일PC나 수 많은 휴대용멀티미디어플레이어, 네비게이션, PDA는 물론 휴대폰에도 관련 엔진들을 이식하는 작업들을 병행하고 있다. KT의 궁극적 목표는 '와이브로 음성 포털' 서비스 구현이다. 와이브로로 대변되는 모바일 인프라와 생활 밀착형 단말기들을 연동해 자사 서비스의 조기 확산을 기대하고 있는 것. KT의 관계자는 블로터닷넷(www.bloter.net)과 인터뷰에서 "유사어와 변형어 등 350개 정도의 단어를 조사해 이를 음성 엔진이 인식하도록 했다. 향후 음성 인식 기술이 유비쿼터스 환경에서 광범위하게 사용되기 때문에 현장 환경에 적용해 문제점을 개선하고 꾸준히 업그레이드하는 것이 중요하다"고 밝힌 바 있다.
관련 업계에서는 고성능 단말기가 부족해 음성인식 엔진을 활용한 시장이 답보상태에 머물렀다는 입장이다. 사용자들 입장에서는 수천이나 수만단어를 인식했을 때 일상 생활에도 적용할 수 있는데 이런 성능을 내기 위해서는 고성능 PC급의 CPU가 필요했던 것. 그동안 100여 단어를 처리할수밖에 없었고, 이 때문에 인식율이 낮아지는 악순환이 되풀이 되면서 엔진 성능이 문제라는 오해가 저변에 깔려 있었다는 설명이다.
텔레매틱스나 카PC 분야는 음성인식 엔진이 소비자들과 접촉할 수 있는 좋은 분야다. 특정 사용자의 음성만을 인식하지 않는 엔진들도 개발돼 있어 쉽게 적용할 수 있다.
한편, 마이크로소프트의 새로운 운영체제인 비스타나 올 말 출시를 앞두고 있는 마이크로소프트 오피스 2007에 국내 음성인식 딕테이션(일명 받아쓰기) 엔진은 이번에도 빠지게 됐다. 마이크로소프트는 미국 영어와 중국어 간자, 일본어 등 전세계적으로도 3개국 엔진만 탑재하고 있다. 이런 상황이 발생한 이유는 기술 문제와 시장 상황이 복합적으로 얽혀 있기 때문이다. 기술 난이도면에서 사람이 말하는 것을 바로 인식해야 되는데 국내 기술이 그 수준까지 도달하지 못했고, 이를 위해서는 마이크로소프트와의 공동 연구가 필요한 상황인데 마이크로소프트나 국내 기술 업체들이 대규모 투자를 모두 꺼리고 있는 상황이다.
한국마이크로소프트는 "아직까지 관련 기능을 제공할 계획이 없다"라고 공식 입장을 밝혔다. 관련 업계에서는 이 부분이 황금알을 낳는 것처럼 보이지만 자칫 잘못했다간 소비자 피해 사례가 속출할 수 있어서 탑재를 무기한 연기하고 있다고 설명한다. 기업들이나 개인 사용자들이 음성인식을 사용해 말하는 대로 받아쓰기를 할 때 안되면 바로 소송을 걸 수 있기 때문이다.
관련 업체의 한 관계자는 "중국어나 일본어는 타이핑이 어렵다. 반면에 한글은 타이핑이 무척 쉬운 편이다. 비용 대비 효과를 볼 때 어려워보인다"고 전하고 "마이크로소프트 입장에서도 국내 음성인식 엔진을 탑재하면 오피스 한 카피당 라이선스를 지불해야 되는데 결코 그럴 생각도 없어 보인다. 받아쓰기 기능은 오피스를 빼면 시장이 없기 때문에 음성인식 엔진 업체들도 꺼리는 분야"라고 전했다.
음성인식 서비스 시장은 차세대 헤게모니가 걸려있는 분야다. 현재 구글이 키보드를 쳐 검색 결과를 찾아주고 있는데 향후 모바일 장비들의 경우 손보다는 음성이 훨씬 다가서기 편한 인터페이스기 때문이다. 텔레매틱스를 비롯해 카PC 등도 검색이나 서비스명을 찾아주는 것이 기본이 되듯 향후 검색 시장에서도 음성인식 서비스를 놓고 한판 경쟁이 불가피할 것으로 보인다. 구글도 음성인식 엔진 연구자들을 확보하고 관련 분야 연구를 진행하고 있는 것으로 나타났다.
루슨트테크놀로지 벨연구소 김종훈 사장은 "라스트 마일 인터페이스 분야가 향후의 시장 헤게모니를 장악해 나갈 것"이라고 밝힌 바 있다. 키보드나 마우스 위주의 입력 인터페이스가 빠른 시일 내 변화될 것이라는 전망이다. 음성인식 서비스 시장이 새로운 무선 데이터망 구축과 수많은 무선 단말기 출시와 함께 새로운 비상을 꿈꾸고 있다. 물론 아직까지 그 행보는 더딘 상황이다.