트렌드

“팬택 음성인식, 한국말에 강하다”

2012.05.28

“NUI를 도입하는 것은 사용자가 별다른 학습 없이 기기를 쓸 수 있도록 하기 위함입니다. 어려운 기능을 쉽게 쓸 수 있도록 하자는 것이 목적이죠. 모션인식 기능도 그 중 하나고, 이번 음성인식 기능도 평소 이야기하듯 스마트폰을 조작할 수 있도록 하는 기능입니다.”

IT 환경 전반에 걸쳐 자연스러운 사용자 조작환경(NUI) 도입이 늘어나는 추세다. 특히 스마트폰 쪽이 활발하다. 팬택은 지난 5월10일, 국내 정식 발매한 스카이 ‘베가 레이서2’에 지능형 음성인식 기능 ‘스마트 보이스’를 탑재했고, 삼성전자도 차세대 ‘갤럭시S3’에 이와 유사한 ‘S 보이스’ 기능을 적용했다.

지난 2011년엔 애플이 한발 앞서 ‘시리’를 ‘아이폰4S’에 도입한 바 있다. 일일이 버튼을 눌러 조작하던 피처폰 시절을 지나 화면을 직접 터치하는 스마트폰 시대로 넘어오더니, 이내 기계와 사람이 대화하는 시대까지 온 셈이다. 팬택의 광고 문구 ‘인간의 언어를 배웠다’는 과장이 아니다.

최지은 팬택 UX팀 선임연구원(왼쪽)과 왕성식 국내 SW 개발 그룹 책임연구원

최지은 팬택 UX팀 선임연구원은 모바일 기기 제조업체의 이 같은 시도를 “쉽게 쓸 수 있도록 하기 위함”이라고 정의했다. 사진을 한 장 찍으려는 것뿐인데, 어떤 버튼을 눌러 화면을 켜고, 무슨 아이콘을 눌러야 할지 모르면 난감하다. 막상 카메라 기능을 실행하더라도 어떻게 사진을 찍어야 되는지 모른다면 800만화소짜리 카메라가 다 무슨 소용이랴.

단순히 ‘카메라’라고 말하는 식으로 사진을 찍을 수 있다면 어떨까. 문자메시지 내용을 말하면, 자동으로 메시지를 작성해 전달하는 기능은 편리하기도 할 뿐만 아니라 두 손을 쓸 수 없는 상황에서도 스마트폰을 이용할 수 있도록 돕는다.

베가 레이서2의 스마트 보이스나 갤럭시S3의 S 보이스, 애플의 시리까지 각기 다른 이름이 붙어 있지만, 지향점은 같다. 더 쉽고 편리하게 모바일 기기를 쓸 수 있도록 하는 것. 목표는 사람인 셈이다.

기술적 배경이 궁금하다. 스마트 보이스는 시리와 어떻게 다를까. 팬택의 스마트 보이스는 음성인식 기술을 갖고 있는 미국 블링고(Vlingo)의 기술에 기반을 두고 있다. 블링고는 같은 이름의 앱을 구글 플레이를 통해 제공하고 있다.

블링고는 안드로이드 운영체제(OS) 사용자를 통해 세계 각지의 다양한 언어와 말을 확보했다. 우리말과 영어는 물론, 스페인어나 중국어 등 블링고의 음성 데이터베이스엔 국경이 없다. 스마트 보이스는 블링고가 미리 구축한 음성 데이터베이스에 팬택의 현지화 작업이 결합한 결과물인 셈이다.

스마트 보이스가 동작하는 과정도 블링고의 기술과 밀접하게 관련돼 있다. 사용자가 베가 레이서2에 말한 내용이 블링고의 음성 데이터베이스로 전달되고, 여기서 계산된 결과 값이 다시 베가 레이서2로 전달되는 식이다. 네트워크에 연결돼 있지 않으면, 스마트 보이스를 쓸 수 없는 것은 이 때문이다.

블링고의 음성 데이터베이스에서는 어떤 일이 일어날까. 사용자의 말, 즉 문장이 포함하고 있는 핵심 키워드를 분석하고, 이 단어가 앞・뒤 문맥과 어떻게 연결돼 있는지 계산하는 과정이 일어난다. 이 단어가 저 단어와 함께 쓰이면, 사용자는 그 기능을 원할 것이라는 분석이다. 수학의 확률 이론이 이때 쓰인다.

“데이터가 계속 쌓여야 하니까, 음성인식 엔진 자체가 계속 진화할 수 있도록 설계됐죠. 원래는 ‘전화해줘’ 라는 말만 알아들을 수 있었는데, 어느 날 어떤 사용자가 ‘연결해줘’ 라는 말을 계속 쓴다면, ‘연결해줘’ 라는 말을 이용해도 전화 기능을 이용할 수 있게 됩니다.”

왕성식 팬택 국내SW개발 그룹 책임연구원은 이 같은 과정을 “학습”이라고 표현했다. 왕성식 책임연구원은 “3개월 동안 운영된 데이터베이스는 3개월 동안 배운 만큼 알아듣고, 5년 동안 운영된 서버는 5년 동안 배운 만큼 알아듣는다”라고 덧붙였다. 아이가 말을 배우는 오묘한 원리를 방대한 데이터와 수학의 확률을 통해 기계에서 이뤄내고 있는 셈이다.

팬택은 여기에 팬택만의 지능형 음성인식 기술을 덧댔다. 베가 레이서2는 스마트 보이스 외에 카메라 기능도 음성명령으로 이용할 수 있다. 멀리서 혼자 사진을 찍을 때 유용하게 쓸 수 있는 기능이다.

국내 언어사용 실정에 맞는 현지화 작업도 팬택의 몫이다. 팬택은 블링고가 모르는 우리말 사용 습관을 스마트 보이스에 반영했다. 단어가 결합된 문장을 단순한 확률로 파악하기엔 어려운 부분을 메우는 과정이다. 여기엔 우리말 고유명사를 인식하도록 하는 과정도 포함됐다.

“우리말 이용 트랜드에 맞는 말이 스마트 보이스의 결과 값과 맞아떨어져야 하죠. 스마트 보이스는 우리말 음성인식에 집중한 프로젝트입니다.”

실제로 팬택의 스마트 보이스를 쓰는 사용자가 많아질까. 출시된 지 한 달도 채 안 된 베가 레이서2의 스마트 보이스 이용률은 집계돼지 않았지만, 첫 돌을 바라보는 시리에 대한 통계는 있다. 미국 월스트리트저널과 ABC뉴스가 공동으로 아이폰4S 사용자를 대상으로 조사한 시리 만족도 조사 결과가 도움이 된다. 이 자료는 지난 5월23일 미국 IT 매체 ‘매셔블’을 통해 인포그래픽으로 발표됐다.

아이폰4S 사용자 중 87%가 최소한 한 달에 한 번꼴로 시리를 이용하는 것으로 나타났지만, 한 달에 한 번은 많은 숫자가 아니다. 그나마 시리를 통해 이용하는 기능도 단순하기 짝이 없다. 전화 걸기와 인터넷 검색, 메시지 보내기 기능이 시리의 도움을 받는 기능 전부다. 그러면서도 응답자들의 51%는 시리와 같은 지능형 음성인식 기능이 앞으로 매우 중요한 기능이 될 것이라고 대답했다.

팬택이 스카이 시리즈 스마트폰에 모션인식 기능이나 스마트 보이스 기능을 탑재하는 이유도 여기서 찾아볼 수 있다. 팬택을 비롯한 모바일기기 제조업체는 지금 미래 UI를 결정짓는 갈림길에 서 있다.

“NUI나 구글의 입을 수 있는 컴퓨터 등 모두 같은 맥락으로 볼 수 있을 것 같습니다. 모바일 기기에 새로운 조작 방법을 도입하면 사용자가 더 많은 것을 경험할 수 있고, 여러 방향으로 이용할 수 있을 것입니다. 지금은 어떤 기술이 사용자의 경험을 넓히는 데 도움이 될지 고민해야 하는 시기죠.”

스마트 보이스를 통한 지능형 음성인식 기술이 최종 목표가 아니라는 뜻이다. 최지은 선임연구원은 “이걸로 끝나는 것이 아니라 이것도 할 수 있다고 제시하는 것”이라고 덧붙였다.

스마트 보이스가 인간의 언어를 배우듯, 모바일 기기는 하루가 다르게 새 기술을 배운다. 기술은 달라도 목적은 하나다. 기술은 언제나 사람을 향한다.

sideway@bloter.net

기술을 이야기하지만, 사람을 생각합니다. [트위터] @Sideway_s, [페이스북] facebook.com/sideways86, [구글+] gplus.to/sideway [e메일] sideway@bloter.net