트렌드

“우리~집”부터 ‘시리’까지…음성 인식 대중화 성공?

2012.07.06

컴퓨터를 좀 오래 썼다는 사람들이 술자리에서 으레 꺼내놓는 옛날이야기 중 하나가 천공 카드다. PC는 물론 키보드도 흔치 않던 시절에는 수치 계산을 위해 천공카드에 구멍을 뚫어 명령어를 입력했다. 프로그램 하나에 수 백 장은 예사고 수 천 장이 되는 일도 많았다. 카드 배열이라도 흐트러뜨렸다가는 그야말로 ‘피눈물’이 날 일이다.

이후 PC와 함께 키보드가 보급되면서 ‘키보드’하면 컴퓨터가 떠오를 만큼 상징적인 의미를 갖게 됐다. 지금은 몇 천원에 살 수 있는 마우스도 PC에 흔해진 것은 윈도우 95가 등장한 1995년 이후였다. 이후 꽤 오랫동안 키보드와 마우스가 입력의 중심을 차지했고 PDA(Personal Digital Assistants)와 스마트폰의 터치스크린 역시 키보드와 마우스의 역할을 따라하는 데 초점이 맞춰져 왔다.

하지만 최근 스마트폰 시장은 또 다른 입력 방식으로 전환을 맞고 있다. 음성 인식, 음성 입력이다.

음성 인식, 어떻게 활용할 것인가

휴대폰 음성 인식에 대한 시도는 꽤 오래 전부터 있어 왔다. 90년대 후반 “본부” 혹은 “우리집”으로 기억되는 휴대폰의 음성 인식 기술은 목소리를 익혀야 하고 명령할 수 있는 것들이 한정적인 데다가 잘 알아듣지도 못했다. 결정적으로 당시에는 말로 전화를 건다는 것 자체가 창피한 일이었다. 그저 휴대폰 시장의 마케팅 포인트 중 하나로 전락하고 말았다. 물론 인식율을 높이기 위해서는 엄청난 컴퓨팅 파워가 지원되어야 했지만 ‘돈’이 안되는 서비스에 막대한 투자를 단행할 사업자는 없었다.

하지만 그 사이에도 음성 인식, 음성 입력 기술은 발전을 거듭해 왔다. 스마트폰 시장이 커지면서 애플은 아이폰에 기초적인 음성 인식 기술을 넣었고 안드로이드 역시 검색창 등에 음성 입력 기능을 더했다.

본격적으로 불을 지핀 사건은 지난해 아이폰과 함께 등장한 시리(Siri)였다. ‘전화걸기’ ‘날씨’ 등 주문을 외우는 것 같은 명령어 대신 ‘회사에 전화 걸어줘’ ‘여자친구에게 오늘 저녁 약속이 있냐고 문자 메시지를 보내줘’처럼 스마트폰과 대화할 수 있게 된 것이다.

시리가 천지개벽할 만한 놀라운 기술일까? 기술도 기술이지만 이를 어떻게 활용할 지에 대한 애플의 아이디어가 시리를 깜짝 놀랄 상품으로 만들어낸 것이다. 음성 입력을 어떻게 쓸 지는 스마트폰 제조사가 결정할 일이라는 얘기다. 예를 들어 애플과 블랙베리는 모두 뉘앙스의 음성 인식 기술을 기반으로 한다. 하지만 두 제품의 결과물은 천지차이다. 시리의 서비스는 굳이 설명할 필요가 없을 정도지만 블랙베리의 음성 입력은 전화번호부 검색 정도에 머물고 있다. 어떤 칼을 갖고 있느냐도 중요하지만 그 칼을 어떻게 쓸 지도 중요하다는 얘기다.

음성 인식, 클라우드와 위치정보로 활짝

최근의 음성 인식 기술은 클라우드와 지역 정보를 결합해 우리가 그 동안 꿈꾸던 서비스를 이뤄내고 있다. 단순히 말을 글자로 받아 적는 수준을 넘어 이 정보를 분석해 유용한 정보로 만들어준다.

내가 한 이야기를 서버로 보내 내용을 분석하고 그에 맞는 정보를 보여주거나 명령어를 처리한다. 시리는 하나의 좋은 예지만 삼성이 갤럭시 S3에 넣은 S-보이스나 구글의 음성 검색도 비슷한 케이스다. 시리가 욕이나 비속어, 새로 나온 은어도 알아듣는 이유는 목소리 정보를 분석하는 클라우드 서비스에 지속적으로 새로운 언어가 학습되기 때문이다.

당연히 데이터가 쌓이면 쌓일수록 더 매끄러운 답을 내놓고 말도 더 잘 알아듣는다. 구글이 언어 번역 서비스에서 독보적인 위치에 올라설 수 있었던 것과 비슷하다. 어떤 문장을 어떻게 번역해야 하는지에 대해 이용자들이 제안하는 내용들을 그대로 데이터베이스에 담기 때문에 기존 번역 소프트웨어들이 갖고 있는 번역 방법과 데이터에 비할 바가 아니다.

단어 한 두 개가 아니라 문장 전체를 분석하기 때문에 정확도가 높다. 하지만 그만큼 많은 데이터가 필요하다. 마치 아이들이 말을 배우듯 많은 사람들과 이야기한 내용이 쌓이다 보면 점점 더 능숙하게 대화할 수 있게 된다. iOS5.1에 처음 포함된 일본어 시리의 경우 처음에는 영어에 비해 매끄럽지 못했다. 애플은 일본어 이용자들에게 아직 말이 서툴기 때문에 말을 잘 가르쳐달라는 애교 있는 메시지로 넘어가기도 했다.

마찬가지로 iOS6의 베타 버전에 새로 포함된 한국어 시리는 지금 우리말을 배우고 있는 중이다. 독도가 어느 나라 땅인지, 가장 좋은 스마트폰은 무엇인지, ‘일’이라는 말을 one으로 알아들을지, work인지, day인지 알 수 있게 데이터가 쌓여야 한다.

시리는 흔히 삼성 갤럭시 S3의 S-보이스와 비교된다. 갤럭시 S3에는 블링고의 음성 인식 기술이 들어간다. S-보이스가 시리보다 대화를 다채롭게 이끌어가지 못하는 사례들이 나오는 이유는 음성 인식 기술 자체에 차이가 있다기보다 음성을 분석해 주는 데이터가 아직 충분히 쌓이지 않았기 때문이다. 스마트폰을 제어하는 것에 대해서는 삼성이 노력해야 하는 부분이지만 음성 데이터베이스를 쌓는 일은 실제 제품을 쓰는 이용자들의 도움도 더해져야 할 것이다.

구글나우 “시리 나와!”

시리 하나로 음성 인식 하면 애플이 먼저 떠오르게 됐지만 구글도 음성 관련 기술에서 상당한 기술력을 갖고 있다. 앞서 이야기한 번역 서비스와 마찬가지로 구글은 꽤 오랫동안 음성 검색 서비스를 해 왔다. 안드로이드에도 소리를 보내 분석하는 방식으로 그간 받아쓰기 정도의 음성 입력 서비스가 이뤄졌지만 최근 발표한 젤리빈으로 음성 입력 기술에 응용을 가하기 시작했다.

[youtube pPqliPzHYyc 500]

안드로이드 4.1 젤리빈에는 인터넷을 거치지 않고 음성 인식을 쓸 수 있는 ‘오프라인 보이스 타이핑’ 기술이 들어간다. 음성 입력에 대한 데이터베이스를 운영체제에 심은 것으로 보이는데 온라인을 거치지 않고도 비슷한 수준의 받아쓰기가 된다는 것은 발표만으로도 대단한 일이다. 지난 구글 I/O에서는 영어가 우선적으로 처리되고 이후 다른 언어들이 추가될 계획이라고 하는데 적지 않은 용량을 차지하는 음성 데이터베이스를 어떻게 추가할 지는 지켜봐야 할 것 같다.

구글이 준비하는 또 하나의 음성 관련 서비스는 구글나우다. 시리에 맞서는 구글의 새 위치기반 서비스로 날씨를 묻거나 목적지까지 남은 시간 등을 알려주고 갈아타는 지하철이 몇 분 뒤에 도착하는지 알려주는 등 구글이 쌓아온 지역 정보가 음성 입력과 합쳐져 어떤 효과를 낳을지는 젤리빈이 정식으로 등장하는 이달 중순께 알 수 있을 듯하다.

한편, 음성 인식 관련 업계의 한 전문가는 “정말 음성 인식 서비스가 일상 생활 속에 자리잡을 수 있을 지 좀더 지켜봐야 합니다”라고 전했다. 음성이라는 특수성으로 인해 차나 집 같은 한정된 공간에서 적용될 뿐 광범위하게 적용될 것이라고 예단하기는 아직은 이르다는 설명이다. 또 한차례의 유행인 지 아니면 클라우드가 뒷받침해주는 ‘킬러’ 서비스로 확실히 자리를 잡을 지 주목되는 부분이다.

allove@bloter.net

프리랜서 IT 컬럼니스트, 기술과 사람이 더 가까워질 수 있는 이야기를 담고 싶습니다. e메일 work.hs.choi@gmail.com