애플이 지난 2011년, '아이폰4S'를 발표 현장에선 낭랑한 목소리를 가진 비서가 뜨거운 관심을 받았다. 사람은 아니다. '시리' 얘기다. 시리는 아이폰4S에서 사용자의 음성 명령을 받아 적절한 대답이나 기능을 구현해주는 지능형 음성인식 기능이다.

애플이 시리를 소개한 이후 전세계 스마트폰 제조업체에서 나만의 비서 만들기에 열을 올리고 있다. 국내 제조업체가 특히 발빠르다. 삼성전자는 지난 6월 국내 정식 출시한 '갤럭시S3'에 'S보이스'를 처음으로 탑재했다. LG전자도 '옵티머스 뷰'와 '옵티머스 LTE2'에 '큐보이스'라는 이름의 지능형 음성인식 기능을 도입했고, 팬택은 '베가레이서2'와 '베가 S5'에 '스마트 보이스' 기능을 집어넣었다. 스마트폰 제조업체별로 하나씩은 나만의 비서를 옆에 둔 셈이다.

비슷한 기능을 지원하는 기술이 네 종류나 된다. 이쯤 되면 사용자는 어떤 비서가 더 똑똑할까 궁금하기 마련이다. 지능형 음성인식 기능이 사람의 말을 받아 사용자가 원하는 작업을 실행해 준다는 점에서 갖춰야 할 덕목이 몇 가지 있다. 첫 번째는 말을 또박또박 잘 받아적을 수 있어야 한다. 할 수 있는 일이 아무리 많아도, 말을 정확하게 받지 못하면 무용지물이다. 두 번째는 역시 클라우드 서버가 담고 있는 정보의 양이다. 서버가 갖고 있는 정보의 양이 풍부할수록 사용자가 원하는 다양한 기능을 정확하게 수행할 가능성이 높다.

편리하게 이용할 수 있어야 한다는 점도 빠뜨려선 안 된다. 간단한 기능 등은 음성인식 기능 창 속에서 해결할 수 있으면 좋다. 원하는 기능을 설명했는데, 별도의 앱을 열어주거나 추가적인 조작을 요구한다면 음성인식 서비스를 제대로 이용할 수 없기 때문이다. 이 외에도 말을 듣고 빠른 시간 안에 답변을 내준다거나 이전에 했던 질문에 다음 질문을 연관 지어 계산해 주는 센스도 필요하다.

네 가지 스마트폰을 준비해 봤다. 갤럭시S3와 옵티머스 LTE2, 베가 S5, 아이폰4S다. 똑같은 질문을 던졌을 때 어떤 스마트폰이 더 정확하고 빠르게 원하는 기능을 수행해줄까. 모두가 최고의 기술이라고 설명하니 직접 실험해볼 수밖에. 지능형 음성인식 기능, 누가누가 더 똑똑할까.

voice_thum_500
▲ voice_thum_500

음성인식 속도는 시리와 큐보이스에 높은 점수

음성인식 기술에서 말을 알아듣고 계산을 시작하는 데 걸리는 시간에 대해선 부각되지 않았다. 하지만 실제 생활에서 음성인식 기능을 이용하려면 속도가 매우 중요한 요소다. 사람이 말을 하고 스마트폰이 말을 분석하기 시작하는 데 걸리는 시간이다.

음성인식 기능은 사람의 말을 듣는 단계와 분석을 하고 답변을 내주는 단계 두 가지로 구분된다. 분석 단계는 스마트폰이 사용자의 명령이 끝났다고 판단한 이후 클라우드 서버로 말을 전달하는 과정을 말한다. 말을 듣는 단계에서 분석하는 단계로 너무 빨리 넘어가면 사용자가 말을 채 끝내기도 전에 분석이 이루어져 정확한 답변을 기대하기 어렵고, 너무 느리게 넘어가면 실제 생활에서 음성인식 기능을 유용하게 쓰기 어렵다. 음성인식 기능이 말이 끝나는 지점을 판단하는 능력과 적절한 속도를 유지하는 것이 중요하다는 얘기다.

이 같은 관점에서 봤을 때 애플의 시리와 LG전자 큐보이스가 탁월한 성능을 냈다. 두 가지 음성인식 기능 모두 사용자가 음성 명령을 끝내는 타이밍을 정확하게 잡아냈다. 서버로부터 음성명령을 계산해 원하는 답변을 내려주는 속도도 빨랐다.

이와 달리, S보이스와 스마트 보이스는 사용자가 말을 끝내는 지점을 정확하게 잡아내는 데 너무 많은 시간을 소비했다. 예를 들어 "문자메시지를 보내"라는 명령이 끝난 후 길게는 3초 이후 분석 단계로 넘어가는 식이다. 이 시간이 길면 길수록 주변의 잡음이 섞일 확률도 높고, 사용자가 불필요하게 기다려야 하는 시간이 길어진다. 답답함을 느끼는 요소 중 하나다.

이번 실험에서 네 가지 스마트폰의 볼륨을 모두 끄고 진행한 것도 바로 S보이스와 스마트 보이스의 느린 속도 탓이다. 시리와 큐보이스가 음성명령을 분석해 답변을 음성으로 전달할 때 까지도 S보이스와 스마트 보이스는 음성을 듣는 단계에 머물러 있었기 때문이다. 이 때문에 시리와 S보이스가 말을 주거니 받거니 하는 웃지 못할 일이 자주 벌어졌다.

편리성은 시리, S보이스, 스마트 보이스

시리와 S보이스, 스마트 보이스는 음성인식 기술을 편리하게 이용할 수 있도록 디자인됐다. 예를 들어 현재 날씨나 문자메시지를 보내는 기능 등이 음성인식 기능 속에서 바로 이루어지는 식이다. 음성 명령을 전달했는데, 그때마다 필요한 기능이나 앱을 외부 앱을 통해 구현해주면 불편하기 때문이다. 큐보이스는 이 같은 편리성 면에서는 다소 낮은 점수를 얻었다.

예를 들어 큐보이스에 내일 날씨를 물어보면, 인터넷에서 내일 날씨를 검색해준다. 시리와 S보이스, 스마트 보이스가 음성인식 기능 속에서 바로 날씨를 보여주는 것과 비교되는 대목이다. 큐보이스가 사용자의 의사를 반복해 물어본다는 점도 불편함을 가중시킨다.

이를테면 큐보이스에 "최호섭 기자에게 안녕하세요 라고 문자메시지 전송"이라는 명령을 내리면, 큐보이스는 "최호섭 기자에게 문자메시지를 전송할까요?"라고 묻는다. 사용자는 다시 "예" 혹은 "OK"라고 명령해야 한다. 시리와 S보이스, 스마트 보이스는 다시 묻는 과정 없이 한 번에 문자메시지를 전송했다.

음성인식 신뢰도는 모두 낙제점

현재 음성인식 기술이 실제 생활에 당장 적용할 만한 수준이냐고 혹시 누가 묻는다면, 한 치의 망설임도 없이 '아니오'라는 답변을 들려줄 예정이다. 네 가지 기술 모두 아직은 몇 개의 단어가 붙은 자연어를 처리하거나 긴 문장을 알아듣는 데 있어서 정확한 기능을 수행하지 못했다.

음성인식 기술의 최종 목표는 실제 생활에서 쓰는 말로 기기를 조작할 수 있도록 하는 것이다. 기계가 알아들을 수 있을 정도로 짧은 단어나 특정 명령만을 이용해야 한다면, 음성인식 기술의 의미가 퇴색된다. 물론, 모바일 기기에 도입된 지금의 음성인식 기술은 아직 걸음마 단계라는 점을 유념해야 한다. 기술은 발전을 거듭할 것이고, 좀 더 나은 성능을 보여줄 것이다.

시리와 S보이스, 큐보이스, 스마트 보이스 모두 "내일 최호섭 기자와 저녁 식사 약속 등록"이라고 말하면, '내일'과 '저녁 식사', '약속'이라는 말을 알아듣고, 스스로 내일 날짜를 계산해 오후 6시에 일정을 만들어 준다. "8월10일 오후 6시에 최호섭 기자와 식사 약속"이라고 말하지 않아도 된다는 뜻이다. 현재 음성인식 기술은 딱 이 정도 스마트할 뿐이다.

사람의 말을 문맥적으로 받아들이는 것도 음성인식 기능이 갖춰야 하는 덕목 중 하나다. 예를 들어 "배고파"라는 말을 했는데, "저도 출출하네요"라는 답변을 해준다면, 센스 점수는 얻을 수 있을지 몰라도 사용자는 황당하다. 배고프다는 말을 했을 땐 주변의 음식점을 찾아 주는 정도의 문맥을 이해하는 능력이 필요하다. 기사 밑에 있는 동영상에서 어떤 제품이 "저도 출출하네요"라는 답변을 들려줬는지 확인할 수 있다.

음성인식 기술 비교

1. 명령: "최호섭에게 안녕하세요 문자 메시지 보내기"

voice_1_500
▲ voice_1_500

▲"안녕하세요" 라는 문자를 보내는 실험이다. 명령이 다소 긴 문장으로 이루어졌음에도 네 가지 제품 모두 정상적으로 문자메시지를 보낼 수 있었다. 이와 별도로 전화를 거는 실험에서는 LG전자 큐보이스의 경우 전화를 걸겠냐는 식으로 재차 물어왔다. 편리하게 이용하는 데 불필요한 기능이다. (왼쪽 위부터 시계방향으로 애플 시리, 삼성전자 S보이스, 팬택 스마트 보이스, LG전자 큐보이스)

2. 명령: "배고파"

voice_2_500
▲ voice_2_500

▲명령어로 "배고파"라는 말을 이용했다. 결과가 재미있게 갈렸다. 애플 시리와 LG전자 큐보이스는 배고프다는 명령을 듣고 주변 음식점 검색을 시작한 반면, 삼성전자 S보이스는 "저도 출출하네요"라고 답변했다. 팬택 스마트 보이스는 배고프다는 명령을 알아듣지 못했다. 사람의 말을 문맥적으로 받아들이는 기능도 음성인식 기능의 중요한 덕목이다. (왼쪽 위부터 시계방향으로 애플 시리, 삼성전자 S보이스, 팬택 스마트 보이스, LG전자 큐보이스)

3. 명령: "내일 날씨"

voice_3_500
▲ voice_3_500

▲"내일 날씨"를 물어보면 위 사진과 같이 답변을 내준다. 삼성전자와 애플, 팬택은 모두 음성인식 기능 속에서 날씨 정보를 보여주는 반면, LG전자 큐보이스는 포털사이트에서 날씨를 검색해 보여준다. 음성인식 기능 속에서 날씨 정보를 보여주는 편이 더 편리한 방법이다. (왼쪽 위부터 시계방향으로 애플 시리, 삼성전자 S보이스, 팬택 스마트 보이스, LG전자 큐보이스)

4. 명령: "강남역까지 가는 길"

voice_4_500
▲ voice_4_500

▲"강남역까지 가는 길"이라는 명령을 하면, 애플 시리는 지도를 열고 길 찾기를 시도하지만 우리나라에선 길 찾기 기능을 이용할 수 없다. LG전자 큐보이스는 구글 지도를 실행해 제대로 된 정보를 보여줬다. 삼성전자 S보이스와 팬택 스마트 보이스는 아직 제대로 된 길찾기 정보를 보여주지 못하는 것으로 나타났다. (왼쪽 위부터 시계방향으로 애플 시리, 삼성전자 S보이스, 팬택 스마트 보이스, LG전자 큐보이스)


생활에서 쓸 수 있는 시나리오 마련돼야

기계와 사람이 말로 대화를 하려면 아직 멀었다. 그렇다고 현재 음성인식 기능이 무의미한 것은 아니다. 실제 생활에서 음성인식 기술을 도입할 수 있는 시나리오를 마련해 준다면, 다소 부족한 신뢰성을 가진 기술이라도 유용하게 쓸 수 있다.

이 같은 관점에서 삼성전자와 LG전자, 팬택은 애플에 한 수 배워야 한다. 애플은 지난 6월 미국 샌프란시스코에서 개최한 '세계개발자대회(WWDC) 2012'를 통해 "2020년까지는 대부분의 자동차 제조업체가 시리 운전대를 탑재할 것"이라고 밝힌 바 있다. 애플은 시리를 활용하는 시나리오를 자동차에서 찾은 셈이다.

대부분의 사용자가 인식하지 못하고 있지만, 운전은 매우 위험한 행동이다. 1톤짜리 거대한 쇳덩이를 시간당 100km 속도로 내달리도록 하지 않는가. 운전자는 자동차를 조작하는 동안에는 오로지 운전에만 집중해야 한다. 두 손을 자유롭게 쓸 수 없는 것은 물론이다.

애플은 이때 시리가 도움이 될 것으로 판단했다. 자동차 운전대에 있는 시리 활성화 버튼을 누르고 음성으로 아이폰을 조작할 수 있도록 한다는 계획이다. 운전 중 도로에서 시선을 고정하고, 운전대에서 손을 놓지 않아도 스마트폰을 조작할 수 있게 된다.

마찬가지로 두 손을 쓸 수 없는 상황을 상상해보자. 일반적으로 주방에서 요리하는 동안은 모바일 기기를 제대로 조작하기 어렵다. 손에 물이 묻어있는 경우가 대부분이다. 이때 S보이스나 큐보이스, 스마트 보이스를 이용할 수 있도록 하면 어떨까. 삼성전자는 삼성건설이 만드는 아파트 주방에 S보이스 활성화 버튼을 탑재하고, LG전자는 GS건설이 만드는 건물에 큐보이스 버튼을 내장하는 식이다. 팬택도 기타 주방기구 업체와 손잡고 비슷한 기능을 구현하면 된다.

어디 아파트의 주방 뿐일까. 다양한 아이디어가 나올 수 있다. 손 안 대고 모바일 기기를 이용해야 하는 적절한 시나리오를 제공할 수만 있다면, 실제 생활에서 음성인식 기능을 이용하는 빈도가 높아질 것으로 보인다. 기술은 실제 생활에서 사람에게 도움을 줄 수 있을 때 비로소 의미를 갖는다.


음성인식 기능 비교 동영상 보러가기

저작권자 © 블로터 무단전재 및 재배포 금지