인터뷰

‘카카오미니’는 왜 말이 짧을까?

2018.01.19

국내 인공지능(AI) 스피커 판매량은 최소 100만대를 넘긴 것으로 추산되고 있다. 그러나 아직 독보적인 강자가 나오지 않고 있어 국내 AI 스피커 시장을 두고 ‘춘추전국시대’라고들 한다.

카카오는 지난해 카카오의 통합 AI 플랫폼 ‘카카오 I(아이)’가 적용된 AI 스피커 ‘카카오미니’를 공개하며 AI 스피커 시장에 출사표를 던졌다. 카카오미니는 예약판매를 실시한 지 38분 만에 예약물량 3천건을 완판했다. 3개월여 동안 판매된 숫자는 8만여대.

카카오는 메신저, 모빌리티, 모바일 뱅킹, 음악 스트리밍 등 다양한 서비스를 품고 있다. 이 때문에 국내 AI 스피커 시장에서 카카오가 가진 잠재력은 높게 평가된다. 그러나 아직까지 음성인식 AI의 수준은 걸음마 단계에 가깝다. 지금은 AI 스피커에서 ‘스피커’에 방점이 찍혀 있지만 카카오는 AI로 무게중심이 옮겨갈 날을 준비하고 있다.

“헤이 카카오. 너 말이 좀 짧다?”

흔히들 음성인식 AI라고 하면 대번에 음성인식 ‘비서’를 떠올린다. 카카오는 ‘비서 느낌’이 안 나는 AI 스피커를 지향하는 차별화 전략을 꾀하고 있다. ‘친근한 카카오’의 느낌을 살리기 위해서다. 음성인식 성우도 20대 선호도가 높고, 비음이 있는 목소리로 정했다.

카카오 UX(사용자경험)랩에서 AI 스피커의 상호작용을 담당하고 있는 김종학 카카오 UX랩 ATF장은 “우리는 (성우의 목소리가) ‘홍대 삘 난다’고 판단했다”라며 “일단 비서 같은 느낌이 아니고 싶었기 때문에 여성적인 이름도 배제했다”라고 말했다.

‘헤이 카카오’, ‘카카오야’ 등의 호칭은 카카오라는 이미지가 친숙하다고 판단해 정한 이름이다. 일부러 ‘대답이 짧게’ 만들었다. 비서처럼 정중한 말투를 쓰지 않기 위해 ‘습니다’체는 가급적 지양했고, ‘요’체로 말하도록 했다. 만약 사용자가 요청한 사항을 못 알아들으면 카카오 미니는 “죄송해요”, “잘 못 들었어요”라는 말 대신 이렇게 말한다.

“네?”

잘못 들었습니다…?

화면 없는 음성인식 인터페이스

AI 스피커는 화면이 없다. 스마트폰처럼 시각정보를 충분히 전달받을 수 있는 인터페이스를 사용하다 AI 스피커를 쓰면 때론 답답하고 불편하다.

예를 들어보자. 스마트폰으로 알람을 지정하면 평일, 주말 반복 등 다양한 종류로 설정할 수 있고 앱에 들어가 자신이 어느 시간대에 알람을 설정했는지 돌아볼 수 있다. 하지만 음성인식 인터페이스에선 언제 알람을 맞춰놨는지 기억하기 쉽지 않다. 그래서 카카오미니는 같은 시간대에는 하나의 반복알람만 할 수 있도록 설정했다.

“(알람은) 자기 전에 하고 금방 까먹을 것이다. ‘관리하지 않고 쓸 수 있게 해주자’ 이런 방식이다.”

 

카카오아이 앱에 별 기능이 없는 것에도 카카오의 의도가 담겨 있다. 타사 AI 스피커가 “검색 결과를 앱에서 확인하라”고 말한다면, 카카오미니는 오히려 “기기에 요청하라”고 지시하는 식이다. 사용자가 스마트폰 앱을 보지 않고 사용하는 데에 익숙해지게끔 유도하기 위해서다. 김종학 UX랩 ATF장은 “앱에 검색기능을 넣을 수도 있는데 우리는 앱을 보지 않고 사용할 수 있게 많이 유도했다”라며 “웬만하면 사용자가 뭘 하지 않도록, 음성발화를 유도하려고 뭘 많이 뺐다”라고 말했다.

데이터 수집, 괜찮을까?

카카오의 강점은 카카오톡이다. 카카오미니는 ‘카톡 보내기’ 기능에 이어 올해 상반기 안에 ‘카톡 읽어주기’ 기능도 지원할 예정이다. 이런 걱정이 들 수도 있다.

‘다른 사람이 카톡을 보내거나, 다른 사람이 내 카톡을 몰래 ‘들으면’ 어떡하지?’

당연한 질문이다. 이에 카카오는 등록한 사람의 목소리를 알아듣고 그 사람의 요청만 수행하는 ‘화자인식’ 기능을 준비 중이다.

사용자가 AI 스피커 구매를 고려할 때 가장 걱정되는 부분은 또 있다. AI 스피커는 ‘이름’을 불러야 작동하는데 호출을 기다리는 동안 주변 소리를 듣고 있어야 호출에 반응할 수 있다. 이 때문에 해킹에 대한 우려가 있다. 또 사람들의 지시, 명령사항은 데이터로 수집된다. 만약 대응이 안 되거나 잘못 분류된 발화는 분석을 위해 따로 모아둔다. 하지만 사용자가 가진 데이터가 어떻게 활용되고 가공되는지 알기 어렵다.

카카오미니는 귀가 밝다.

이러한 사용자의 우려를 줄이기 위해 아마존 AI 스피커 ‘아마존 에코’는 사용자가 클라우드에 저장된 음성명령 녹음 데이터를 삭제할 수 있고, 사용자가 원하면 에코 기기의 마이크를 끌 수 있게 돼 있다.

카카오 관계자는 “호출되기 전 주변 소리를 들어도 저장되거나 서버로 전송되진 않는다”라며 “카카오는 음성정보와 개인정보를 같다고 본다. 개인을 식별할 수 있는 정보와 음성정보는 분리해 음성정보의 주체를 확인하기 어렵게 보관하고 있다”라고 말했다. 또 ‘카톡 보내기’ 기능으로 전송된 카카오톡 메시지는 카카오톡 정책과 동일하게 관리 및 처리되고 있다고 설명했다.

하지만 카카오톡처럼 매우 개인적인 메신저 서비스를 제공하고 있는 만큼 카카오는 더 강력한 보안 정책을 세우고 사용자에게 투명하게 공개할 필요가 있을 것으로 보인다.

카카오의 꿈, ‘커넥트 에브리씽’

“저희는 커넥트 에브리씽(Connect Everything)이라는 비전 하에 이용자들에게 필요한 것들을 연결해주는 서비스를 하고 있습니다. 그렇기 때문에 카카오톡에서 구매, 예약과 예매, 배달 등 모든 것을 다 할 수 있는 만능 플랫폼으로 진화한다고 천명하고 하나씩 해나가고 있습니다. (중략) 그리고 AI는 여기에서 중추적인 역할을 하게 됩니다.” – 카카오 2017년 2분기 실적발표 중 임지훈 대표 발언

사람들이 원하는 영화 속 AI의 모습을 AI 스피커가 구현하려면 꽤 오랜 시간이 필요하다. 카카오미니 속 카카오아이도 부족한 점이 많다. 사용자가 원하는 것을 알아서 척척 해내는 법은 없다. 아직 한 문장 안에 두 가지 이상 지시사항이 있을 시 이에 대응하는 것도 벅찬 수준이다. 카카오가 가진 비전은 자사 서비스에 있다.

카카오 생태계, 카카오미니는 그 일부일 뿐.

카카오는 향후 카카오 택시 호출, 음식 주문, 장보기, 카카오페이 등 금융 서비스, IoT까지 카카오미니에서 이용할 수 있는 영역을 넓혀갈 계획이다. 카카오가 가진 생활서비스의 범위를 고려하면 카카오미니는 ‘똑똑하진 않지만 착실한’ 음성인식 AI 스피커의 역할은 가능할 것으로 보인다.

김종학 UX랩 ATF장은 “사용자가 요청하는 것에 대해서 (카카오미니가) 70-80% 답을 준다면 똑똑하다고 느낄 것 같은데 지금은 아직 말에 대해서 커버가 어려운 편이다. 개선하려 하고 있다”라며 “서비스를 제공하는 도메인에 대해서는 다양한 발화가 들어와도 웬만큼 (처리)할 수 있다”라고 말했다.