트렌드

목소리 식별부터 결제까지…KT, 음성 기반 AI 기술 고도화한다

2018.05.03

원하는 목소리에만 반응하는 음성식별, 감정 인지 기반 대화, 원하는 사람의 목소리로 바꿔주는 음성 합성, 목소리 생체인증.

KT가 음성에 기반한 인공지능(AI) 기술을 대거 공개했다. 지난해 1월 출시한 AI 스피커 ‘기가지니’를 바탕으로 AI 시장에 포문을 연 KT는 음성 기반 AI 기술을 고도화해 AI 대중화 시대를 준비하겠다고 밝혔다. 서비스 부문에서도 아이와 어른을 가리지 않고 만족감을 줄 수 있는 콘텐츠를 선보일 계획이다.

KT는 5월3일 서울 종로구 광화문 KT스퀘어에서 ‘AI 신규 서비스 및 기술 발전 방향’을 주제로 기자간담회를 열었다. 이번 행사에서 이필재 KT 부사장 겸 마케팅부문장은 “(AI 스피커 시장에) 경쟁사들도 지속해서 들어오고 있고 최근에는 글로벌 업체들도 진출할 거로 보이는 등 AI 서비스 시장이 주류 시장으로 자리 잡아가고 있다”라며 “기가지니 국내 가입자가 80만을 돌파했다는 건 KT 서비스가 시장에서 인정받은 것으로, 앞으로도 새로운 서비스와 기술로 고객을 만날 계획이며 KT AI 서비스가 글로벌로 진출할 수 있도록 최선을 다하겠다”라고 말했다. KT는 기가지니 서비스 이용자를 올해 상반기 내 100만, 연말까지 150만으로 늘릴 계획이다.

KT AI 전략 발표 기자간담회에서 AI사업단장 김채희 상무가 AI 서비스 전략에 대해 발표했다.

 

KT의 인공지능 기술

KT는 기가지니 서비스의 만족도를 높이기 위해 음성 기반 AI 기술을 고도화할 예정이다. KT 서비스연구소장 백규태 상무는 “그동안은 조용한 환경과 단말기 위주의 서비스를 해왔는데 앞으로는 주변이 시끄러워도 잘 알아듣고 친구처럼 친근하게 대하고 나를 알아주는 맞춤형 AI 기술을 개발해 선보일 예정이다”라고 밝혔다. 이날 KT가 소개한 AI 기술은 ▲시끄러운 환경 속 음성인식 기술 ▲원하는 목소리에만 반응하는 음성식별 기술 ▲복합감정 인지 기반 연속 대화 ▲AI 음성을 원하는 사람의 목소리로 바꿔주는 음성합성 기술 ▲목소리 인증을 통한 간편결제 등이다.

먼저, 음성인식 기술의 경우 다양한 환경에서도 사용할 수 있도록 기술을 개발 중이다. 다양한 잡음 데이터를 수집해 머신러닝 기반으로 잡음을 식별하고 목소리에 대한 반응을 높이는 방식이다. 여기에 잡음 제거 기술을 결합해 잡음에 강한 음성인식 기술을 개발했다. 또 KT는 화자 식별 기술을 개발했고 하반기에 선보일 예정이라고 밝혔다. 동시에 여러 사람이 얘기해도 주인의 목소리만 식별해서 반응하는 기술은 추가 개발을 통해 내년에 선보일 계획이다. 음성과 표정, 음색까지 복합적으로 파악해 이용자의 감정을 인지하고 대화하는 기술도 개발됐다. 해당 기술은 하반기에 서비스될 예정이다.

KT 서비스연구소장 백규태 상무, 이필재 KT 부사장 겸 마케팅부문장, KT AI사업단장 김채희 상무(왼쪽부터)

또한, 딥러닝 기반의 실시간 음성합성 기술(P-TTS, Personalized Text-to-Speech)도 개발 중이다. 이 기술을 적용하면 기가지니 대화 음성을 원하는 사람의 목소리로 바꾸는 게 가능하다. 해당 기술을 적용한 서비스는 하반기 중에 나올 예정이다. 화자 맞춤형 서비스도 하반기 중에 출시된다. 가족 단위로 데이터가 쌓던 기존 방식에서 벗어나 화자를 식별한 후 개인별 사용 이력을 학습하고 정확한 취향 정보를 추출해 개인에게 최적화된 맞춤형 서비스를 제공하겠다는 설명이다. 목소리 인증을 통한 간편 음성 결제도 준비 중이다. 지문이나 얼굴인식처럼 목소리 인증을 통해 결제가 가능한 수준의 생체 인증 서비스를 내놓을 계획이다. KT는 다른 사람의 목소리로 인증이 뚫릴 수 있는 사칭률이 0.01% 수준이며 현재 금융감독위원회의 인증을 받고 있다고 소개했다.

KT AI 메이커스 키트

이밖에도 KT는 호텔, 매장, AI 아파트, 지능형 커넥티드 카, 지능형 로봇 등 다양한 영역으로 기가지니 서비스를 확장할 계획이다. 개발자 생태계 확장을 위해 AI 메이커스 키트, 클라우드 AI API, 교육 프로그램 등을 준비 중이다. ‘라즈베리파이3’로 구동되는 AI 메이커스 키트는 자신만의 AI 스피커를 만들 수 있는 개발 도구다. 기가지니 플랫폼과 연동되며 6~7월 중 출시될 예정이다. 가격은 10만원 안팎으로 예상된다.

 

키즈와 교육 분야에 방점을 찍은 서비스

현재 AI 스피커가 가장 활발히 사용되는 분야는 아동용 콘텐츠다. KT는 이에 맞춰 아동용 서비스와 교육 부분을 강화할 계획이다. 이날 행사에서는 대교와 함께 AI 동화 서비스 ‘소리동화’와 ‘오디오북’을 선보였다. 소리동화는 부모가 자녀에게 동화책을 읽어주면 기가지니가 동화책의 단어를 인식해 이야기 상황에 맞는 효과음을 더해주는 실감형 콘텐츠다. 예를 들어 “개구리가 노래했어요”라고 말하면 개구리 울음소리를 들려주는 식이다. 현재 15권의 동화책이 준비돼 있으며 책뿐만 아니라 모바일 앱에서도 동화책 서비스를 이용할 수 있다.

기가지니 소리동화 서비스

오디오북은 창작, 전래, 역사, 과학 등 다양한 분야의 콘텐츠로 구성됐으며 현재 100여편에서 연말까지 600여편으로 확대될 예정이다. 인기 애니메이션 ‘공룡메카드’ 지식재산권(IP)을 활용한 증강현실(AR) 콘텐츠도 5월 중으로 서비스된다.

교육 분야 콘텐츠도 강화된다. 아동을 대상으로 한 핑크퐁 영어 교육 콘텐츠가 단순 따라 말하기 형태에서 참여형 콘텐츠로 확대될 예정이며, 성인을 대상으로 기본 생활 영어를 배울 수 있는 콘텐츠가 제공된다. 올해 초 야나두, 파고다 등과 제휴를 맺어 선보인 생활영어 서비스는 연말까지 교육 효과를 높일 수 있도록 개선된다.

KT AI사업단장 김채희 상무는 “올해 국내 AI 스피커 시장이 격화될 것으로 예상되는 가운데, KT는 기가지니의 가치를 체감할 수 있는 서비스를 내놓을 계획이다”라며 “지금까지는 라인업을 갖추기 위해 서비스를 내놓기 바빴다면 이제는 IPTV 1위 사업자, AI 스피커 1위 사업자라는 KT만의 강점을 활용하는 방안에 초점을 맞춰 AI 서비스에서 KT의 색깔을 보여주겠다”라고 말했다.

spirittiger@bloter.net

사랑과 정의의 이름으로 기술을 바라봅니다. 디바이스와 게임, 인공지능, 가상현실 등을 다룹니다.