트렌드

구글, 청각장애인 위한 접근성 기술 선보여

2019.03.14

구글이 청각 장애인을 위한 실시간 음성 텍스트 변환 기술을 선보였다. 스마트폰을 통해 대화 상대 음성을 실시간으로 자막으로 변환해 보여주는 방식이다. 한국어를 포함해 전세계 70개 언어를 지원한다.

구글코리아는 3월14일 접근성 개선을 위한 인공지능(AI)을 주제로 한 ‘구글 AI 포럼’을 열고 ‘라이브 트랜스크라이브(Live Transcribe)’ 앱 서비스를 소개했다. 지난 2월4일 베타 버전으로 출시된 라이브 트랜스크라이브는 청각 장애인의 일상 속 소통을 돕기 위해 개발된 앱이다. 세계보건기구(WHO)에 따르면 청각 장애를 겪는 전세계 인구는 4억6600만명에 이른다.

이날 발표에 나선 사가 사블라 구글 AI 리서치 프로덕트 매니저는 “구글의 음성인식 기술과 머신러닝 기술을 통해 청각 장애를 지닌 사람들에게 어떤 도움을 줄 수 있을지 고민했다”라며 “나이가 들면서 청력은 지속해서 감퇴하지만, 보청기를 사용하는 것에 대한 사회적 낙인 효과가 존재하고, 비싸고 불편하다는 점에서 청력이 감퇴된 노인은 사회적 의사소통에서 고립될 수밖에 없다”라며 서비스 개발 배경에 대해 설명했다.

라이브 트랜스크라이브는 200ms 미만의 속도로 실시간으로 음성을 자막으로 변환해준다. 두 개 언어를 한 번에 인식할 수 있다. 기존에도 음성을 문자로 변환해주는 기술은 있었지만, 이번 서비스는 끊기지 않고 자동으로 생성되는 자막(연결성), 정확성, 사용자 경험(UX)에 초점을 맞췄다.

사가 사블라 매니저는 라이브 트랜스크라이브의 기술적 차별점을 짚었다. 라이브 트랜스크라이브에 적용된 신경망 시스템은 온디바이스(on-device) 방식과 클라우드 방식 두 가지로 적용됐다. 먼저, 스마트폰의 컴퓨팅 파워를 이용해 온디바이스 신경망 기반 음성 감지기를 실행한다. 이를 통해 여러 소리를 570가지로 분류하고, 사람의 말소리가 있는지 없는지 확인한다.

또 클라우드 기반으로 음성인식 엔진이 돌아간다. 기기 자체의 성능만으로는 정확한 음성인식 엔진을 구현하는 데 한계가 있다고 판단했기 때문이다. 클라우드와 RNN 기반 자동음성인식(ASR) 기술은 정확성을 높이며, 시끄러운 환경에서도 음성을 인식할 수 있도록 한다. 신경망 모델에서 음소 단위로 소리를 인식해 사전의 단어와 매칭하는 과정을 거치며, 맥락을 파악해 단어를 수정한다.

구글은 향후 완전한 온디바이스 방식의 음성인식 기술을 적용해 네트워크 연결이 없는 상태에서도 서비스를 이용할 수 있도록 할 계획이다. 또 음성뿐만 아니라 시각 정보를 결합해 서비스를 정교화할 예정이다. 스마트폰 카메라를 활용해 말하는 사람을 파악하고 해당 인물의 음성에만 초점을 맞춰주는 식이다. 여러 사람이 대화할 때 화자를 구분해주는 화자 분리 기술, 소음 환경에서 사람의 말소리만 증폭시킬 수 있는 기술도 적용할 계획이다.

| 사가 사블라 구글 AI 리서치 프로덕트 매니저

한국어 인식 정확도도 개선해나갈 예정이다. 사가 사블라 매니저는 “한국어 오류율이 20% 미만이며, 다른 언어와 비교해도 좋은 수치”라며 “앞으로 한국어에 대한 데이터를 많이 수집하고 분석해 음성인식 정확도 수준을 높이기 위해 지속해서 노력하겠다”라고 말했다.

라이브 트랜스크라이브는 현재 안드로이드 기기에서 베타 버전으로 서비스되고 있으며, 구글플레이에서 무료로 내려받을 수 있다. ‘픽셀3’에는 사전 설치돼 있다. iOS용 앱 출시 계획은 미정이다.

spirittiger@bloter.net

사랑과 정의의 이름으로 기술을 바라봅니다. 디바이스와 게임, 인공지능, 가상현실 등을 다룹니다.