구글 인공지능 딥마인드, 입 모양 보고 말도 알아듣는다

가 +
가 -

딥러닝의 영역확장이 거세다. 알파고로 잘 알려진 구글의 인공지능팀 딥마인드와 옥스퍼드대학 연구진이 인공지능을 활용해 독순술(입술의 모양을 바탕으로 발언을 유추하는 기술)의 정확도를 대폭 끌어올린 소프트웨어를 개발했다. 이 같은 사실은 지난 11월24일 <더버지>가 보도했다.

lipreading

사진 : Lip Reading Sentences in the Wild

인공지능은 TV를 보고 공부했다. <BBC> 영상이 학습 데이터로 활용됐다. 5천 시간 이상의 영상 분량이며, 훈련 데이터로 ‘뉴스나이트’, ‘퀘스천타임’, ‘월드투데이’ 등의 프로그램이 쓰였다. 이 비디오에는 11만8천여개의 다른 문장과 1만7500여개의 고유명사가 포함돼 있다. 옥스퍼드대학 내의 다른 팀이 개발한 ‘립넷’의 훈련 데이터에는 고작 51개의 고유명사가 있는 것과 대조적이다.

lipreading(3)

사진 : Lip Reading Sentences in the Wild

립넷은 테스트에서 93.4%의 정확도를 보였지만, 이 결과는 연구참여자가 공식 문구로 이야기하는 특수한 상황에서 달성한 것이다. 이에 비해 딥마인드팀이 함께 참여해 개발한 ‘워치, 리슨, 어텐드 앤드 스펠'(Watch, Listen, Attend and Spell)은 좀 더 어려운 상황에서 테스트를 진행했다. <BBC>의 정치 쇼 프로그램을 대상으로 했다. 좀 더 일반적이고 자연스러운 대화가 오가는 상황이다.

테스트는 입술을 읽어 영상에 자막을 입히는 방식으로 진행됐다. 학습을 거친 프로그램은 대략 절반 수준을 인식했다. 이는 음성인식 기술의 정확도보다 낮은 수준이지만, 전문적으로 독순술을 익힌 사람이 12.4%를 제대로 인식한 것에 비해서는 상당히 높다.

surveillance

flickr, Jonathan McIntosh, CC BY-SA

청각장애인에 유용, 감시에 대한 우려도 있어

독순술 프로그램은 특히 청각장애를 가지고 있어 대화에 어려움을 겪는 사람을 돕는 데 유용할 수 있다. 애플의 ‘시리’, 마이크로소프트 ‘코타나’, 아마존 ‘알렉사’ 등 음성인식 기반 보조 프로그램에서도 활용할 여지가 있다.

물론 독순술에 대한 우려의 시각도 있다. 감시에 쓰일 수 있다는 것이다. 연구자들은 고해상도 영상에서 입술을 읽는 것과, 거칠고 낮은 프레임의 CCTV 영상에서 입술을 읽는 것에는 큰 차이가 있다고 설명했으나, <더버지>는 “인공지능이 이 차이를 좁힐 수 있다는 사실을 간과해서는 안 된다”라고 평했다.

네티즌의견(총 7개)