[AInside] 머니브레인, “사람을 닮은 AI 아나운서 개발한 이유는…”

가 +
가 -

지난해 11월 중국에서 세계 최초로 인공지능(AI) 아나운서가 등장했다. 관영 신화통신이 검색 포털 업체 써우거우와 함께 실제 아나운서 보도 영상에서 목소리와 입술 모양, 표정을 추출해 딥러닝 기술로 학습한 AI 합성 아나운서를 개발했다. 신화통신에서 첫 방송을 맡은 AI 합성 아나운서의 모습은 다소 어색했지만, 표정과 목소리가 정말 사람을 꼭 닮았다.

“아나운서는 자세가 안정되어 있으면서 동시에 말을 명확하게 하는 사람입니다. AI 기술을 활용해서 구현할 때 적합한 학습 모델이죠. 기술을 구현해 보여주기도 좋고요. 저희도 그렇게 개발을 시작했습니다.”

| 장세영 머니브레인 대표

| 장세영 머니브레인 대표

세계 최초 타이틀은 놓쳤지만, 훨씬 더 사람의 행동에 가까운 AI 합성 아나운서를 국내 한 스타트업이 개발해 공개했다. 스타트업 머니브레인은 AI 기술과 딥러닝 학습, 컨벌루션 신경망(CNN) 학습을 통해 실제 사람이 말하는 것과 구분하기 어려울 정도의 유사성을 갖춘 AI 합성 아나운서를 구현했다.

머니브레인의 AI 합성 아나운서는 실제 사람과 큰 차이가 느껴지지 않는다. 중국의 AI 아나운서보다 훨씬 더 자연스러운 모습을 자랑한다. 머니브레인은 비단 아나운서뿐 아니라 문재인 대통령도 AI 합성으로 구현했다. 영상만 보면, AI 합성이라고 믿기지 않을 정도로 흡사해 자칫 실제 문재인 대통령으로 속을 정도다.

사람과 똑닮은 모습 구현하기 위해 딥러닝, CNN 기술 활용

“기존 음성 합성 기술을 텍스트 음성 변환(TTS)를 활용해 음소를 잘라 말하기 때문에 다소 어색했다면, 요즘 딥러닝 모델은 자연스러운 말투와 억양을 한번에 학습해 원래 말하는 사람의 말투와 어조를 따라합니다. 훨씬 더 사람에 가까운 모습을 구현할 수 있게 됐지요.”

장세영 머니브레인 대표는 AI 합성 아나운서를 구현할 때 오히려 음성은 영상보다 구현하기 쉽다고 설명했다. 음성 분야는 TTS, 챗봇 등 관련 데이터가 쌓이고 연구가 많이 진행되면서 사람의 발성과 유사하게 들릴 수 있는 기술이 많이 나와 있다. 과거 AI 음성은 글자를 하나씩 쪼개서 다시 결합해 발음하는 유니셀렉션 방식이었다면, 요즘엔 단어와 문장 그 자체로 학습한다. 그 결과 훨씬 더 적은 시간으로 사람의 가까운 방식으로 음성을 만들 수 있다.

| 딥러닝 음성 합성 기술

| 딥러닝 음성 합성 기술

“과거엔 며칠이 걸렸다면 요즘은 딥러닝 기술을 이용해 30분 정도면 원하는 목소리로 말하는 AI 음성을 만들어 낼 수 있습니다. 다화자 합성 기술이라고 해서 여러명이 말하는 내용을 동시에 데이터를 취합해 딥러닝으로 학습하는 식입니다. 기계처럼 보이지 않고 자연스러운 말투로 들리기 위해 노력을 많이 했지요.”

머니브레인은 딥러닝 기술을 이용해 텍스트를 음성으로 변환했다. 시퀀스-투-시퀀스 기반의 모델을 사용해 텍스트 입력 문장을 특정인의 목소리로 변환했다. 여기에 딥러닝 기반 모델을 이용해 음성 합성 문장을 알파벳 단위(한글 자모 단위)로 쪼개 각 단위의 임베딩을 학습하고 인코더와 디코더로 구성된 신경망을 거쳐 음성 스펙트로그램을 학습했다.

그리고 이렇게 만들어진 음성 합성을 영상에 입히기 위해 음성 스팩트로그램을 시쿼스-투-시퀀스 기반 모델을 사용해 입술좌표로 변환했다. CNN 학습을 통해 이미지를 분석하고, GAN(Generative adversarial network) 기술을 이용해 얼굴을 합성했다. 타데이터의 확률분포를 추정하고, 인공신경망이 그 분포를 만드는 GAN 기술을 적용했다. GAN은 언뜻 보면 진짜 같은 ‘그럴듯한 가짜’를 만들어서 진짜와 구분하지 못하게 될 때까지 학습을 반복하는 딥러닝 모델이다.

| 딥러닝 영상 합성 기술

| 딥러닝 영상 합성 기술

“자연스러운 목소리에서 더 나아가 사람이 친밀감을 느낄 수 있는 표정을 만들기 위해 노력을 많이 했습니다. 예전처럼 얼굴을 인식해 좌표처럼 넣는 게 아니라 사람이 말하는 영상 그 자체를 학습 엔진에 넣어, 말을 할 때 표정이 어떻게 바뀌고 얼굴 근육이 어떻게 달라지는 지를 학습했습니다. 그리고 이렇게 나온 AI 영상에 AI 음성을 입혔습니다.”

머니브레인은 얼굴 표정을 인식할 수 있는 랜드마크를 만들고, 이 랜드마크를 인식할 수 있는 알고리즘을 사용해 프레임 단위로 나눠 영상을 인식해 학습했다. 사람이 실제로 말하는 것과 같은 인상을 주기 위해 사람의 표정을 딥러닝 기술로 학습해 피사체의 얼굴표정의나 표현감정을 판별해 재생하는 기술까지 구현했다. 감정 정보를 비롯한 다양한 음성 특성들을 효과적으로 학습하기 위해 계층적 구조를 가지는 VAE(Variational autoencoder) 방식을 구현하고 이에 대한 효율적인 학습 방식을 독자적으로 개발했다. 이렇게 학습한 모델에 여러 말하는 영상을 넣어, 사람이 말할 때 짓는 표정을 구현할 수 있는 영상 알고리즘을 개발했다. 특히 CNN 계열의 새로운 알고리즘을 만들어서 얼굴 합성 부분에 적용했다.

페이크 뉴스 등 악용될 가능성에 대한 보완책 개발 필요해

사람과 닮은 AI 합성 아나운서의 인기가 마냥 높은 건 아니다. ‘사람과 꼭 닮았다’라는 점 때문에 때문에 경계의 대상이 되기도 한다. AI 기술을 활용해 오바마를 구현한 ‘오바마 페이크 뉴스’ 사건부터 시작해서, AI가 학습을 기반으로 임의로 디자인한 ‘이 사람은 존재하지 않습니다’라는 웹사이트 등장까지 AI가 빠르게 학습하면 할수록 그로 인한 부작용도 존재한다.

AI 합성 아나운서 역시 페이크 뉴스 등에 악용될 가능성이 존재한다. 장세영 대표도 이번에 AI 합성 아나운서를 개발하면서, 이 부분을 처음부터 인지하고 개발을 시작했다고 강조했다.

“눈으로는 AI인지 실제인지 구분하지 못하지만, 기술로 이 영상이 AI 합성 기술을 통해 만들어 낸 사람이라는 것을 눈치 챌 수 있는 부분도 함께 개발했습니다. 음성이나 영상에 비가청 주파수를 심어서 쉽게 식별할 수 있게 만드는 식입니다. 이런 비가청 주파수는 위조해서 빼낼 수 없게 만들어야 하겠지요.”

장세영 대표는 AI 학습을 통해 만들어지는 ‘닮은꼴 사람’들이 실제 사람과 헷갈리지 않게, 사람들이 구별할 수 있는 방지 기술을 탑재하는 식의 표준화 작업도 함께 일어났으면 좋겠다는 의견을 밝혔다. 정책이나 제도로 AI 닯은꼴 사람을 실제 사람과 헷갈리지 않게, AI 임을 식별할 수 있는 기술을 탑재하는 식이다.

“AI 합성 기술은 다양한 분야에서 활용될 가능성이 높습니다. 엔터테인먼트, 커머스 분야에서 사람을 대신해서 활용될 가능성이 높지요. 이 과정에서 신뢰를 확보하기 위해서라도 사람들이 오인할 수 있는 여지는 주지 않는게 전체 기술 발전에서 필요한 부분이라고 봅니다.”

머니브레인은 현재 AI 합성 아나운서를 선보이면서 글로벌 서비스도 함께 준비하고 있다. 한국어 뿐만 아니라 중국어, 영어까지 데이터 학습을 이미 완료했다.

“아직은 서비스 개발 초기이기 때문에 AI 합성 영상이 어떤 산업군에 활발하게 적용될지 확신할수 없지만, 사용자가 친숙하게 느낄 수 있고, 편리하게 사용할 수 있게끔 계속해서 기술을 고도화 해 나갈 계획입니다.”

네티즌의견(총 0개)