화상회의 중 AI로 시선 교정…’엔비디아 맥신’ 공개

가 +
가 -

엔비디아 맥신 기능 소개 / 자료=엔비디아

엔비디아가 클라우드 인공지능(AI) 동영상 스트리밍 플랫폼 ‘엔비디아 맥신(Maxine)’을 공개했다.

화상회의 제공업체들은 클라우드에서 엔비디아 GPU로 맥신 플랫폼을 구동할 수 있으며 △시선 교정 △노이즈 캔슬링 △페이스 리라이팅(face rewriting) 같은 AI 기능을 사용할 수 있다. 기능 작동에 필요한 데이터는 클라우드에서 처리되므로, 최종 사용자는 하드웨어에 구애받지 않는다.

맥신 플랫폼은 픽셀로 이뤄진 전체화면을 스트리밍하는 대신, 통화 중인 각 개인의 안면에서 주요 포인트를 분석해 얼굴을 지능적으로 재구성한다. 이를 통해 동영상 스트리밍 시 교환되는 데이터 플로우를 크게 줄이는 방식이다.

또 엔비디아 GPU로 구동되는 맥신의 AI 기반 영상압축 기술도 영상 대역폭 소비를 스트리밍용 영상의 압축 표준인 H.264의 10분의 1까지 절감해준다.

화상회의의 대면성을 강화하기 위해 얼굴을 맞대고 대화하는 듯한 느낌도 기술적으로 구현했다. 페이스 얼라인먼트(Face alignment) 기능은 통화 중에 서로 마주보는 것처럼 얼굴을 조정하며, 시선 교정 기능은 카메라가 사용자 화면과 불일치하더라도 눈을 맞추는 것처럼 보이게 한다.

개발자들은 참가자가 실시간으로 음성과 감정 톤에 따라 자동으로 움직이는 애니메이션으로 자신만의 아바타를 선택할 수 있는 기능도 추가할 수 있다. 또 자동 프레임 옵션은 스피커가 화면에서 멀어 지더라도 비디오 피드가 스피커를 따라갈 수 있도록 돕는다. 더불어, 맥신 플랫폼은 개발자들이 AI 기능을 손쉽게 화상회의 솔루션에 접목할 수 있도록 모듈식으로 설계된 것도 특징이다.

한편, 맥신 플랫폼에는 엔비디아 AI SDK와 API 기술이 통합되어 있다. 엔비디아 자비스, 엔비디아 딥스트림(DeepStream) SDK로 음성과 영상 스트리밍의 처리량을 늘리고 엔비디아 텐서RT(TensorRT) SDK로 고성능 딥러닝 추론을 지원한다.