구글, 음성인식 기술 API 공개

가 +
가 -

구글이 3월23일 음성인식 기술인 ‘클라우드 스피치 API‘를 공개했다. 현재는 프리뷰 단계로 별도로 가입한 사용자만 이용할 수 있다. 신청은 누구나 무료로 할 수 있다.

클라우드스피치 API는 오디오를 텍스트로 바꿔주는 기술이다. 딥러닝 뉴럴 네트워크 알고리즘을 이용했으며, 구글 내부 제품에서 실제로 활용하고 있는 기술이다. 클라우드 스피치 API는 전세계 80개 언어를 지원하며, 부적절한 콘텐츠를 따로 걸러낼 수 있는 필터 기능도 제공한다. 실시간으로 언어를 인식하고 해석할 수 있으며, 기존에 녹음된 파일을 읽을 수도 있다. 클라우드 스피치 API에서 지원하는 오디오파일 형식은 FLAC, AMR, PCMU , 리니어-16이다. 주변 소음도 걸러내는 기능도 지원한다.

구글은 클라우드 스피치 API 데모 영상을 통해 라즈베리파이로 만든 로봇이 음성을 읽고 해석하는 과정을 보여주기도 했다.

Cloud_Speech_API_01

클라우드스피치API 데모영상 링크

네티즌의견(총 2개)