“내가 몇 살로 보여?” MS ‘머신러닝’에 물었더니

가 +
가 -

온라인 세상에서 때아닌 ‘나이 진실게임’이 유행이다. ‘하우올드닷넷’이 유명세를 얻으면서 시작됐다. 하우올드닷넷은 얼굴이 나온 사진을 올리면, 나이와 성별을 계산해 알려주는 웹사이트다. 실제 나이보다 적게 나온 이들은 자랑삼아 페이스북 등 소셜네트워크서비스(SNS)에 공유한다. 실제 나이보다 많은 숫자를 결과로 받은 이들도 웃으며 즐긴다.

mspo_2_800

하우올드닷넷은 마이크로소프트(MS)가 미국 현지시각으로 지난 4월30일 개발자 컨퍼런스 ‘빌드 2015’에서 공개한 웹사이트다. 동작 원리는 간단하다. 사용자가 JPG나 PNG, GIF 등 사진 파일을 올리면, 컴퓨터가 사진에서 얼굴을 인식하고, 얼굴에서 나이나 성별을 가늠할 수 있는 특징을 잡아 분석해준다. 사진에서 얼굴을 판독하고, 성별과 나이를 분석하는 역할은 MS의 클라우드 서비스 ‘애저’가 맡는다.

MS는 왜 이런 서비스를 시작했을까. 단순히 웃고 즐기기 위한 서비스는 아니다. 하우올드닷넷의 배경에는 애저 클라우드의 기계학습 기술과 이를 바탕으로 구축된 ‘MS 프로젝트 옥스퍼드’가 있다.

MS 프로젝트 옥스퍼드는 MS가 제공하는 ‘애플리케이션 프로그래밍 인터페이스(API)’를 말한다. ‘얼굴 API’와 ‘스피치 API’, ‘비전 API’, ‘언어 이해 지능 서비스(LUIS)’로 나뉜다. 하우올드닷넷에 쓰인 API는 얼굴 API다.

하우올드닷넷에는 MS 옥스퍼드 프로젝트가 제공하는 API 중 얼굴 API가 적용됐다. 얼굴 API엔 5개 얼굴 분석 기술이 포함돼 있다. 사진에서 사람의 얼굴을 찾아내고, 성별과 나이까지 구분해주는 역할을 하는 ‘얼굴 인식’ 기술이 한 축이다. 사진 2장에서 똑같은 사람을 찾아내는 ‘얼굴 구분’ 기술도 들어 있다. 여러 장의 사진에서 닮은꼴 얼굴을 찾아내는 ‘비슷한 얼굴 찾기’와 여러 사진에서 찾아낸 비슷한 얼굴을 그룹으로 묶어주는 ‘얼굴 그룹’ 기술도 유용하다. 마지막으로 사진 속 얼굴이 누구의 것인지 분석해주는 ‘얼굴 식별’ 기술이 포함됐다.

스피치 API 속에는 말을 글자로 바꿔주는 오디오 투 텍스트 기술과 글자를 소리로 바꿔주는 텍스트 투 스피치 기술 등이 포함돼 있고, 비전 API에는 이미지 분석 기술과 사진에서 문자를 뽑아주는 OCR(Optical Character Recognition) 기술 등이 포함돼 있다.

mspo_800

MS는 MS 프로젝트 옥스퍼드에 포함된 각종 API를 무료로 공개했다. 누구나 자신이 만드는 서비스에 얼굴, 음성, 이미지, 언어 관련 API를 쓸 수 있다. 개발자가 직접 지능형 서비스를 고안하지 않아도 되고, 무엇보다 MS가 애저의 기계학습으로 쌓아온 분석 기술을 그대로 가져다 쓸 수 있다는 점에서 좋다. 플랫폼도 가리지 않는다. 윈도우 운영체제(OS)가 설치된 PC나 윈도우폰에서 쓸 수 있는 응용프로그램(앱)뿐만 아니라 안드로이드 스마트폰, 아이폰용 앱을 만들 때도 API를 끌어다 수 있다.

무료로 제공되는 API인 만큼 사용량에 제한이 있다. 예를 들어 얼굴 API는 하루 5천번만 활용할 수 있다. 1분에 20개 이상 분석을 요청하는 일도 금지된다. 테스트용으로 쓰기에는 불편함이 없는 정도다.

MS 프로젝트 옥스퍼드로 개발자는 어떤 서비스를 고안할 수 있을까. 이미지 분석 API를 활용하면, 성인사이트나 성인 콘텐츠를 걸러주는 서비스를 개발할 수 있다. 사진에 자동으로 태그를 붙여주는 앱도 개발할 수 있다. 사진에서 글자를 뽑아 편집할 수 있는 문자로 뽑아주는 앱이나 하우올드닷넷처럼 얼굴 API를 활용한 지능형 얼굴인식 서비스를 개발할 수도 있다.

MS 프로젝트 옥스퍼드 API는 MS 애저 서비스에 계정을 등록한 개발자는 누구나 쓸 수 있다. 얼굴, 스피치, 이미지 API는 베타 서비스고, 언어 이해 지능 서비스 API는 초대장이 있어야 쓸 수 있다.