야후가 1월14일 머신러닝 연구자를 위한 예제 데이터를 무료로 공개했다. 데이터 크기는 13테라바이트(TB)다.

야후는 공식 블로그에 “데이터는 머신러닝 연구에 꼭 필요하지만 그동안 규모가 있는 회사만 대용량 데이터를 얻을 수 있었다”라며 “더 많은 연구단체들이 대규모 데이터 기반 머신러닝을 연구할 수 있도록 이번 데이터를 공개했다”라고 설명했다.

이번 예제 데이터는 야후의 2천만 사용자가 2015년 2월부터 5월까지 야후 뉴스피드에 보낸 정보다. 사용자 정보는 익명 처리했다. 여기에는 야후 뉴스, 야후 스포츠, 야후 파이넨스, 야후 무비, 야후 이스테이트 관련 데이터들이 포함돼 있다. 야후는 1.5TB 규모의 샘플 데이터를 따로 만들어 데이터 정보를 더 쉽게 볼 수 있도록 지원했다. 샘플 데이터는 나이 성별, 지리 정보 등으로 분류됐다. 데이터는 야후 계정이 있어야 내려받을 수 있다. 야후 내 개인화과학팀도 이 데이터로 머신러닝을 연구하고 있다.

▲  야후가 공개한 야후 뉴스피드 데이터(사진:야후 블로그)
▲ 야후가 공개한 야후 뉴스피드 데이터(사진:야후 블로그)

야후는 이미 ‘웹스코프’라는 프로젝트로 데이터를 공유하고 있다. 이번 데이터도 웹스코프 프로젝트로 나온 결과다. 웹스코프에서 제공되는 데이터는 연구 및 비영리 목적에 한해 자유롭게 이용할 수 있다.

▲  야후웹스코프에서 제공하는 데이터
▲ 야후웹스코프에서 제공하는 데이터

저작권자 © 블로터 무단전재 및 재배포 금지