언론사들은 왜 데이터 과학에 눈독 들이나

가 +
가 -

복스미디어가 지난 4월6일 오프반디트라는 데이터 과학 전문 스타트업을 인수했다. 정확한 인수 가격은 공개되지 않았지만 글로벌 미디어 업계에선 ‘사건’으로 받아들여진다. <더버지>, <복스> 등의 뉴스 매체를 보유하고 있는 복스미디어는 오프반디트 인수를 계기로 독자들의 데이터 추적을 더욱 정밀하게 진행할 계획이라고 밝혔다.

최근 들어 뉴스 미디어들이 데이터 과학에 흠뻑 빠져들고 있다. 복스미디어처럼 전문 스타트업을 인수하는 사례도 있지만 <버즈피드>처럼 사내에 데이터 사이언스팀을 두고 있는 곳도 적지 않다. 주류 언론도 다르지 않다. <뉴욕타임스>나 <월스트리트저널>과 같은 주류 뉴스 미디어들은 ‘최고데이터과학자’라는 직책을 신설해 관련 업무를 맡기는 추세다.

<버즈피드>, 네이티브 광고 공유도 예측

버즈피드가 공개한 통계. 네이티브 광고에 머무리는 시간이 많을수록 공유도가 높다.(사진 출처 : 버즈피드)

버즈피드가 공개한 통계. 사용자가 네이티브 광고에 머무르는 시간이 길수록 공유횟수는 증가한다.(사진 출처 : 버즈피드)

데이터 과학을 뉴스 생산과 유통 전분야에 걸쳐 다양하게 활용하고 있는 뉴스 미디어를 꼽는다면 단연 <버즈피드>를 들 수 있다. <버즈피드>는 뉴스 미디어로선 이례적으로 발행인에 데이터 과학자인 다오 구엔을 임명했다. 다오 구엔은 알려진 바와 같이 <버즈피드>의 트래픽을 단 2년 만에 2~3배 이상 상승시키는데 혁혁한 공을 세운 인물이다. 비교적 최근까지 <버즈피드> 공유 확산 알고리즘을 개발한 데이터과학자 키 하린은 지난 2월 매거진 그룹 콩드나스트의 데이터과학 부사장으로 자리를 옮겼다.

<버즈피드>에 설치된 데이터 과학팀에는 2014년 9월 기준으로 10명의 데이터 과학자가 근무하고 있다. <버즈피드>가 데이터 과학자를 처음으로 고용한 시점은 2010년으로 뉴스의 확산 시점과 흐름을 측정하기 위해서였다. 이들은 뉴스의 생산뿐 아니라 네이티브 광고의 기획에도 관여한다. 치밀하게 측정된 독자들의 행위 데이터를 바탕으로 독자들이 관심을 가질 만한 뉴스나 제목을 제안하고 평가한다. 공유 친화적인 뉴스 포맷을 개발하는 역할도 담당한다.

<버즈피드>의 창업자이자 CEO인 조나 페레티는 지난 3월 개최된 ‘사우스 바이 사우스웨스트'(SXSW) 발표 자리에서 “우리 데이터과학팀은 데이터 속에서 아이디어를 얻고 편집국에 데이터와 피드백을 제공한다”면서 “이를 통해 새로운 포맷을 만들고 공유될 수 있는 형태로 개선하는 역할을 한다”고 밝혔다.

<뉴욕타임스>, 구독 탈퇴 독자 예측

뉴욕타임스 최고데이터과학자인 크리스 위긴스 콜럼비아대 교수.(사진 출처 : 콜럼비아대 홈페이지)

뉴욕타임스 최고데이터과학자인 크리스 위긴스 콜럼비아대 교수.(사진 : 콜럼비아대 홈페이지)

<뉴욕타임스>는 수익 모델의 관점에서 데이터 과학을 활용하는 경우다. <뉴욕타임스>는 지난 2014년 2월 콜럼비아대 수학과 교수인 크리스 위긴스를 최고데이터과학자로 영입해 중책을 맡겼다.  크리스 위긴스는 콜럼비아대에서 머신러닝과 통계적 추론을 가르쳤다. 그가 <뉴욕타임스>에서 부여받은 임무는 연구 대상만 다를 뿐 접근법은 유사하다. 머신러닝과 통계적 방법론을 활용해 <뉴욕타임스>가 안고 있는 비즈니스 문제를 풀어가는 역할이다.

<뉴욕타임스>는 급감하는 인쇄광고 수익을 메우기 위해 디지털 유료 구독 장벽(paywall)을 쳤다. <뉴욕타임스> 기사를 온라인에서 월 10건 이상 읽으려면 독자들은 비용을 지불해야 한다. 유료 구독 장벽이 중요한 수익원으로 자리잡으면서 이탈 독자를 최소화해야 하는 과제가 떠올랐다.

<뉴욕타임스> 최고정보책임자인 마크 프론스는 2014년 <MIT 테크놀로지 리뷰>와 인터뷰에서 “왜 유료 구독을 하고 어떻게 지속적으로 이용하는지 그 인사이트를 우리에게 알려줄 누군가가 필요했다”고 영입 이유를 설명한 바 있다.

그는 지난해 유료 구독자들의 이탈을 최소화하는 임무를 맡았다. 이를 위해 ‘유료 구독 탈퇴자 예측’ 모델을 개발했다. 그 덕에 <뉴욕타임스>는 뉴스 클릭 행위만으로도 구독 중단 가능성이 높은 독자를 뽑아낼 수 있게 됐다.

<월스트리트저널>도 일찌감치 데이터 과학에 투자한 언론사다. <월스트리트저널>의 모회사인 뉴스코퍼레이션은 지난 2013년 10월 콜럼비아대 통계학부 교수로 있는 레이철 슈트를 최고데이터과학자로 데려왔다. 레이철 슈트는 구글 연구소에서 수년 간 일한 경력을 갖고 있으며 사용자 행위 데이터를 이해하는 프로토타입 알고리즘을 만드는데 재능을 보여왔다. 최근에는 그가 집필에 참여한 ‘데이터과학 입문’이 국내에 번역돼 소개되기도 했다.

같은 해 12월20일에는 스토리풀이라는 소셜 분석 전문 스타트업을 2500만달러에 인수했다. 스토리풀은 트위터 등의 소셜네트워크 데이터를 실시간으로 모니터링하고 분석할 수 있는 개발 능력을 갖추고 있다.

데이터 과학은 뉴스미디어의 생존 무기

드류 콘웨이가 그린 데이터과학 밴다이어그램.(이미지 출처 : 드류 콘웨이 홈페이지)

드류 콘웨이가 그린 데이터과학 밴다이어그램.(사진 : 드류 콘웨이 홈페이지)

데이터 과학은 뉴스 미디어의 수익을 좌우하는 비밀병기로 여겨지고 있다. 그 자체가 수익을 만들어내지는 못하지만 수익성을 향상시키는 데 기여한다. 예를 들어 구글과 페이스북은 정밀한 표적 광고 모델로 기업들을 유인한다. 기업들이 도달하고자 하는 고객층에 정확하게 광고를 전달해준다. 이러한 타깃팅 기술에 데이터 과학이 관여하고 있다.

하지만 그간 뉴스 미디어들은 이러한 기업 광고주들의 요구를 외면해 왔다. 데이터 과학은 이러한 수익의 고민을 풀어주는 기술적 인프라라고 할 수 있다. 데이터 과학이 전제되지 않으면 뉴스 미디어는 표적형 광고를 유치하기 어렵다. 당연히 디지털 광고 수익도 하락할 수밖에 없다.

데이터 과학 기술을 도입하지 않으면 여타 디지털 수익모델을 구축하는 데도 어려움이 따른다. 면밀한 데이터 없이 독자들의 수요를 충족시키란 더 이상 불가능하다. 크리스 위긴스도 “데이터 과학은 파괴적인 비즈니스 모델 구축하는데 도움이 될 수 있다”고 말했다.

네이티브 광고의 성장 예측치.(사진 출처 : 비즈니스 인사이더)

네이티브 광고의 성장 예측치.(사진 출처 : 비즈니스 인사이더)

네이티브 광고 모델에도 데이터 과학은 필수 요소다.(☞ 네이티브 광고란?) <비즈니스 인사이더>에 따르면 네이티브 광고 시장(미국 기준)은 2018년 200억달러를 넘어설 것으로 예상되고 있다. 콘텐츠 생산력을 갖춘 뉴스 미디어들이 놓칠 수 없는 시장이다.

<버즈피드>는 확산성을 예측하는 수학 모델을 개발해 네이티브 광고 시장에서 발군의 실력을 발휘하고 있다. <월스트리트저널>은 지난 1월29일자 보도에서 <버즈피드>가 2014년에만 1억달러 이상의 수익을 네이티브 광고 등으로 벌어들였다고 보도했다. 데이터 과학 기술을 활용한 예측 모델로 이뤄낸 성과다.

아직 국내에선 데이터 과학 기술을 도입해 체계적인 수익모델을 구축한 사례는 아직 찾아보기 어렵다. 데이터 과학을 뉴스 아이템 기획에 활용하는 경우도 드물다. 그나마 ‘데이터 저널리즘’이라는 이름으로 데이터 시각화를 시도하는 사례가 늘어나고 있는 점은 위안거리다.

네티즌의견(총 5개)