구글이 데이터 저널리즘 생태계를 지원하는 법

넥스트저널리즘 5기 우승자의 구글 뉴스랩 취재기

가 +
가 -

이 글은 ‘넥스트 저널리즘 스쿨 2018’ 5기 우승자 김건우(kimkonwoo@gmail.com) 님이 작성했습니다.

넥스트 저널리즘 스쿨은 급변하는 미디어 환경에서 예비 청년 저널리스트들을 대상으로 <블로터>가 진행하고 구글이 후원하는 디지털 특화 저널리즘 스쿨입니다. 넥스트 저널리즘 스쿨 우승자는 구글 뉴스랩 탐방 기회를 가집니다. 지난해 7월2일부터 13일까지 진행된 ‘넥스트 저널리즘 스쿨 2018’ 우승자가 이번에도 구글 뉴스랩을 다녀왔습니다. 그 이야기를 여러분과 함께 나눕니다 – 편집자주

| 김건우 넥스트 저널리즘 2018 우승자

세계 최대 검색엔진 구글은 좋은 콘텐츠가 기반이 됐을 때 성공할 수 있는 플랫폼이다. 최근 휘청이고 있는 뉴스 생태계를 위해 구글이 갖은 노력을 기울이는 이유다. 구글 뉴스 이니셔티브(GNI) 산하 구글 뉴스랩은 오보(misinformation)나 로컬 뉴스처럼 뉴스 산업이 당면한 숙제를 해결하기 위해 저널리스트, 기업가와 공조하고 있다.

구글 뉴스랩이 특히 집중하는 분야는 데이터 저널리즘이다. 축적된 검색 데이터 등 구글의 거대 데이터베이스와 인공지능(AI) 머신러닝 기술이 합쳐지면 양질의 데이터 저널리즘도 쉽게 만드는 도구를 제공할 수 있기 때문이다.

지난 5월11일 오전 구글 샌프란시스코 오피스에서 구글 뉴스랩 사이먼 로저스 데이터 에디터를 만나, 데이터 저널리즘의 접근성과 질을 높이기 위한 구글의 노력을 들어봤다.

| 사이먼 로저스 구글 뉴스랩 데이터 에디터

| 사이먼 로저스 구글 뉴스랩 데이터 에디터

구글 데이터 저널리즘의 시작 ‘구글 시트’ 그리고 ‘백라이트’

사이먼 로저스는 뉴스 생산자가 데이터 저널리즘을 기사에 쉽게 접목할 수 있도록 구글이 다양한 자원을 제공하고 있다고 설명했다. 재료가 되는 모수(raw data)부터, 비정제 데이터(Dirty Data)의 데이터 정제(cleansing), 분석(analytics), 그리고 시각화(visualization)까지. 구글이 제공하는 도구들은 데이터 저널리즘의 시작부터 끝까지 함께한다.

그러나 ‘타블로’나 마이크로소프트의 ‘파워 BI’ 등 다른 기업 역시 구글 데이터 스튜디오가 제공하는 것과 유사한 데이터 시각화 도구를 제공한다. 데이터 분석 측면에서도 구글과 유사한 소프트웨어를 제공하는 기업이 여럿 존재한다. 데이터 저널리즘을 지원하는 다른 기업과 다르게 구글만이 가진 차이점이 있다면 무엇일까.

사이먼 로저스는 먼저 대다수의 데이터 분석 및 정리가 구글 스프레드시트를 기반으로 한다는 점을 강조했다.

“구글 시트가 데이터 분석과 시각화를 위해 이만큼 널리 쓰이게 될 줄 예상하지 못했습니다. 구글 시트는 기능적으로 더 강력해지고 있습니다. 뉴스랩 역시 구글 시트 팀과 협업하고 있지요.”

사이먼 로저스는 구글 뉴스랩이 머신러닝을 활용한 데이터 분석 도구를 제공하는 점을 차별점으로 꼽았다. 그는 구글이 보유한 최첨단(Cutting Edge) 기술의 예시로 가칭 ‘백라이트’를 예로 들어 설명했다.

백라이트는 아직 구글이 개발 중에 있는 프로젝트다. 겉보기엔 광학 문자 인식(OCR) 기술과 비슷하지만,  작동 원리를 살펴보면 기존 OCR에서 한 발 더 나아간 기술이다. OCR은 이미지나 PDF 파일을 분석해 텍스트나 워드 파일로 전환하는 광학식 문자 판독 기술을 말한다.

“백라이트의 손글씨 인식률이 기존 OCR 기술보다 뛰어나며, 가장 개선된 OCR 기술을 활용합니다. 더 중요한 차이점은 백라이트의 검색기능에 있지요.”

사이먼 로저스는 기존 OCR이 손글씨를 인식해 텍스트로 전환하는데 그친다면 백라이트는 인공지능(AI) 머신러닝 기술을 기반으로 한 시맨틱 웹(컴퓨터가 정보의 의미를 분석하고 이해해, 여러 지식 개념들을 의미적으로 서로 연결해 보여주는 지능형 웹)이라 할 수 있다. 즉, 스캔한 문서 내 단어들이 어떤 카테고리에 속하는지 백라이트가 자체적으로 판단해 분류해서 보여준다.

예를 들어, ‘트럼프 호텔’이나 ‘트럼프 보드카’라는 단어가 포함된 문서를 스캔해서 데이터화 했다고 가정하자. 스캔한 문서에 트럼프 호텔이나 트럼프 보드카는 언급되어 있지만, 이들 단어가 무엇을 의미하는지는 설명되어 있지 않다. 백라이트는 검색엔진을 이용해 스캔한 단어가 어떤 의미를 갖는지 분석해 사용자에게 보여준다. 사용자가 문서 안에 트럼프 호텔이나 트럼프 보드카가 얼마나 언급되어 있는지 물어보면, 각 단어에 ‘단체’가 포함되어 있지 않더라도 두 단어의 의미를 이해해 단체 카테고리로 묶어 검색 결과를 표시하는 식이다.

문서에 포함된 총기라는 단어도 단순히 ‘총기’로만 인식하는 것이 아니라 문서 내 검색 결과 아래 ‘소총’, ‘총’, ‘총기류’ 등 비슷한 속성의 단어를 함께 보여주거나 분류한다.

이런 분석 기능은 저널리스트가 장소, 이름, 조직 등 자신이 궁금한 내용을 중심으로 수천, 수만 장의 텍스트화되지 않은 문서를 정리해 데이터화 할 수 있게 도와준다.

사이먼 로저스는 이렇게 분류된 데이터의 시각화가 다음 단계라고 설명했다. 백라이트를 통해 얻은 데이터를 바탕으로 각 데이터 사이의 연결관계를 보여주는 네트워크 차트를 생산하는 방식이다.

예컨대, 최근 미국 사법부에서 PDF 파일로 배포한 뮬러 리포트(Mueller Report)를 바탕으로, 문서 내 도널드 트럼프 대통령의 이름과 함께 언급된 이름들 사이의 관계도를 정리해 보여준다.

사이먼 로저스는 “(백라이트는) 더 커다란 취재 보고(reporting) 시스템의 일부라고 생각한다”고 밝혔다.

백라이트는 정식 명칭이 아닐뿐더러, 아직 알파 버전(베타 테스트 이전의 초기 버전)조차 나오지 않았다고 한다. 그러나 구글이 데이터 저널리즘을 진흥하기 위해 제공하는 다양한 도구엔 이미 쉽게 접근할 수 있다. 구글 트렌드나 구글 어스 프로와 같은 도구들이다.

그러나 처음 데이터 저널리즘을 접하는 저널리스트에게는 사용하기 낯설고 복잡할 수 있다. 사이먼 로저스는 “구글이 데이터 저널리즘 생태계를 지원하기 위해 단순히 툴을 제공하는 데 그치지 않는다”라고 강조했다. 구글의 역할은 저널리스트가 실제로 뉴스 생산에 구글의 툴을 활용할 수 있도록 돕는 프로그램을 제공하는 것까지 포괄한다고 밝혔다.

다양한 데이터 저널리즘 교육 프로그램도 선보여

실제로 구글 뉴스랩은 15개의 강의로 이루어진 총 117분 짜리 데이터 저널리즘 온라인 강의를 무료로 제공하고 있다. 강의 내용의 초점은 어떻게 구글 데이터 툴을 실제로 데이터 저널리즘을 수행하는데 활용할 수 있는지 설명하는데 있다. 이외에도 구글 뉴스랩은 데이터 저널리즘 수업(Google News Lab Data Journalism Course)에서 멀티미디어 스토리텔링이나 탐사보도 등에 구글 툴을 활용하는 방법 역시 온라인 강의로 제공한다.

| 구글 뉴스랩 데이터 저널리즘 수업 화면 갈무리

구글이 제작한 데이터 저널리즘 핸드북도 있다. 데이터 저널리즘 핸드북 웹사이트에서 무료로 데이터 시험판을 읽어볼 수 있다. 데이터 저널리즘 핸드북2는 유러피언 저널리즘 센터(European Journalism Centre)와 구글 뉴스 이니셔티브에서 공동제작했다. 해당 핸드북에는 다양한 사례분석을 통해, 데이터를 모으고 시각화하는 과정에서부터, 데이터 저널리즘 프로젝트 실행 이후 임팩트를 측정하는 방법까지 상세히 나와 있다.

데이터 저널리스트를 꿈꾸는 기자들에게 사이먼 로저스는 데이터 저널리즘 어워즈(Data Journalism Awards)에서 입상한 작품을 꼼꼼히 살펴보기를 추천했다. 데이터 저널리즘 어워즈는 구글 뉴스 이니셔티브(Google News Initiative)와 마이크로스프 등이 지원하고 글로벌 에디터스 네트워크(Global Editors Network)에서 주관해 매년 열리는 경진 대회다. 미디어 크기와 상관없이 전세계적으로 데이터 저널리즘 분야에서 뛰어난 기사를 선발해 시상한다. 사이먼 로저스는 이 경진대회 총괄(director)을 맡고 있다.

올해 시상식은 그리스에서 오는 6월에 열릴 예정이다. 데이터 저널리즘 어워즈 사이트에는 수상 프로젝트가 혁신적인 이유부터, 해당 프로젝트에 사용된 데이터 출처(source), 분석 방법론, 그리고 기술까지 개략적인 설명이 나와 있다.

| 2018년 우승 프로젝트, 포스트미디어(Postmedia)의 “Follow the Money”

| 2018년 우승 프로젝트. <포스트미디어>의 ‘팔로우더머니(Follow the Money)’

언론사와의 협업 및 사용자 측면에서의 고민도 필요해

구글은 데이터 저널리즘 생태계를 지원하기 위해 온라인 강의나 경진대회 같은 방식 이외에도 개별 언론사와 직접 협업하는 방식을 택하고 있다. <프로퍼블리카>와 함께한 ‘혐오의 문서화 뉴스 지수(Documenting Hate News Index)’가 유명한 예시다.

언론사에서 프로젝트를 가지고 구글에 협조를 요청하면, 구글이 머신러닝 기술을 동원해 데이터 리스트를 제공한달지, 개발자 등 인력 자원을 제공하는 방식이다. 이런 인력과 기술을 보유한 구글은 왜 자체적인 CMS (콘텐츠 관리 시스템: 콘텐츠의 제작, 가공, 전달 등 전과정을 관리하는 시스템)를 개발하지 않는 것일까?

사이먼 로저스는 개인적인 의견이라고 선을 그으면서 “언젠가는 구글의 자체적인 CMS가 필요하다고 생각한다”라고 말했다. 그는 “저널리즘은 구글이 중요하게 생각하는 분야인만큼, CMS를 만들어야 한다는 주장이 내부적으로 있어 왔고, 회사도 이를 인식하고 있다”라고 덧붙였다.

뉴스 생산자가 아닌 사용자 측면에서 구글은 데이터 저널리즘에 대한 접근성을 얼마나 고민하고 있을까? 뉴스 산업 내에서는 데이터 기반의 인터랙티브와 인포그래픽이 즐비한 기사를 실제로 일반 독자가 얼마나 소비하는가에 대한 의문과 자성적 비판이 지속돼 왔다.

사이먼 로저스는 사람들은 이미 데이터 저널리즘을 쓰고 있고, 익숙해져 있고, 알고 있다고 설명했다.

“뉴스 독자들이 표나 차트 등 데이터 기반 시각자료가 포함된 기사를 그렇지 않은 기사에 비교해 20% 이상 많이 읽습니다. 사실상 대다수 기사는 이미 데이터 기반 기사지요. 오히려 시각화 도구들이 다양해지는 등 기술 발전으로 데이터 저널리즘에 대한 사용자 측의 접근성은 높아지고 있습니다.”

인터뷰에 앞서 사이먼 로저스의 데이터 저널리즘 강연 하나를 본 적이 있다. 이 강연에서 사이먼 로저스는 이렇게 말했다.

“데이터 저널리즘은 가능한 한 좋은 스토리텔링을 위해 숫자를 이용하는 방식이다.”

구글이 데이터 저널리즘에 대한 접근성을 높이기 위해 제공하고 있는 여러 도구와 프로그램은 뉴스 생산 영역에서의 새롭고 다양한 시도들을 가능하게 해주고 있었다. 사용자에게 더 임팩트 있는 이야기를 전달하기 위해 데이터 저널리즘이라는 도구를 어떻게 활용할지는 저널리스트들이 고민해야 할 몫이다.

네티즌의견(총 0개)