"한 장의 그래프가 독자들에게 훨씬 더 많은 이야기를 전달할 수 있다."

사이먼 로저스 가디언 데이터 블로그 에디터가 데이터 저널리즘을 시작한 이유다. 데이터 저널리즘은 데이터 수치에 근거에 작성하는 기사 문화를 일컫는다. 사이먼 에디터는 온갖 다양한 숫자에서 의미있는 정보를 찾아 독자에게 전달한다. '말' 보다는 '숫자'를 유심히 관찰하는 데이터 저널리스트인 셈이다. 그는 어쩌다 데이터 저널리스트가 됐을까.

SDF2013 simon rodgers
▲ SDF2013 simon rodgers

영국의 유력 일간지 가디언은 2009년 재미난 언론 실험을 기획했다. 방대한 양의 데이터를 수집하고 분석해 의미있는 정보로 만들어 '데이터 블로그'란 웹사이트를 통해 직접 독자들에게 전달하기 시작했다. 데이터 수치만 전달한 게 아니다. 데이터를 가공해 보기 좋게 시각화하는 작업까지 곁들였다.

"1800년대에는 누군가 중요한 사실을 폭로하려면, 관계자가 직접 데이터를 폭로할 수 밖에 없었습니다. 이제는 사정이 다릅니다. 위키리크스 같은 웹사이트가 있어 누구든지 중요한 데이터를 폭로하고, 그 데이터를 볼 수 있게 됐지요."

사이먼 에디터는 데이터 공유의 장을 언론이 만들면 훨씬 더 많은 정보가 공유될 수 있을 거라고 믿었다. 그렇게 조금씩 데이터를 수집해 인포그래픽을 만들고 기사를 작성했다. 결과는 성공적이었다. 영국 내 많은 기업과 기관에서 가디언의 데이터를 활용하기 시작했다. 가디언의 데이터 블로그는 전세계에서 가장 유명한 데이터 저널 중 하나가 됐다.

사이먼 에디터는 여기서 더 욕심을 냈다. 단순히 기업이나 연구소가 발표하는 데이터를 받아쓰는데서 그치지 않고 직접 데이터 수집에 나섰다. 최근 가디언이 공개한 영국 정부 예산 지출 현황 인포그래픽은 약 19만개에 이르는 항목을 담아 독자에게 보여준다. 이 과정에서 수만개에 이르는 정부 문서가 활용됐다. 가디언은 이렇게 수집한 데이터의 API를 공개해 관련 데이터를 활용한 또 다른 데이터 서비스를 만들 수 있게 적극 권장한다. 전세계 언론사 중에서 가디언처럼 데이터를 공개해 많은 사용자들이 사용할 수 있게 배려하는 곳은 드물다.

"가디언의 데이터 저널리스트는 무료 소프트웨어인 구글 스프레드시트와 무료 시각화 소프트웨어인 타임트릭 등을 이용해 데이터를 정리하고 그 결과를 독자들과 공유합니다. 데이터 자체는 정부기관에서 발행하는 PDF에 담긴 문서 등에서 추출하지만, 추출한 데이터는 가디언 웹사이트를 통해 모두 공개해 독자들이 직접 데이터 구축에 참여할 수 있게 만들지요."

사이먼 에디터는 데이터 저널리즘 구현 과정에서 데이터 공유와 이로 인한 독자와의 소통을 가장 중요한 요소로 꼽았다. 흐르는 물은 썩지 않지만, 고인 물은 썩기 마련이라는 생각에서다. 정체되고 폐쇄된 데이터는 의미있는 정보를 생산하지 못한다. 최근 가디언이 공개한 전세계 시위 관련 인포그래픽을 살펴보면 사이먼 에디터의 생각을 이해할 수 있다.

"문서를 통해 수집할 수 있는 수치에는 한계가 있습니다. 해당 수치가 올바른 정보인지도 확인하는 절차가 필요하지요. 데이터를 개방하면 모든 독자들이 참여해 해당 수치를 더 올바르고 좋은 정보를 만드는 데 기여합니다. 시위 데이터만 해도 처음엔 영국이었지만 점차 데이터 수집 범위 지역을 전세계로 확장했습니다."

가디언은 일반 문서에서 트위터와 페이스북 같은 사회관계망 서비스(SNS) 데이터도 참고했다. 독자의 목소리에도 귀를 기울였다. 독자 참여는 더 좋은 인포그래픽을 만드는 데 기여했다.

사이먼 에디터 설명에 따르면 그들이 맨 처음 선보인 인포그래픽의 색은 색맹인 사람들이 알아볼 수 없었다고 한다. 하지만 트위터와 같은 SNS 참여를 통해 제보를 받았고, 가디언 데이터 블로그 팀은 색맹인 사람도 볼 수 있도록 인포그래픽을 개선할 수 있게 됐다.

물론 독자들이 제공하는 정보가 항상 옳은 건 아니다. 가디언의 데이터 저널리스트들이 언제나 항상 좋은 데이터만 마주하는 건 아니다. 그렇기에 그들은 데이터를 모음과 동시에 모은 데이터가 옳은 데이터인지 확인하는 작업도 함께 진행한다. 역설적이게도 이 과정에서 필요한 건 더 많은 데이터다.

"더 많은 데이터가 공개돼야 더 좋은 정보를 찾을 수 있습니다. 지금도 보세요. 엄청난 정보가 돌아다니고 있습니다. 데이터 저널리스트는 그 중에서 어떤 정보를 정리해 보여줄지를 선택합니다. 당연히 정보가 많이 공개되면 공개될 수록 옳은 정보가 걸릴 확률도 높겠지요."

런던 올림픽 데이터를 살펴보자. 가디언에서는 2012년 런던 올림픽 행사 기간 때 각 선수들의 올림픽 기록 등을 공유하는 웹사이트를 만들어 정보를 공유했다. 원래 올림픽 관련 데이터는 정보는 IOC 쪽에서 소유하고 있었다.

"IOC로부터 정보를 받아 그 정보를 공개했습니다. 그러자 무슨 일이 일어났을까요. 이 데이터를 바탕으로 각 나라의 소득별, 인구별, 올림픽 정보가 공개됐습니다. IOC 수치 공개로 더 많은 정보가 탄생했습니다."

사이먼 에디터는 앞으로도 더 많은 사람들이 가디언의 데이터를 내려받을 수 있게 할 예정이다. 적극적으로 데이터를 개방하고 공유할 수록 정보가 풍성해진다는 믿음 때문이다.

"물론 이런 데이터 저널리즘이 쉬운 건 아닙니다. 다시 말하지만 한 장의 그래프가 글보다 더 많은 정보를 독자들에게 전달할 때가 있습니다. 공유와 개방, 협업서 나온 데이터의 힘이지요."

저작권자 © 블로터 무단전재 및 재배포 금지