머신러닝은 기사에 어떻게 활용될까…‘2018 DJCON’

2018 데이터저널리즘코리아 컨퍼런스

가 +
가 -

머신러닝 기술은 쓸모가 많다. 하지만 만능은 아니다. 컴퓨터가 스스로 데이터를 통해 학습하고 규칙을 일반화해 예측하도록 하는 기술은 좁은 영역에서 새로운 가능성을 제시하곤 한다. 개와 고양이를 분류하는 기초 단계를 넘어 질병을 진단하거나, 전력 소비량을 예측해 에너지를 효율적으로 활용할 수 있도록 하고, 멸종위기 동물을 탐지하고 보호하는 데도 사용된다. 저널리즘 영역에도 머신러닝이 도입되기 시작했다. 방대한 데이터를 취합하고 분류해 기자의 눈으로 볼 수 없는 새로운 통찰력을 제공해준다. 하지만 이를 바탕으로 취재하는 건 결국 기자의 몫이다.

지난 12월20일 서울 한국프레스센터에서 열린 ‘2018 데이터저널리즘코리아 컨퍼런스(DJCON)’에서는 데이터저널리즘과 머신러닝을 주제로 국내외 다양한 사례들이 발표됐다. 데이터저널리즘코리아와 건국대 디지털 커뮤니케이션 연구센터가 공동 주최하고 구글 뉴스 이니셔티브가 후원한 이번 행사에서는 머신러닝을 활용해 어업선, 감시 정찰기, 방화 의심 사건 등을 추적해 보도한 사례들이 소개됐다. 이날 머신러닝을 주제로 발표한 강연자들은 저널리즘 영역에서 머신러닝의 가능성과 함께 한계점을 짚었다. 이들은 머신러닝은 하나의 시작점이라고 입을 모았다. 이날 ‘머신러닝으로 방화 의심 사건 추적하기’를 주제로 발표한 함형건 YTN 기자는 “머신러닝은 취재의 끝이 아닌 시작점이며, 검증이 필수적으로 이뤄져야 한다”라고 말했다.

| ‘2018 데이터저널리즘코리아 컨퍼런스(DJCON)’

데이터 분류를 통해 얻는 통찰

머신러닝이 잘하는 일은 규모가 큰 데이터를 분류하는 일이다. 개와 고양이를 가려내고, 안구 질환과 암을 분류해낸다. 이를 저널리즘에 적용하면 탐사보도 영역을 넓힐 수 있다. 예를 들어 어업선 선로 데이터를 분류해서 분석하면 어획 남용과 관련된 취재자료를 얻을 수 있다. 2018 DJCON 첫 번째 기조연설에 나선 아이린 제이 리우 구글 아태지역 뉴스랩 총괄은 머신러닝을 활용해 만들어진 툴 ‘글로벌 피싱 워치(Global Fishing Watch)’를 소개했다. 2016년 구글과 지도 제작업체 스카이트루스, 해양보호단체 오세아나가 함께 내놓은 글로벌 피싱 워치는 인공지능이 수집한 선박 자동추적장치(AIS) 데이터를 분석해 전세계 바다에서 벌어지는 어업 활동을 표시해주는 웹사이트다.

| 아이린 제이 리우 구글 아태지역 뉴스랩 총괄

글로벌 피싱 워치를 활용해 다양한 보도가 이뤄졌다. <뉴욕타임스>, <로이터> 등에서 영해 내에서 벌어지는 남획 사례, 석유 유출이 식량 안보 미치는 영향 등을 분석해 보도했다.

머신러닝을 활용해 미국 감시 정찰기를 분석해 보도한 사례도 있다. ‘취재 보도를 위한 머신러닝’을 주제로 두 번째 기조연설에 나선 피터 알더스 버즈피드 뉴스 과학 기자는 ‘랜덤 포레스트’ 알고리즘을 사용해 미국 감시 정찰기를 추적 보도한 사례를 발표했다. <버즈피드 뉴스>는 머신러닝 데이터 분석을 통해 FBI 감시 정찰기의 이동 경로를 식별했다. 항공기 추적 웹사이트 ‘플라이트레이더24(Flightradar24)’를 통해 미국 상공을 비행하는 항공기 위치, 경도, 비행 궤도, 고도 등 데이터를 수집하고, 미국 연방 항공기 등록 데이터를 활용했다. 이를 바탕으로 감시 정찰기를 통해 이뤄지는 광범위한 감시 활동을 보도했다.

 

머신러닝을 활용한 국내 보도 사례도 소개됐다. 함형건 YTN 기자는 머신러닝을 활용해 방화 의심 사건을 추적 보도했다. 랜덤 포레스트 알고리즘을 사용해 정보공개청구를 통해 얻은 6개 구역의 화재 데이터 2700건 중 150건의 방화 의심 데이터를 추출했다. 기계의 힘을 빌려 취재해야 할 대상, 수상한 화재 데이터를 좁히고 국내 화재 조사 제도의 허점을 짚어 보도했다.

머신러닝은 시작점일 뿐

이들은 공통적으로 머신러닝은 취재의 시작점일 뿐이라고 한계를 지적했다. 결국 머신러닝을 통해 얻은 정보는 기사의 조각일 뿐 퍼즐을 완성하는 건 결국 기자의 몫이라는 설명이다. 아이린 제이 리우 총괄은 “데이터는 시작점에 불과하며 정말로 필요한 하나의 조각이다”라며 “이 조각을 맞춰 퍼즐을 완성해야 하는 저널리스트들의 작업은 그대로 남아있다”라고 말했다. 피터 알더스 기자는 “머신러닝은 하나의 시작점이며, 초기 필터라고 생각한다”라며 “정말 감시 정찰기가 무엇이고, 이 항공기가 수행하는 활동이 무엇인지는 미국 국무부 문서를 통해 찾아냈다”라고 밝혔다.

함형건 기자는 데이터 검증의 필요성을 말했다. “정확도 높은 알고리즘이라 해도 오류가 있을 수 있으며, 학습 데이터에도 오류가 있을 수 있어 검증이 필요하다”라는 지적이다. 또 투입하는 데이터, 접근 방식에 따라 산출물이 달라질 수 있기 때문에 머신러닝 활용에 신중하게 접근해야 한다고 덧붙였다. 데이터 편향이 발생할 수 있다는 얘기도 나왔다. 훈련 데이터가 편향적일 경우 머신러닝을 통한 결과물도 편견을 증폭시키고 확대할 수 있다. 미국 아마존은 AI를 활용한 고용시스템을 준비했지만, 성차별적 데이터 편향이 문제가 돼 관련 개발팀을 해산시켰다.

| 함형건 YTN 기자

알고리즘의 투명성도 관건이다. 알고리즘이 어떤 식으로 작동하는지 공개할 수 없다면 머신러닝을 활용한 기사에 대한 신뢰가 무너질 수 있기 때문이다. 피터 알더스 기자는 데이터 공개의 필요성을 주장했다. “머신러닝을 통해 데이터를 분류하거나 데이터코드를 통해 분류하게 된다면 그 방법을 공개하는 게 좋으며, 단순히 알고리즘 이용해서 이런 결과가 나왔다는 건 충분하지 않다”라며 “모든 사람이 알 수 있는 방식으로 결과를 냈다는 걸 알려 결과를 검증하고 공공의 기록으로 남을 수 있다”라고 말했다.

머신러닝을 필요에 따라 적절하게 활용해야 한다는 지적도 나왔다. 기술을 과시하기 위해 머신러닝을 불필요하게 쓸 필요는 없다는 얘기다. 피터 알더스 기자는 “지루하고 반복적인 데이터를 직접적으로 분류해야 하는 상황이라면 머신러닝 알고리즘을 활용하면 좋지만, 이미 텍스트 검색이 가능하고 간단한 필터나 키워드로 검색할 수 있다면 머신러닝을 통한 분류가 필요 없다”라며 “필요한 경우에만 머신러닝을 활용하는 지혜도 필요하다”라고 말했다. 또 “기자로서 머신러닝의 한계를 잘 알고 투명하게 활용해야 머신러닝을 통해 제대로 된 언론 보도를 할 수 있다”라고 조언했다.

함형건 기자는 “의료나 다른 영역에서의 머신러닝 활용과 저널리즘에서의 활용 많이 다른 것 같다”라며 “과도한 기대는 금물이며, 어떤 아이템과 데이터가 머신러닝 활용에 적합할지 고민이 필요하다”라고 전했다.

네티즌의견(총 0개)