close

“포털 야구 중계, 로봇 저널리즘이 대체 가능해“

가 +
가 -

진부하고 뻔한 퀴즈로 시작해보자. 아래 문장은 지난 4월28일 프로야구 SK대 NC 경기를 정리한 기사다. 기자가 작성했을까, 로봇이 작성했을까? 한번 맞혀보시라.

“백인식이 선발로 등판한 SK는 이태양이 나선 NC에게 6:8로 패하며 안방에서 승리를 내주었다. 경기의 승패에 결정적인 영향을 미친 키 플레이어는 손시헌이었다. 손시헌은 4회초 SK 고효준을 상대로 3점을 뽑아내어 팀의 승리에 결정적으로 기여했다. SK는 임창민을 끝까지 공략하지 못하며 안방에서 NC에 2점차 승리를 내주었다. 한편 오늘 NC에게 패한 SK는 4연패를 기록하며 수렁에 빠졌다.”

질문의 의도를 미리 간파한 이라면 “로봇이 작성했다”라고 답할 것이다. 그렇다. 사람이 아닌 로봇이 한글로 작성한 기사다. 만일 로봇과 기자가 작성한 기사를 뒤섞어놓고 같은 퀴즈를 제시한다면 정답 확률은 어떻게 변화할까. 당신은 쉽게 구분할 수 있을까?

로봇 저널리즘 국내서도 본격화

이준환 서울대 정보문화학/언론정보학과 교수.

이준환 서울대 정보문화학/언론정보학과 교수.

로봇 저널리즘, 태평양 건너 실리콘밸리에서나 유행하는 기술이라 여겼다면 오산이다. ‘저가 알바’의 위력에 눌려 한국 언론 시장에선 먹히지 않을 것이라고 지레짐작하고 있었다면 그 또한 착각일 수 있다. 이미 국내에도 상당히 높은 수준으로 로봇 저널리즘을 구현하고 있는 연구팀이 존재한다. 서울대 hci+d랩의 이준환 교수와 김동환 학생(박사수료)이 그 주인공이다. 지난 4월29일 서울대 연구실에서 이준환 교수를 만나 현황을 들어봤다.

이준환 교수와 김동환 씨는 지난해부터 로봇 저널리즘을 직접 개발해오고 있다. 완성된 기사는 수개월 전부터 페이스북 팬페이지트위터에 공개하며 사용자들의 피드백도 받고 있다. 얼핏 기사만 보면 기자가 썼는지 로봇이 작성했는지 구분하기 어려울 정도다. 여러 건의 기사를 읽다보면 정형화된 기사 패턴이 눈에 들어와 로봇이 썼다는 걸 확인할 수 있을 뿐이다.

이 교수는 처음부터 로봇 저널리즘 개발을 염두에 둔 것은 아니었다고 했다. 데이터를 시각화하는 과정에서 시각화 방식을 내러티브 즉 글로 바꿔본 것이 연구의 시작이었다.

“처음엔 기사 작성이 아니라 게임의 하이라이트를 추출해보는 데 관심이 있었다. 온라인 댓글이나 트위터의 데이터를 분석해 게임의 하이라이트 부분을 발견하는 작업을 해왔다. 어느 정도는 성공적이었다. 이걸 가지고 내러티브한 형태로 전달할 수 있겠다는 생각이 들어 시작하게 됐다.”

로봇 저널리즘은 따지고 보면 데이터 시각화의 파생품이다. 데이터를 그래프 등의 형태로 제작하면 인포그래픽이 되지만 내러티브 구조로 만들면 기사가 되는 것이다. 데이터를 어떤 형태로 전달할 것이냐라는 관점에서 보면, 로봇 저널리즘도 넓게는 데이터 저널리즘의 하위 분류로 볼 수도 있다.

어떤 방식으로 이뤄지나

IMG_3009

이준환 교수와 김동환씨는 로보 저널리즘 관련 논문을 5월15일 개최되는 한국언론학회 봄철 정기학술대회에 발표할 예정이다.

 

하지만 로봇 저널리즘은 데이터 시각화보단 더 복잡한 과정을 거쳐야 한다. 이 교수는 모두 5단계의 과정을 거쳐 기사가 자동으로 생성된다고 설명했다. ▲데이터 수집 ▲이벤트 추출 ▲핵심 이벤트 감지 ▲무드 감지 ▲기사 작성 순이다. 이 과정에서 이벤트의 가중치를 판별하는 알고리즘이 들어가고 맥락 정보를 덧입히는 작업도 개입된다.

현재 이 교수 연구팀은 야구 기사만을 알고리즘으로 만들어내고 있다. 야구 영역은 데이터가 풍부해 당장 적용해보기 용이하다. 대중적 관심도 높아 피드백을 받기도 어렵지 않다. 로봇 저널리즘을 테스트하기 위한 최적의 기사 영역인 셈이다.

기사용 데이터는 포털 사이트의 야구중계 코너를 ‘파싱’해서 수집한다. 형태소 분석기의 한계를 극복하기 위해 각 팀별 선수 데이터베이스도 구축했다. 중요 사건 데이터를 추출하기 위한 나름의 규칙도 구축했다. 즉 타율이 낮은 선수가 홈런을 치는 등 일상적이지 않은 사건을 뽑아내 기사에 반영하는 알고리즘이 작동하고 있다.

중요 사건이 추출되면 관점을 선택하는 단계(무드 탐지)로 넘어가게 된다. 여기서 관점이란 논조와 관련이 깊다. 다소 주관적인 형용, 부사어구를 선택하는 데 필수적인 과정이다. 예를 들어 단순히 ‘A선수가 2루타를 기록했다‘로 표현하는 것이 아니라 ’A선수가 시원한 2루타를 때려냈다’라고 작성하기 위해 무드 탐지 과정이 필요하다는 것이다.

4단계에 걸친 데이터 분석이 완료되면 곧바로 기사 작성으로 이어진다. 이 교수와 김동환씨는 수백, 수천 건의 야구 기사를 분석해 일종의 기사 작성 공식을 뽑아냈다. 기사 첫머리에 당일 경기 요약문이 나오면 그 다음엔 키플레이어에 대한 설명이 이어지는 패턴을 찾아낸 것이다. 이를 모두 데이터베이스화 했다. 기사 탬플릿을 만들어둔 것이다. 알고리즘은 가장 적절한 문장 패턴을 선택해 자동으로 조합한다. 물론 이 과정을 로봇이 완료하는 데까지 단 1초도 걸리지 않는다. 기사 작성 속도는 오로지 컴퓨터의 연산 능력에 달려 있을 뿐이다.

활용 범위는 상상하기 나름

이준환 교수 연구팀이 공개하고 있는 로봇 작성 기사.

이준환 교수 연구팀이 공개하고 있는 로봇 작성 기사.

이 교수는 현재 수준으로도 몇 가지 기사 작성 업무는 대체할 수 있다고 했다. 예를 들어 포털의 야구 문자 중계처럼 단순히 경기의 결과를 전달하는 작업은 어렵지 않게 구현할 수 있다. 뿐만 아니라 디지털 음악 서비스의 주간 차트 요약 기사나 재해재난 속보는 알고리즘이 금방 대체할 수 있는 영역이다. 우수한 인력을 배정해 지루한 작업을 시키기엔 아쉽고 그렇다고 안할 수도 없는 기사 작성 업무는 로봇 저널리즘이 대신할 수 있다는 것이다.

사실 단순한 업무를 대체하는 수준만으로 로봇 저널리즘이 시장성을 확보하기란 어려울 수 있다. 이 교수는 그 이상을 내다보고 있었다. 이를 테면 스크린별 기사 분량 자동 조절이다. 사용자들은 스마트폰에서 긴 글을 읽지 않는 경향이 높다. 반면 대형 PC화면에서는 장문의 분석 기사도 자연스럽게 소화한다. 문제는 기자가 각 스크린에 맞춰 같은 기사를 서로 다른 버전으로 매번 작성하기 어렵다는 점이다. 반면 로봇은 1초도 되지 않아 다양한 분량의 동일 기사를 여럿 제작해낼 수 있다.

“컴퓨터 스크린으로는 긴 기사를 내보내고 스마트워치엔 짧게 써서 노출하고. 운영자가 여러 버전을 만드는 것이 아니라 디바이스의 속성을 보고 알고리즘이 자동으로 분량을 결정해서 보여줄 수 있다.”

알고리즘은 개인별 맞춤형 기사도 얼마든지 작성할 수 있다. 동일 야구 기사라 할지라도 NC 팬을 위한 기사와 한화 팬을 위한 기사를 별도의 공을 들이지 않고 동시에 내보낼 수 있다. 물론 같은 NC 팬이라도 투수 중심의 기사와 타자 중심의 기사를 만들어내는 작업도 로봇엔 어렵지 않다. 백이면 백, 천이면 천, 독자의 선호에 맞는 기사를 선택적으로 생산하는 게 충분히 가능해진다.

현재 이 교수 연구팀은 ‘대화형 포맷’으로 뉴스를 재구성하는 작업도 진행하고 있다. 야구 결과를 내러티브 기사 형식이 아니라 카카오톡 대화처럼 가볍게 주고받는 형식으로 내보내는 것이다. 이 또한 로봇은 손쉽게 수행한다.

이처럼 로봇 저널리즘의 활용 범위는 무엇을 상상하느냐에 달라진다. 단순히 기자의 역할을 대체하는 상상에만 갇힐 이유는 없다. 기자들이나 콘텐츠 생산자들의 단순 업무를 덜어주는데 그치지 않고 뉴스 독자를 위한 맞춤형 서비스를 지원하는데 더 높은 가치를 인정받을 수도 있다. 그런 관점에서 기사 생산 알고리즘은 저널리즘에 기회가 될 가능성이 더 높아 보인다.

하지만 장벽은 있다. 바로 한글이다. 한글은 영어에 비해 구조적으로 복잡한 특징을 갖고 있다. 이로 인해 자연어처리기술 발전이 더딘 편이다. 이 교수도 자연어처리가 난관 중의 하나라고 말했다.

“이태양이 선수 이름인지 태양인지 오류 없이 분석하는 건 쉽지 않다. 형태소 분석기만으로는 구분하기가 어렵다. 대신 야구라는 특정 영역에만 한정하면 규칙을 기반으로 처리하는 건 가능해진다. 대신 정치, 문화, 사회 등 보편적으로 영역으로 이 룰을 확대 적용할 수는 없다. 자연어처리를 통한 감성분석은 특정 영역 안에서는 유효하지만 보편적인 영역까지 커버하는 툴을 만들기는 어려운 것 같다.”

기자와 로봇의 신뢰 경쟁 불가피

국내에서 로봇 저널리즘 연구는 아직 걸음마 단계다. 자연어 처리의 난관도 극복해야 하지만 무엇보다 신뢰할 만한 데이터의 양이 늘어나야 하고 이를 다루는 경험도 축적돼야 한다. 알고리즘을 숙성시키기 위해서는 풍부한 데이터와 경험은 필수적이다. 이런 한계 등으로 현재는 1~2문단의 기사를 작성하는데 그치고 있다.

이준환 교수는 장문 분석 기사로 영역을 확대해가는 건 시간 문제라고 했다. 유의미한 데이터만 늘어난다면 어렵지 않게 장문 기사도 제작해낼 수 있다는 것이다. 공개되는 데이터가 늘어나면 날수록 로봇 저널리즘의 위력은 배가된다는 의미기도 하다. 이에 따라 기계적으로 데이터를 분석해온 기자들의 입지는 위축될 수 있다. 특히 분석할 공개 데이터가 많은 출입처일수록 로봇이 기자를 대체할 가능성은 더욱 높아진다.

로봇 저널리즘은 기자들이 좀더 심층적이고 분석적인 기사를 작성하는 데 주력해야 한다는 메시지를 던지고 있다. 출입처 데이터를 앵무새처럼 재구성하는 관행에서 벗어날 것을 주문하고도 있다. 단순 보도와 심층 뉴스, 역할 분담에 나서자고 제안하고 있는 것이다.

이준환 교수는 로봇이 썼는지 아닌지를 검증하는 것보다 더 로봇이 작성한 기사를 독자들이 신뢰하는지 아닌지가 더 중요하다라고 말했다. 로봇 저널리즘의 성패도 신뢰에 달려 있다는 점을 강조한 것이다. 이 교수의 시나리오대로라면 기자와 로봇은 조만간 독자들의 신뢰를 놓고 경쟁을 벌일 가능성이 높아진다. 그 경쟁에서 기자가 우위를 점할 수 있을지는 두고 볼 일이다. 트래픽 게임으로 신뢰를 뒷전에 내팽개쳐온 한국 언론사들에 로봇 저널리즘은 분명 경고장일 수밖에 없다.

네티즌의견(총 2개)