close

기사 쓰는 로봇, 어떻게 작동될까

가 +
가 -

로봇이 기사를 작성하는 ‘로봇 저널리즘’ 시대가 성큼 다가왔다. 자동 기사 작성 시스템을 갖추고 적용한 사례도 적지 않다. ‘LA타임스’가 대표적이다. ‘LA타임스’는 지난 3월 로봇이 작성한 지진 속보 기사를 내보내 전세계 언론인들로부터 주목을 받기도 했다. 그래서인지 일부 연구자들 사이에선 “마침내 로봇 저널리즘이 주류로 진입했다”는 평가가 제기되기도 한다.

Automated Insights - High Quality Automated Content Services

△ 오토메이티드 인사이트의 자동 기사 작성 시스템

기술력을 갖춘 기업도 속속 등장하고 있다. 미국 노스웨스턴대 내러티브 사이언스가 주도하는 가운데 오토메이티드 인사이트, 이지옵, 판타지 저널리스트 등 스타트업 기업도 속속 경쟁 대열에 가세하고 있다. CBS 인터랙티브 등 주류 언론사들도 관련 기술의 특허를 출원하는 등 발빠르게 움직이고 있다. 이제 로봇 저널리즘은 연구 대상을 넘어 하나의 산업으로 성장해갈 조짐을 보이고 있다.

로봇 저널리즘은 자동 기사 작성 알고리즘을 갖춘 소프트웨어를 가리킨다. 데이터를 수집, 분석해 이를 기사형 문장으로 표현하고 실제 언론사 홈페이지에 게시까지 하는 일련의 과정을 처리하는 프로그램을 일컫는다. 한국에선 아직 연구조차 시도되지 못하고 있는 분야다.

그동안 로봇 저널리즘은 핵심 알고리즘이 특허에 묶여 있어 구체적인 구현 방식이 잘 알려지지 않았다. 미 콜럼비아 저널리즘스쿨 토우센터 닉 디아카풀로스 연구원은 그동안 베일에 감춰졌던 자동화 기사 작성 알고리즘의 작동 과정을 특허 등을 분석해 지난 6월12일 토우센터 블로그에 소개했다.

그에 따르면 로봇 기사 작성 기술은 대체로 5가지 단계로 구성된다. 첫 번째는 데이터를 수집, 분석하는 단계이다. 로봇 저널리즘은 주로 표준화된 데이터가 풍부한 영역에서 활용된다. 예를 들면, 스포츠나 날씨, 증권 분야가 대표적이다. 표준화된 데이터를 얻기가 쉽고 그 형태도 비교적 깨끗한 것이 특징이다.

두 번째는 데이터에서 가치 있는 뉴스거리를 찾아내는 과정이다. 여기에는 통계적 방법론이 개입된다. 예를 들어 스포츠 뉴스에서 가장 의미 있는 정보는 통계적 일탈 지표를 먼저 확인하는 것이다. 최소치나 최고치 혹은 전 경기 대비 큰 변화를 보인 변수를 알고리즘은 계산해내야 한다. LA 다저스 투수 류현진 선수의 볼넷이 전 경기 대비 100% 증가했다는 데이터가 수집됐다면 뉴스 가치를 지닌 데이터로 분류하게 된다.

셋째는 어떤 각도로 기사를 작성할지 기사의 관점을 확정하는 단계다. 일반적으로 기자들이 제목을 뽑거나 기사의 주제를 확정하는 과정에 해당하는데, 이 또한 수집된 데이터의 분석을 통해 해결한다. LA 다저스가 슬럼프에 빠졌다거나 홈 경기 승률이 오락가락한다거나 하는 시각을 알고리즘이 데이터의 비교 분석을 통해 추출해낸다. 닉 디아코플로스 연구원은 “단일 기사에 대한 관점은 중요도에 따라 1~10까지 분류가 된다”고 설명했다.

다음으로는 최종 확정된 시각에 맞게 세부 기사를 배열하는 단계다. LA 다저스가 슬럼프에 빠졌다는 주제가 확정됐다면 그에 맞춰 근거가 되는 선수의 데이터를 제시하고 연결시킨다. 데이터만 풍부하다면 이 단계에서 외부 데이터를 더 끌어올 수 있고, 인용구도 만들어낼 수 있다고 한다. 데이터를 풍성하게 결합하는 프로세스가 진행되는 단계라고 요약할 수 있다.

마지막으로 자연어로 기사를 제작하는 단계이다. 닉 디아카풀로스 교수는 전체 과정 중에 가장 덜 복잡한 단계라고 언급했다. 확정된 관점, 연결된 데이터로 영어 문장을 구성하는데 기사 관점과 핵심 요소에 따라 반복적으로 재작성된다. 이렇게 제작된 영어 문장들은 서로 이어붙이기가 자동으로 진행되면서 완성된 하나의 기사로 탄생하게 되는 것이다.

닉 디아코풀로스 연구원은 “기사는 여러 설정에 의해 톤을 조정할 수도 있다”고 말했다. 비관적 기사, 심드렁한 형태, 신뢰를 강조하는 기사 등 설정된 논조에 따라 알고리즘은 선택하는 영어 단어도 바뀐다는 것. 이지옵에서 개발한 분석기를 활용하면 동일 단어를 유사 단어로 대체할 수도 있다는 것이 그의 설명이다.

그는 로봇 저널리즘 기술의 핵심은 뉴스 가치를 판단하는 알고리즘에 달려 있다고 강조한다. 기사 작성 템플릿 등은 핵심이 아니라는 것이다. 단순히 데이터 내 큰 편차에 주목해 뉴스 가치를 측정하는 현재의 알고리즘으로는 보다 폭넓은 관점을 담아내기 힘들다고 닉 디아코풀로스 연구원은 결론을 내렸다.

네티즌의견(총 11개)