뉴스 빅데이터 분석 시스템 ‘빅카인즈’ 공식 출범

가 +
가 -

4월19일, 한국 프레스센터 20층에서 한국언론진흥재단(이하 언론진흥재단) 뉴스 빅데이터 분석 시스템 ‘빅카인즈’의 공식 출범식이 열렸다. 이날 행사장에는 김종덕 문화체육관광부 장관과 이병규 한국신문협회 회장, 유선영 한국언론정보학회 회장 등 언론계 인사들이 자리했다.

bigkinds

사진 = 한국언론진흥재단

빅카인즈는 기존에 언론진흥재단이 운영하던 기사 정보 서비스 ‘카인즈'(KINDS, Korean Integrated News Database System)를 바탕으로 새롭게 구축한 서비스다. 기존 카인즈가 뉴스 저장에 그쳤다면, 빅카인즈는 뉴스를 재가공이 가능한 데이터가 될 수 있게 체계적으로 정리하고, 수집한 데이터를 바탕으로 일정 수준의 분석이나 시각화까지 가능하게 했다는 게 특징이다.

김병호 한국언론진흥재단 이사장은 한국이 모바일·디지털 시대의 뉴스 소비에서 가장 앞서나가는 점을 이야기하며, 향후 빅카인즈의 쓰임새를 낙관적으로 전망했다. 김병호 이사장은 “빅카인즈를 통해서 언론사는 고품격 심층 뉴스를 제작할 수 있고, 정부 공공 기관은 정책자료에 활용할 수 있으며, 기업과 스타트업은 새로운 콘텐츠 상품을 만들어 낼 수 있을 것”이라고 말했다.

또한 포털 중심의 뉴스 소비 행태를 언급하며, 빅카인즈로 포털 중심 뉴스 소비 패턴을 개선할 수 있기를 기대하기도 했다. 모바일·디지털 뉴스 소비는 높지만, 수준이 썩 만족스럽지 않다는 뉘앙스다. 김병호 이사장은 인사말 말미에 “빅카인즈의 등장으로 인해 포털 중심의 단순한 뉴스 소비에서, 뉴스 분석이 가능한 품질 높은 뉴스 소비로 변화할 것으로 예상한다”라고 말했다.

 뉴스 DB 바탕으로 표준화 및 형태소 분석 거쳐

많은 양의 뉴스가 매일 빠르게 생산되고 있을 뿐만 아니라 비정형 데이터로 그 형태가 다양하여 수집, 관리, 분석이 어렵다. 하지만 뉴스는 매일 정치, 경제, 사회, 문화 등 사회 전반의 이슈에 대해 풍부한 사실과 의견을 담고 있어 빅데이터 분석을 통해 그 가치를 극대화할 수 있을 것으로 기대된다. – 뉴스 빅데이터 분석시스템 연구, 한국언론진흥재단, 박대민 외 2명

현재 축적된 뉴스량은 3천만건이다. 데이터는 하루 평균 1만5천건씩 증가하고 있다. 기사는 비정형데이터지만, 비교적 일정 형식을 갖추고 있다는 특징이 있다. 자연어 처리가 어렵지 않아 키워드를 뽑아내기도 용이하다. 뉴스의 데이터화는 크게 3단계를 거쳐 이뤄진다.

블로터 플러스 '지식 아카이브'

언론사에서 뉴스를 생성하면 뉴스 수집 시스템이 자동으로 뉴스를 뉴스 통합 DB에 넣는다. 여기서 뉴스 카테고리가 자동으로 분류되고, 뉴스 내 핵심 키워드가 추출되는 등 ‘표준화’ 작업을 거친다.

이 표준화된 뉴스 데이터를 바탕으로 형태소 분석, 개체명 분석, 네트워크 분석이 이뤄진다. 형태소는 문장의 최소 단위인 ‘형태소’ 단위로 단어를 분석하는 기술이고, 개체명 분석은 기사 속 핵심 요소인 인물·기관·장소·사건 등의 단어를 이식하는 기술이다. 네트워크 분석인 기사 속 핵심 요소와 특정 키워드 간 관계를 분석할 때 쓴다.

이렇게 분석이 이뤄진 뉴스 데이터의 개체명, 메타데이터가 저장되면 활용할 준비가 끝난다. 일반인들은 키워드 검색, 뉴스 분석 서비스 등을 활용할 수 있고 언론사, 학계 등이 사용하는 전문가용 분석 서비스는 뉴스 메타데이터 활용 및 시각화도 가능하다.

bigkinds

사진 = 한국언론진흥재단

학술 연구용 자료로 활용 기대

빅카인즈는 특히 학술적 연구의 경우 상당한 도움이 될 것으로 보인다. 그간 뉴스를 대상으로 한 많은 연구에서는 분석 대상인 기사 자료를 수집하기 위해 네이버 등에 의존하곤 했는데, 이 문제를 어느 정도 해결해 줄 수 있을 것으로 보인다. 다만 현재 빅카인즈의 데이터는 신문기사만 해당한다. 방송사나 통신사 기사는 수집 및 분석 대상이 아니라는 점은 아쉬운 대목이다. 언론진흥재단은 현재 이 문제를 해결하기 위해 언론사와 협의 중이며, DB 범위를 차츰 확대해 나갈 예정이다.

예컨대 ‘금융위기’를 검색어로 넣으면 언론사가 중시하는 금융위기 관련 전문가들의 명단을 순위대로 받을 수도 있고, 핵심 기관들을 파악할 수도 있으며, 한국은행장과 같은 주요 정보원의 역대 발언이나 기관별 입장을 추려서 볼 수도 있다. 박대민 외, 앞의 글 p.23

기사 작성의 경우 예전 기사의 데이터만을 추려서 현재에 활용하는 방법도 있지만, 최근 해외에서 주목받고 있는 ‘스트럭처 저널리즘'(Structured Journalism) 맥락에서의 활용 방안도 기대된다. 스트럭처 저널리즘은 기사를 데이터 단위로 쪼갠 뒤, 다양한 방식으로 재구성하는 저널리즘의 개념이다.(박대민 외, 앞의 글 p.28) 스트럭처 저널리즘은 기사가 설명하는 배경을 좀 더 큰 맥락 속에서 이해하기 위한 시도다. 빅카인즈는 사건, 장소, 인물 등으로 분석된 기사 데이터를 재배열하기 쉽게 설계됐다는 장점이 있다.

언론진흥재단은 빅카인즈의 활성화를 통해 ▲대규모 뉴스 데이터 분석을 통한 사회변화 예측 연구 및 정책 입안 등 기여 ▲빅데이터 분석기술을 활용한 데이터 저널리즘 등 뉴스품질 제고 ▲뉴스 활용가치에 대한 사회적 인식 제고를 통한 언론사 및 콘텐츠 스타트업의 수익모델 창출 등을 기대한다고 밝혔다.