close

언론진흥재단, 빅데이터 뉴스 분석 시스템 공개

가 +
가 -

한국언론진흥재단이 1월19일 오전 10시 프레스센터 19층 기자회견장에서 언론사 기자를 대상으로 ‘뉴스 빅데이터 분석시스템 및 서비스 설명회’를 개최했다. 언론진흥재단은 이날 기자회견에서 솔트룩스와 함께 만든 뉴스 빅데이터 분석시스템 ‘빅카인즈(BIG Kinds)’를 공개했다. 빅카인즈는 기존에 언론진흥재단이 운영하던 뉴스 공공DB 카인즈(KINDS, Korean Integrated News Database System)를 바탕으로 새롭게 구축한 서비스다.

bigkinds (1)

빅카인즈 시스템 개념도(사진 : 한국언론진흥재단 발표자료

빅카인즈는 언론사의 디지털 저널리즘을 지원하는 방안의 하나로 개발됐다. 한국언론진흥재단은 “빅데이터 분석 기술을 접목해 기존의 단순 뉴스검색에서 한층 더 진보한 뉴스콘텐츠 활용방안을 모색”하고, “데이터 저널리즘을 구현하기 위해 언론사 기자가 활용할 수 있는 뉴스 분석 도구를 개발했다”라고 빅카인즈 개발 배경을 설명했다.

빅카인즈 서비스는 2가지로 제공된다. 하나는 일반인용이다. 뉴스 데이터를 분석한 콘텐츠를 소비하는 형태다. 다른 하나는 언론인이나 전문가를 위한 버전이다. 좀 더 상세한 분석을 위해 조건을 설정할 수도 있고, 분석한 자료를 내려받을 수도 있다. 시각화 도구도 제공한다.

빅카인즈는 25년치 뉴스 데이터를 보유하고 있다. 실시간으로도 뉴스가 계속 들어오고 있다. 뉴스가 들어오면 3단계에 걸쳐 내용을 분류하고, 중복체크를 한 뒤 뉴스 형태를 표준화시켜서 저장한다.

이렇게 저장된 데이터를 바탕으로 뉴스를 검색하거나 텍사노미를 활용해서 구문 패턴을 분석할 수 있다. 메타 정보를 추출해서 활용할 수도 있다. 빅카인즈는 인물, 기관, 장소처럼 의미가 있는 개체명을 분석한다. 이를 바탕으로 이슈 키워드도 분석할 수 있게 만들어져 있다. 키워드를 중심으로 네트워크 분석도 가능하다. 빅카인즈는 해당 이슈와 조응하는 과거의 이슈를 다룬 기사도 타임라인 형식으로 보여준다.

이렇게 추출해서 분석한 정보를 ‘레인보우’라는 빅카인즈 자체 시각화 도구를 이용해서 시각화하고 퍼블리싱한다. 레인보우는 D3기반이다. 레인보우로 만든 인터랙티브 차트는 기사에 임베드해서 활용할 수 있다.

bigkinds (3)

전문가 도구를 활용한 뉴스 분석 절차, 사진 = 한국언론진흥재단 발표자료

빅카인즈 전문가 도구

빅카인즈 활용의 핵심은 ‘텍사노미’다. 텍사노미는 맥락 속에서 배치될 수 있는 단어다. 이 텍사노미를 연산자(AND, OR)로 연결해서 검색에 활용한다. 예컨대 ‘한국 대통령’이라는 텍사노미를 만들어두고, 한국 대통령 텍사노미에 역대 한국 대통령 이름을 모두 저장하는 식이다. 텍사노미를 활용해서 나름대로 단어 간 분류체계를 만들 수 있다. 자동차 관련 키워드를 묶어둘 수 있고, 과일을 묶어둘 수도 있다.

더 읽어보세요!

이렇게 저장한 텍사노미는 나중에 필요할 때 추출해서 활용한다. 텍사노미를 기반으로 자주 사용하는 질의어 목록을 구성해서 관리할 수 있다.

정보 추출 기능은 텍스트에서 의미 있는 특정 정보만 따로 볼 수 있는 기능이다. 예컨대 프로야구의 경우 승패나 방어율, 타율 등만 뽑아서 볼 수 있다. 유가 관련 기사라면 환율, 기름의 메타데이터만 뽑아서 내려받을 수도 있다.

빅카인즈에서는 구문 패턴, 인용문 검색 등의 기능도 지원한다. 구문 패턴은 정규표현식과 유사하게 구문 추출 패턴을 정하고, 조건을 입력해서 정보를 추출하는 방식이다. 다만 일반적인 취재기자에게 정규표현식은 익숙하지 않기 때문에 어려울 수 있다. 언론진흥재단은 교육도 적극 지원할 예정이다.

구문 패턴 입력 예 : type=브렌트유|WTI’ANY’배럴 당 price=’KORNUM’달러

인용문 검색은 뉴스 내에 따옴표로 구성된 인용문을 대상으로 검색하는 도구다. 어떤 인물이나 기관의 인용문만 뽑아내는 기능이다. 인용문의 발화원인 정보원을 대상으로 검색할 수도 있다.

bigkinds (5)

사진 = 한국언론진흥재단 발표자료

bigkinds (4)

사진 : 한국언론진흥재단 발표자료

구글트렌드나 최근 네이버에서 제공하는 데이터랩의 솔루션과 유사한 형식의 트렌드 분석도 가능하다. 키워드를 넣었을 때 발생 빈도를 가지고 시계열적으로 보여줄 수 있다. 예컨대 뉴스에서 ‘아이폰’과 ‘갤럭시’의 출현 빈도를 비교할 수 있다. 좀 더 본격적으로 상관분석, 연관성 분석을 하려는 기자나 연구자를 지원하기 위해서 SPSS나 R에서 사용할 수 있는 데이터 파일 형식으로도 내려받을 수 있게 만들었다.

언론사는 오픈 API를 활용해 자사 도구에 붙여서 쓸 수도 있다. 통합검색, 키워드 트렌드, 주요이슈, 네트워크 분석, 워드 클라우드 분석의 총 5가지다.

정보 활용은 충분하진 않다. 분석 과정에서 나오는 메타정보는 그냥 써도 문제가 없지만, 타사 기사를 자유롭게 활용할 수는 없다. 협의가 필요한 부분이다. 뉴스 텍스트 분석이라는 한계도 있다. 자연어처리는 무척 어려운 분야 중 하나다. ‘기부’라는 키워드를 찾고 싶었는데 ‘안기부’가 나올 수도 있다. 언론진흥재단은 기술고도화를 통해 이런 문제들을 풀어갈 예정이다.

bigkinds (6)

사진 = 한국언론진흥재단 발표자료

아직 세부적으로는 매끄럽지 못한 부분도 있고, 개선해야 할 지점도 많이 보인다. 하지만 뉴스를 깔끔하게 정제해서 비교적 쉽게 데이터를 분석할 수 있게 만들었다는 점은 긍정적이다. 비교적 최근에 등장한 포털이 제공할 수 없는 오래 전 정보도 얻을 수 있다. 언론진흥재단은 해방 이후 모든 기사를 분석할 수 있는 기반을 조성할 계획이다. 뉴스가 가지는 기록으로서의 가치가 좀 더 부각될 수 있는 계기다.

언론진흥재단은 빅카인즈의 고도화를 통해 현재의 문제점을 풀어나가고, 더 많은 기능을 구현할 수 있게 만들 심산이다. 유료 서비스도 고민하고 있다. 지금은 수백, 수천건 단위의 구문패턴만 처리할 수 있지만 향후 수만건 단위로 확장할 계획이다. 언론진흥재단은 뉴스 외 소셜미디어 분석 기능을 추가하고, 외부의 공공 DB를 연계하는 방안도 구상 중이다.

네티즌의견(총 3개)