트렌드

“7월, 네이버 검색이 똑똑해질 겁니다”

2013.07.03

네이버 검색이 똑똑해진다. 네이버에 “상어 작가는?”이라고 물으면 “김지우”란 대답을 바로 얻을 수 있게 된다. ‘상어 작가는?’이란 질문에서 KBS2에서 2013년 5월부터 방영하는 드라마 ‘상어’를 쓴 극작가를 묻는다는 걸 이해할 정도가 된다는 뜻이다.

지금도 네이버 검색은 만족스러운 수준이다. 사람들이 많이 찾는 정보에 한해서 말이다. 네이버에서 ‘무한도전’을 검색하면 ‘TV프로그램’이라며 장르, 몇 세 관람가인지, 처음 방송한 날짜, 방송사, 방송 시간, 시청률, 기획자, 연출자, 진행자, 공식 홈페이지와 미투데이, 방송보기 링크, 최근 방송한 날짜와 제목까지 알려준다. 이렇게 이용자가 자주 찾는 정보를 정리해 보여주는 걸 네이버는 ‘콘텐츠 검색’이라고 부른다. 앞으로 더 똑똑해진다는 검색은 기존의 콘텐츠 검색과 어떤 점이 다를까.

김원용 네이버 검색DB관리랩 박사는 “기계가 아니라 사람에게 얘기하듯 검색하고, 이용자에게 편리함을 주는 방향으로 네이버 검색이 발전하고 있다”라고 설명을 시작했다.

▲김원용 네이버 검색DB관리랩 박사

기계가 아니라 사람에게 얘기하듯 검색한다는 말을 살펴보자. 검색으로 정보를 찾는 건 꽤 복잡한 작업이다. 궁금한 걸 그대로 묻지 않고 검색엔진이 찾기 편한 방식으로 묻는 기술이 필요하다. 한 때 청소년을 대상으로 한 인터넷 검색 경진대회가 유행한 것도 바로 이 기술 때문이다. ‘숙빈이 낳은 왕’이 누구인지 궁금해도 검색 결과에는 ‘숙빈’과 ‘낳은’이나 ‘낳다’, ‘왕’이란 글자를 포함한 웹문서가 뜰 뿐이다. 검색 사이트가 ‘영조’라고 말해주진 않는다.

네이버는 검색이 ▲텍스트 기반에서 ‘음성’ 기반으로 ▲키워드 중심에서 ‘자연어’ 중심으로 ▲단방향에서 ‘대화형’으로 ▲단독 콘텐츠에서 ‘관계형 콘텐츠’로 진화하는 ‘코끼리 프로젝트’를 진행하고 있다. 그중 마지막 관계형 검색은 ‘숙빈이 낳은 아들’을 물으면 ‘영조’란 답을 얻을 수 있는 검색이다. 이 검색 서비스는 네이버 통합검색에 7월5일 적용될 예정이다.

관계형 검색에 관한 설명을 김원용 박사에게 들어보자. 이용자가 “장동건 부인은”이라고 검색하면 네이버는 “고소영”이라고 대답한다. “장동건 배우자”라고 물어도 마찬가지 답을 얻을 수 있다. 거꾸로 “고소영 남편은” 또는 “고소영 배우자는”이란 질문에는 “장동건”이란 3글자가 나온다. 네이버 검색이 이렇게 대답하려면 ‘배우자=부인·남편’이라는 걸 이해하고, 그에 대한 대답은 각각 고소영, 장동건이란 것도 알아야 한다. 이게 바로 여태 네이버가 차세대 검색을 만들려고 벼린 기술 중 하나다.

▲’브래드 피트가 출연한 로맨스 영화’를 검색했을 때(왼쪽)와 ‘은밀하게 위대하게 주인공들의 다른 작품’을 검색했을 때 모습.

관계형 검색이 적용되면 네이버는 ‘물랑루즈 감독의 최근 영화’란 질문에 ‘위대한 개츠비’ 포스터를 검색 결과 화면에 띄울 수 있다. 이용자가 ‘위대하게 은밀하게 주연 배우 나이’를 검색하면 주연배우 이름이 목록으로 나오고 그 옆에 나이를 표시한다. 네이버가 영화 정보에서 주연배우 목록을 얻고, 각 주연배우 이름을 인물 정보와 맞춰서 생년월일과 나이를 얻는다. 그 전에 ‘위대하게 은밀하게’가 영화를 말하는 것이라는 걸 이해하는 게 먼저일 것이다. 검색어로 질문 의도를 파악하는 걸 ‘자연어 이해'(Natural Language Understanding, NLU)라고 한다.

“(관계형 검색은) 정답형 검색이 발전하는 과정에서 나오는 결과물의 하나입니다. 인물, 영화, 방송 분야에 먼저 적용할 건데요. 네이버가 10년간 분야마다 쌓은 데이터를 통합하여 위와 같은 검색을 제공할 수 있습니다.”

네이버 내부에서는 위 방식으로, 서로 다른 DB에 있는 데이터를 연결하고 병합해 새로운 관계형 DB를 만드는 걸 ‘NCR(Naver Contents Repository) 매시업’이라고 부른다. 새 검색 서비스는 질문의 의미를 파악하는 자연어 이해 기술과 데이터를 뒤섞어 정리하는 NCR 매시업이 같이 작동한다. 검색엔진이 질문을 이해하지 못하거나 NCR 매시업에 데이터가 정리돼 있지 않으면 네이버 새 검색은 작동하지 않는다.

헌데 이 설명은 구글의 ‘지식그래프’ 작동 방식을 떠올리게 한다. 지식그래프는 검색 결과 화면에 ‘라이브 패널’이란 상자를 띄우고 이 안에 이용자가 검색한 키워드에 관한 정보를 요약해 보여준다. 상자 속 정보는 또 다른 정보와 연결된다.

장동건을 검색하면 고소영이 나오고, 고소영을 클릭하면 그의 출연작 ‘아들의 여자’가 나오고, ‘아들의 여자’를 클릭하면 이 드라마에 출연한 채시라가 나오고, 채시라를 클릭하면 그의 출생지 서울시가 나오고, 서울시를 클릭하면 대표 유적지인 경복궁이 나오고, 경복궁을 클릭하면 관할 구청인 종로구가 나온다. 이렇게 검색 결과는 다른 정보와 거미줄보다 복잡하게 연결된다.

구글은 이용자에게 라이브 패널에서 뜻밖의 정보를 얻는 즐거움을 누리라고 권했다. 네이버는 그 관계를 검색 질의어를 이해하고 대답하는 데 쓴다. ‘물랑루즈 감독의 최근 영화’나 ‘위대하게 은밀하게 주연배우 나이’와 같은 질문이 그 예다.

검색 DB에서 데이터끼리 관계를 파악하고, 그 관계를 링크로 잇는다는 데서 구글 지식그래프와 네이버 관계형 검색은 분명 닮았다. 다만 검색 DB를 얻는 방법에서 차이가 있다. 구글은 씨네21, 왓챠, 맥스무비, 영화진흥위원회, 무비스트, 벅스, 조선닷컴 포커스 등 외부와 제휴해 데이터를 얻었다. 위키피디아 데이터도 적극 활용한다.

네이버는 외부에서 제휴한 데이터와 10년간 만든 영화와 인물, 방송 등 자체 데이터를 함께 활용한다. “그동안 따로 관리된 각 데이터를 NCR 매시업 시스템에 한데 밀어 넣고 있습니다. 3개 분야 DB는 (항목별로) 잘 정리돼 있죠.”

영화, 인물, 방송 DB를 우선 활용하고 이후 지식백과, 윙버스, 자동차, 키친 등으로 서비스 적용 범위를 넓힐 계획이다. 영화와 인물, 방송 DB를 먼저 활용하는 건 이 3개 DB가 데이터끼리 잇기 좋게 잘 정리돼 있기 때문이다. 영화만 해도, 감독, 주연, 조연, 줄거리 등이 항목별로 정리돼 있다.

김원용 박사는 “영화나 인물, 방송 DB는 네이버를 쓰는 수많은 사용자가 잘못된 걸 신고하며 업데이트되고 있다”라며 “지식백과 콘텐츠도 사용자 신고를 받으며 정제됐다”라고 말했다.

네이버의 새 검색은 7월5일 모바일과 PC에 적용되며, 지식백과에는 NCR 매시업이 적용돼 연관 테마 목록이 자동 생성된다.

김원용 박사는 카이스트를 졸업하고 삼성SDS, 소프트와이즈, KISTI를 거쳐 2005년 네이버에 입사했다. 이후 지식백과와 뉴스 라이브러리 등 콘텐츠 관련 서비스를 맡았다.

borashow@bloter.net

인터넷, SNS, 전자책, 디지털 문화, 소셜게임, 개인용 SW를 담당합니다. e메일: borashow@bloter.net. 트위터: @borashow