네이버는 어떻게 수십억건 웹문서 수집할까

가 +
가 -

검색엔진의 첫 출발점은 문서 수집이다. 실시간으로 생산되는 수천만건의 문서를 빠른 속도로 수집해 필요한 정보를 추출하는 작업은 고도의 기술력을 요구한다. 랭킹 알고리즘과 색인 기술만큼 관심을 못 받지만 이용자들의 요구 사항이 많은 영역 가운데 하나이다. “왜 내 웹사이트는 네이버에서 검색이 안 되나요?”라는 질문은 검색엔진의 수집 작업과 관련이 깊다.

네이버가 웹 검색을 개편했다. 수집과 랭킹, 색인, 플랫폼까지 모조리 업그레이드했다. 웹검색은 그간 네이버 통합검색 페이지에서 비교적 외진 곳에 위치해 이용자들의 관심을 덜 받은 영역이다. “검색 기술의 핵심이 웹 검색”이라며 네이버가 이 영역에서 기술력을 보여주지 못하고 있다는 비판을 제기하는 까닭이다. 이는 늘 구글과 비교당하는 분야이기도 하다.

웹문서 검색은 뉴스, 블로그, 지식iN 검색 등과 달리 전세계 인터넷 영역 모두를 포괄해야 한다. 한정된 웹사이트를 대상으로 한 검색 영역과는 수집 규모 자체가 다르다. 그만큼 고도의 기술력으로 접근해야 하는 검색 영역이다. 그 가운데 문서 수집 기술은 잘 드러나진 않지만 사용자의 필요와 직접 맞닿아 있어 다루기 까다롭다. 수집 속도가 느리면 원성을 사기 일쑤고 수집 횟수가 늘어나면 트래픽 높아진다는 비판이 터져나온다.

naver_crawl

지난 8월21일 서울 역삼동 소재 네이버 파트너스퀘어에서 네이버 웹검색 개편 기자 스터디가 진행됐다. 원성재 네이버 문서수집랩장이 수집 기술 부분을 설명하고 있다.

문서 수집 여부 ‘사용자 선호도’에 맡긴다

8월21일 네이버가 기자들을 대상으로 웹검색 개편에 관한 설명회를 열었다. 이 자리에서 네이버는 수집, 색인, 플랫폼 전반에 대해 큰 변화를 시도했다고 밝혔다.  현재 네이버는 2개의 크롤링 검색 로봇을 전세계 웹에 풀어놓고 문서를 수집한다. 네이버봇(Naverbot)과 예티(Yeti)다. 크롤링 검색 로봇은 생성된 웹문서를 긁어오는 역할을 맡는 로봇이다. 이들 로봇은 웹에 널려 있는 문서를 수집한 뒤 필요한 정보를 추출해 검색 시스템에 보내주는 임무도 맡는다. 예를 들어 HTML 코드로 작성돼 있는 문서에 들어가 제목과 본문, 태그, 이미지 등의 유익한 정보를 정제해 빼내가는 작업을 이들 로봇이 수행한다.

문제는 여기서부터 발생한다. 과연 전세계 모든 문서를 수집하는 것이 효율적일까. 원성재 네이버 문서수집랩장은 “문서의 생산이 수집 속도를 넘어섰다”고 표현했다. 웹이라는 거대한 생태계에서 매일매일 문서가 생산되는 속도가 검색 로봇으로 수집할 수 있는 속도를 훌쩍 넘어버린 것이다. 게다가 폭증한 문서는 페이스북, 트위터, 유튜브 같은 특정 글로벌 웹사이트에 집중돼 있다. 원성재 네이버 수집랩장은 “문서 생산이 전 세계 웹사이트에서 골고루 중가한 것이 아니라 소수 상위 글로벌 사이트 내에서 폭증하다보니 도저히 가져올 수 없게 됐다”고 말한다.

네이버는 이에 대한 대안으로 ‘사용자 선호도’를 중심으로 수집 대상을 선별하는 방식을 적용했다. 전세계 웹문서를 모두 긁어오는 ‘무모함’을 포기하고 사용자가 자주 찾고 좋아하는 문서를 중심으로 우선 수집하는 방식을 택한 것이다.

이를 위해 네이버는 사용자가 네이버 검색에서 자주 찾는 웹사이트 혹은 웹문서 내에 자주 인용되는 링크 등 사용자의 클릭 로그 데이터를 분석한다. 수집된 데이터를 바탕으로 수집 효율(Crawling Efficiency)을 분석해 계산도 한다. 일종의 수집 효율 측정 기계다. 사용자의 행위에 맞춰서 지능적으로 수집을 제어하는 기술이 이번 개편에 도입됐다.

문서 검색 저장에서 스트리밍으로

naver_crawl2

지난 8월21일 서울 역삼동 소재 네이버 파트너스퀘어에서 네이버 웹검색 개편 기자 스터디가 진행됐다. 원성재 네이버 문서수집랩장이 수집 기술 부분을 설명하고 있다.

여기에 ‘스트리밍’이라는 개념도 더했다. 사용자들은 2~3년과 현재 자주 이용하는 웹사이트가 확연히 다르다. 2~3년 전까지만 하더라도 싸이월드를 자주 방문했다면 지금은 페이스북을 더 자주 방문한다. 만약 지금 네이버 검색 로봇이 싸이월드 문서 수집에 더 많은 에너지를 쏟고 있으면 이건 낭비가 된다. 수집 효율을 따질 수밖에 없다.

네이버 웹검색은 이를 위해 저장이라는 개념을 버리고 스트리밍 구조로 전환했다. 과거 싸이월드 문서 수집에 집착하는 방식을 고수하지 않고 바로 현재 시점에서 사람들이 선호하는 웹사이트의 문서를 더 빨리 발견해 수집 로봇을 내보내겠다는 의미다. 수집 효율성을 높이고 사용자의 이해를 더 빨리 반영하겠다는 의지를 기술적으로 표현한 것이라고 보면 된다. 원 랩장은 “스냅샷의 철학으로 저장 개념을 버리고 과거에 무엇을 가져왔는지 보지 않기로 했다”고 설명했다.

수집 방식의 스트리밍 구조 전환은 글로벌 차원의 문서 수집 전략을 상징한다. 사용자들이 글로벌 웹사이트로 더 많이 이동하면 할수록 네이버가 수집하는 글로벌 웹문서 수도 함께 증가한다. 사용자가 글로벌화하면 네이버 웹문서 검색도 덩달아 글로벌화하는 구조다.

다만 현재 수준에서는 영문 웹문서 검색이 다소 취약할 수밖에 없다. 그 이유에 대해 원 랩장은 “네이버 사용자는 한국어 문서를 더 선호하고 국내 웹사이트를 더 선호한다”라고 답변했다. 최악의 경우 영문 웹문서는 구글에서 검색하고 한글 웹문서는 네이버로 검색하는 사용자 패턴이 고착화하면 네이버의 영문 웹문서 검색의 질적 도약은 요원할 수도 있는 얘기가 된다. 원 랩장은 “요즘 사용자 트렌드도 외국 쇼핑몰을 많이 본다”라며 “해외 플랫폼도 많이 가고, 영어 문서 질의도 늘고 있다”고 덧붙였다.

웹문서 수집의 골칫거리, 모바일 앱

이러한 검색 수집 기능의 확장에도 고민거리는 있다. 모바일이다. 특히 모바일 네이티브 앱이 문제다. 웹검색의 수집 로봇은 PC웹 기반 로봇(PC Agent)이라 카카오톡과 같은 모바일 앱 내 문서는 접근할 방법이 없다. PC용 웹사이트는 없고 모바일웹만 존재하는 문서도 수집이 어렵다. 세상엔 존재하지만 네이버 검색에는 존재하지 않는 문서다.

이를 풀기 위해 네이버 검색은 웹마스터도구를 개발했고, 신디케이션 API도 업그레이드할 계획이다. 모바일웹만 운영하는 페이지는 네이버 웹마스터도구에 등록하면 로봇을 보내 수집해올 수 있도록 하고 모바일 앱은 앱 링크를 던져 더 자주 방문할 수 있도록 유도하겠다는 심산이다. 원성재 랩장은 “크롤봇이 가지 못하기 때문에 신디케이션을 써줘야 한다”라며 “신디케이션 스펙 확장을 진행 중에 있다”고 말했다.

웹검색은 구글과 네이버가 직접적으로 비교되는 검색 기술 영역이다. 그런 만큼 바라보는 눈도 많아지기 마련이다. 네이버 쪽도 잘 알고 있다. 이에 대해 이윤식 검색본부장은 “네이버가 웹검색을 못한다? 전체 검색 결과를 놓고 비교하는 게 맞다고 본다”며 자신감을 드러냈다.