네이버 ‘검색’ 손질…“원본 문서 먼저 뜨도록”

가 +
가 -

네이버는 원본 문서를 우선 노출하도록 검색 서비스를 개선한다고 11월29일 밝혔다.

‘원본’ 문서는 하나 뿐이다. 둘 이상일 순 없다. 그 하나뿐인 원본 문서를 찾기 위해 네이버는 소나(SONAR, Source Navigation And Retrieval)라는 검색 알고리즘을 적용할 계획이다.

네이버는 “원본문서를 정확하게 판독하기 위한 노력을 해온 지 오래됐다”라며 이는 “모든 검색의 가장 큰 숙제”라고 말했다. 그러면서 소나는 이전까지 있던 원본을 찾아주는 알고리즘을 심화한 것이라고 설명했다.

소나는 네이버가 수집한 웹문서 중에서 원본 문서를 찾아내어 검색 결과 최상단에 보여주는 게 특징이다. 문서 A를 인용해 글쓴이가 의견을 덧댄 B라는 문서가 있다고 치자. 그리고 원본인 A를 인용한 문서, B를 인용한 문서도 있다. 소나는 이 안에서 A를 찾아내서 검색 결과에 A를 보여준다.

원본이어도 사용자에게 도움이 될 만한 중요한 문서여야 할 게다. 그래서 소나의 목표는 문서 사이의 인용 관계와 문서 중요도를 분석해 사용자가 찾으려는 정보를 담은 원본 문서를 뽑아준다. 문서의 중요도는 얼마나 인용됐는지와 같은 정보로 파악한다.

이와함께 네이버는 원본일 가능성이 높은 웹문서를 수집하는 방향으로 문서수집 시스템 전반을 개선한다고 밝혔다. 검색로봇이 수집한 문서의 본문을 정확하게 추출하고 분석하는 연구를 병행할 계획이다. 또, 기술적으로 검색 서비스를 개선하는 것과 별도로 전담 고객센터를 운영한다.

원본반영 신청센터는 ▲원본문서 검색 반영 요청 ▲검색 결과에 원본문서 반영 요청 ▲검색 결과 내 원본문서 노출순서 등의 문의를 전담하여 처리한다. 고객센터에 있는 ‘통합검색 메일문의’로 가면 이용할 수 있다.

네이버 이윤식 검색본부장은 “검색결과에서 원본문서의 우선 노출을 위한 기술적, 관리적 개선 노력에 지속적으로 힘쓰겠다”고 밝혔다.

네이버는 소나를 검색 서비스에 적용할 구체적인 시기는 밝히지 않았다.

네이버 검색 알고리즘 소나 수식

▲네이버의 검색 알고리즘 ‘소나’의 수식