트렌드

(-.-)a “네이버는 내가 ‘직장인’인지 어떻게 알았죠?”

2014.07.30

‘흥신소’는 돈을 받고 남의 뒤를 밟는 일을 주로 한다고 합니다. ‘블로터 흥신소’는 독자 여러분의 질문을 받고, 궁금한 점을 대신 알아봐 드리겠습니다. IT에 관한 질문을 아낌없이 던져주세요. 블로터 흥신소는 공짜입니다. e메일(sideway@bloter.net), 페이스북(http://www.facebook.com/Bloter.net), 트위터(@bloter_news) 모두 좋습니다.

“어떤 검색어는 ‘싱글녀’ 인기검색어고, 또 다른 검색어는 ‘직장인’이 많이 찾았다던데… 포털 사이트는 사용자를 어떻게 알아내나요?” – 안지윤 독자(서울 송파구)

포털 사이트 검색창에 짧은 검색어를 몇 개 두들겨봤다가 흠칫 놀란 경험을 한 것이 한두 번이 아닙니다. 그 검색어가 ‘싱글남’이 많이 찾은 카테고리에 있다면 더 그렇죠. ‘소오름!’ 네이버는 제가 싱글남이라는 사실을 어찌 알았을까요? 많은 독자가 네이버의 ‘그룹별 인기검색어’ 서비스의 원리를 궁금해하고 있었습니다. 질문이 들어온 이상 네이버에 물어봐야죠. 오늘의 블로터 흥신소는 포털사이트의 검색 기술과 관련된 소소한 부가기능에 관한 얘기입니다.

naver_1_600

네이버의 ‘사용자 그룹별 인기검색어’

네이버 ‘그룹별 인기검색어’…”‘군집화’가 핵심”

네이버의 그룹별 인기검색어는 총 8가지 항목으로 사용자를 분류합니다. ‘싱글남’과 ‘싱글녀’, ‘직장인’, ‘재테크족’, ‘주부’, ‘대학생’, ‘청소년’, ‘신혼부부’ 등입니다. 어떤 문구를 검색창에 넣었다가 ‘직장인’이 함께 나타나 깜짝 놀란 경험을 하신 적이 있지는 않으신지요.

“쿠키를 기반으로 사용자의 검색 키워드 패턴을 파악하는 것이 기본입니다. 어떤 검색 키워드를 주로 쓰는 이들은 ’20대 여성’이더라, 혹은 ‘싱글남’일 확률이 높더라. 하는 식으로 말이죠.”

이승진 네이버 홍보실 부장은 그룹별 인기검색어 기능의 기본을 “가정과 쿠키”라고 설명했습니다. 특정 검색 키워드를 많이 검색하는 사용자를 어떤 그룹이라고 가정하고, 이와 비슷한 검색 키워드를 자주 쓰는 이들을 쿠키(Cookie)로 분류해 검색어를 그룹화하는 방식입니다. 쿠키는 사용자가 인터넷에 남긴 발자국 정도로 이해하면 쉽습니다.

네이버 그룹별 검색키워드 기능의 ‘가정과 쿠키’를 쉽게 설명하면 다음과 같습니다. 예를 들어 축구선수 ‘손흥민’을 검색한 사용자의 쿠키를 들여다봤더니 ‘취업’과 ‘학점계산기’ 검색어를 발견했다고 가정해 봅시다. ‘손흥민’이라는 검색어 자체에서는 사용자가 어떤 그룹에 속하는 인물인지 특정하긴 어려웠지만, ‘학점’과 ‘학점계산기’에서는 검색한 이들이 대학생이라는 것을 쉽게 추측할 수 있습니다.

여기서 조금 더 나아가면, 사용자를 좀 더 구체적으로 그룹화할 수 있습니다. ‘손흥민’, ‘학점’, ‘학점계산기’를 함께 검색한 사용자가 만약 ‘병무청’이나 ‘재학생 입영신청’ 등의 검색어도 함께 검색했다면 어떨까요. ‘손흥민’과 ‘학점계산기’, 그리고 ‘병무청’ 검색어를 통해 이 사용자 집단은 남성인 대학생이라고 생각할 수 있습니다. 20대 남성 대학생이 검색어 덕분에 한 그룹으로 묶이는 셈입니다. 이와 같은 과정을 ‘유저 클러스터링(사용자 군집화)’이라고 부릅니다.

대학생 그룹뿐만 아니라 직장인이나 주부와 같은 그룹도 마찬가지 과정으로 묶입니다. 이제 남은 일은 이들이 관심을 갖고 많이 검색한 검색어 순위를 보여주는 일뿐이죠. 사용자가 직장인인지, 혹은 주부인지 네이버에 직접 알리지 않아도 검색어를 바탕으로 대강의 사용자 그룹을 추측할 수 있는 것은 이 같은 기술 덕분입니다.

7월29일 오후 4시40분 현재 네이버 검색창에 수퍼카 ‘아우디 R8’을 검색어로 넣어 봤습니다. 그룹별 인기검색어 항목으로 ‘직장인’ 그룹이 나타나는군요. ‘아우디 R8’을 검색한 이들 중 다수가 직장인인 모양입니다. 어떤가요? 네이버가 맞췄나요? 물론, 아닐 수도 있습니다. 네이버의 그룹별 인기검색어 서비스는 쿠키를 바탕으로 한 가정일 뿐이니까요.

daum_1_600

다음의 ‘소셜픽’

다음의 ‘소셜픽’…”가중치에 따라 달라요”

다음에서는 검색어 순위를 그룹으로 나눠 보여주지는 않습니다. 대신 ‘소셜픽’ 검색어 순위를 서비스 중입니다. 소셜픽은 말 그대로 소셜네트워크에서 사람들의 입에 많이 오르내린 키워드를 보여주는 서비스입니다. 트위터나 ‘마이피플’, 페이스북 소셜댓글 등이 여기에 해당합니다. 소셜픽을 순위로 정렬해주는 기준은 검색량과 트윗 수, 댓글 수죠. 검색량은 다음에서의 검색량을 말하는 것이고, 트윗 횟수는 해당 검색어와 관련된 트윗 개수를 뜻합니다. 댓글은 웹페이지나 기사 등에 달린 댓글 수를 기반에 두고 있습니다. 또, 소셜댓글도 포함됩니다.

예를 들어 현재 다음의 소셜픽에서 가장 많은 관심을 받고 있는 검색어는 ‘유대균 박수경 검거’입니다. 검색량에서 32만여건, 트윗 횟수에서 300여건, 댓글에서 9천여건의 관심을 받아 1위에 올랐습니다. 하지만 다음의 소셜픽은 단순히 검색량이 많다고 검색어를 높은 순위에 올려주지는 않습니다. 검색량과 트윗 횟수, 댓글 수 각각의 항목에 따라 별도의 가중치가 있습니다.

이를테면, 이 시각 현재 소셜픽 인기검색어 중 하나인 ‘국정원 세월호’는 검색량 7만여건을 기록해 4위에 올랐습니다. 하지만 5위에 오른 ‘대통령 휴가’의 검색량은 7만7천여건 입니다. 5위의 검색어가 4위와 비교해 검색량에서 7천여건이나 앞섰지만, 순위가 낮은 까닭은 바로 트윗 횟수 때문입니다. 대통령 휴가 검색어가 139번 트윗 되는 동안 국정원 세월호 검색어는 727회 트윗 됐습니다. 적어도 트위터 사용자는 대통령의 휴가보다는 세월호 사건에 더 관심이 많았다는 뜻이 되겠죠. 국정원 세월호 검색어가 대통령 휴가보다 소셜픽에서 높은 순위를 차지한 까닭은 트위터 횟수에서 가중치를 받은 덕분입니다.

다만, 다음은 “가중치가 어떤 항목에 어떻게 적용되는지는 비밀”이라고 설명했습니다. 업체의 검색 기술과 개발 경험이 녹아있는 부분인 만큼 외부에 쉽게 알려줄 수는 없다는 뜻입니다.

강유경 다음 매니저는 “현재 자동 로직으로 가중치가 적용되고 있고, 소셜픽 카테고리별로 각기 다른 가중치가 적용되는 것은 아니다”라고만 답변했습니다. 소셜픽의 ‘종합’과 ‘스포츠’, ‘연예’ 등 항목이 모두 같은 가중치로 동작한다는 설명입니다.

sideway@bloter.net

기술을 이야기하지만, 사람을 생각합니다. [트위터] @Sideway_s, [페이스북] facebook.com/sideways86, [구글+] gplus.to/sideway [e메일] sideway@bloter.net