네이버는 어떻게 스팸을 처리하고 있을까

가 +
가 -

스팸은 잘 되는 서비스의 상징이다. 사람이 모이지 않는 사이트에는 스팸이 없다. 국내 최대 포털인 네이버가 항상 스팸과의 전쟁을 치르고 있는 이유기도 하다. 12월7일 네이버 파트너스퀘어에서 개최된 ‘2017 네이버 웹 커넥트데이’ 3번째 세션에서는 강성구 네이버 웹스팸 엔지니어가 ‘웹 스팸과의 전쟁 : 나쁜놈들의 전성시대’를 주제로 발표에 나섰다. 강성구 엔지니어는 “잘 되는 서비스에는 항상 스팸이 나타난다”라며 “스팸 처리하기 위해서는 적절한 정책 수립과 고도의 기술 개발이 필요하다”라고 말했다.

강성구 네이버 웹스팸 엔지니어(사진=네이버)

스팸 처리는 서비스 신뢰를 높인다

“서비스의 흥망성쇠를 결정하는 건 스팸입니다. 사실 ‘흥성’까지는 아니고 ‘망쇠’는 맞는 것 같습니다.”

‘역사적으로’ 스팸이 서비스를 망친 사례는 심심찮게 찾아볼 수 있다. 강성구 엔지니어는 스팸에 제대로 대응하지 못한 대표적인 사례로 3가지를 꼽았다.

  1. 텀블러 : 스팸 무시하고 대응 안 하다가 사용자 원성이 많아졌다. 사람들은 ‘텀블러=19금’이라고 생각하게 됐다. 신규 블로거가 안 들어가고, 서비스 품질 나빠졌다.
  2. 070 : 070으로 전화했을 때 전화 받는 사람 없다. 인터넷전화 국번이었던 070은 스팸의 상징이 됐다.
  3. 한메일 : 초기에만 해도 메일 서비스는 한메일이 잡고 있을 거라고 생각했지만 스팸 문제를 제대로 처리하지 않았다. 기술적인 문제로 푸는 게 아니라 ‘온라인 우표제’ 같은 제도를 도입해 해결하려고 했다. 대규모 메일 발송의 경우 돈을 지불하게 만들어 해결하려는 정책이다. 스팸 발송자들은 온라인 우표제를 우회하고, 정상적으로 사용하는 업체는 회원가입 등에서 한메일을 받지 않았다. 결국 사용자들이 네이버 메일로 옮기는 계기가 됐다.

강성구 엔지니어는 “스팸처리는 서비스 업체에 신뢰를 더해준다”라며 “급격하게 성장은 못 해도 안정적으로 성장할 수 있는 원동력이 된다”라고 말했다.

“네이버에서 스팸은 25-30% 수준”

검색엔진은 사용자에게 콘텐츠를 보여주기 위해 로봇으로 웹 문서를 수집한다. 웹에는 엄청난 문서가 존재하고, 스팸 문서의 수도 엄청나다. 강성구 엔지니어는 “수집해 온 문서 중 최대 40%까지 스팸으로 걸러진 적이 있다”라며 “대규모 스팸이 유입되면 스팸 모듈을 업데이트한다”라고 말했다. ‘스팸과의 전쟁’이다. 네이버는 일반적으로 전체의 25-30%의 문서가 스팸일 것으로 추정한다.

스팸에는 ① 사용자에게 의미 없는 문서(자동 생성 콘텐츠 등) ② 잘못되거나 부정확한 정보(유사 공공 사이트, 유사 포털 사이트) ③ 개인정보 수집 ④ 성인·사행성 광고가 대표적으로 꼽힌다. 스팸을 처리할 때는 검색결과 상위를 차지하는 스팸을 우선 처리하기 때문에 스팸으로 인한 검색 품질 저하는 미처리 스팸 문서의 양에 꼭 비례하진 않는다.

스팸을 생성하는 사람들은 일반 사용자보다 웹 환경과 검색엔진에 대한 이해가 높다. 양적으로 꾸준히 스팸을 생성하기도 하지만, 질적으로도 고도화한다. 스팸 발송자들은 스팸 처리 로직이 적용될 때마다 이를 파악하고, 나름의 로직을 업데이트 해서 피해간다. 강성구 엔지니어는 “스팸은 살아있는 생물”이라며 “검색엔진 고도화를 따라갈수록 고도화되고 있다”라고 말했다.

사진=네이버

스팸 처리 위해 다양한 AI 기술 도입

네이버는 스팸을 처리하기 위해 여러가지 방법을 도입하고 있다. 기술적으로 스팸 문서와 고품질 문서를 구분 짓는 것은 명품과 A급 ‘짝퉁’을 구별하는 것처럼 쉽지 않다. 강성구 엔지니어는 “시스템이 문서 내용을 충분히 이해하는 수준에 이르러야 거의 모든 스팸을 걸러낼 수 있다”라고 말했다.

네이버는 2017년에 문서 이해 기반의 웹 스팸 추출 로직을 개발해 사용하고 있다. 자연어 이해 방식을 통해 문서의 스팸 여부를 인식한다. 인공지능(AI)이 스팸 문서에 자주 사용되는 단어 세트를 학습해 성인·도박·보험 관련 스팸을 제거하는 데 사용되고 있다. 그 외에도 문서의 노출이나 클릭 패턴분석, 내용의 충실성 판단에도 다양한 AI 기법이 활용되고 있다.