네이처 “구글 ‘독감 트렌드’ 맹신 말라”

가 +
가 -

빅데이터 분석을 얘기할 때 빠지지 않고 등장하는 사례가 있다. 구글의 독감 트렌드 서비스다. 구글은 자사 검색 데이터를 활용해 독감 유행 수준을 예측한다. 독감이 유행하면 관련 검색어가 많아지는 등 독감 관련 주제를 검색하는 사람 수와 실제로 독감 증상이 있는 사람 수 사이에 밀접한 관계가 있다고 보았기 때문이다. 실제로 미국 질병통제예방센터 데이터와 비교해본 결과 구글의 예측은 신뢰성 높게 나왔다. 이같은 관계를 바탕으로 구글은 2008년 부터 ‘독감 트렌드’라는 독감 예측 서비스를 선보였다.

지금까지 구글의 독감 트렌드는 빅데이터의 우수 사례로 꼽혀왔다. 데이터 과학자들은 대량의 데이터를 분석하다보면 기존에는 찾지 못했던 데이터 간 상관관계를 찾을 수 있고, 그 결과 새로운 의미를 발견할 수 있다고 외쳤다.

google flu trend

그러나 구글도 틀릴 때가 있다. 최근 구글은 올해초 미국 50개 주 중 47개 주에 퍼진 ‘살인독감’ 트렌드를 제대로 뒤쫒지 못했다. 구글은 미국 질병통제국(CDC)이 발표한 수치보다 2배 넘는 독감 예상치를 발표했다. 이전까지 구글이 CDC 수치와 거의 비슷하게 독감 예상치를 발표한 것과는 이례적이다. 대용량 데이터를 분석한 결과가 항상 옳은 건 아니란 소리다.

알랭 자크 발레롱 파리 피에르마리퀴리대학 역학조사관(epidemiologist)은 2월13일 네이처를 통해 “구글이 웹 데이터마이닝과 소셜미디어를 바탕으로 독감을 추적하지만, 이 연구가 기존 역학조사를 완전히 대체할 순 없다”라고 주장했다.

구글은 순전히 사용자의 검색 데이터를 바탕으로 독감 유행 정도를 파악한다. 이 중엔 정말 독감과 비슷한 증상 때문에 독감 관련 검색어를 입력하는 사용자도 있겠지만, 단순한 호기심 때문에 독감 관련 검색어를 입력하는 사람도 있다. 데이터 알고리즘만으로는 단순 호기심 검색자와 독감 검색자를 분별하지 못한다. 알고리즘이 사람의 심리까지 파악하는 건 아니기 때문이다.

올해 초 미국의 독감 유행은 11월부터 시작해 크리스마스 이후에 최고치를 기록했다. 이는 2003년과 비교했을 때 비교적 일찍 닥친 독감 유행이다. 평소보다 더 많은 독감 환자가 발생했다. 게다가 독감 인플루엔자 변종 가운데 가장 유독한 H3N2가 번진 탓에 사상자도 많이 발생했다. 언론에서도 독감과 관련된 내용을 많이 다뤘다.

구글은 통계를 이용한다. 지금까지의 독감 유행치를 평균을 바탕으로 올해 독감 유행치를 분석한다. 평년과 다른 때늦은 독감 유행과 변종 독감 바이러스에 대한 공포 때문에 독감에 대한 검색율이 올라갔다. 구글이 이 결과를 ‘독감이 유행했기 때문’이라고 결론을 내리고 예상보다 훨씬 높은 독감 예상치를 발표했다.

알랭 역학조사관은 “단순하게 데이터 분석 결과만을 믿으면 어떻게 현실을 잘못 해석할 수 있는지 알 수 있다”라며 “트위터 같은 새로운 데이터를 추가해 데이터 분석 범위를 넓히는 것도 방법이 될 수 있으나, 데이터 분석에 빠져 기존의 역학 방식을 완전히 무시하면 안되다”라고 말했다. 대용량 데이터를 처리하고 분석하는 데 있어 맹신하면 안된다고 경고한 셈이다.

국내 많은 업체들은 대용량 데이터를 분석하면, 새로운 세상이 열릴 것처럼 기대한다. 이런 점에서 데이터 분석 맹신을 경계하는 알랭 역학조사관의 발언을 새겨들어야 하지 않을까.