“페이스북 분석, 아직은 조사 단계”

가 +
가 -

블로터닷넷이 창간 6주년을 맞아 한국어 페이스북 이용자를 대상으로 ‘한국어 페이스북 이용 현황’ 특집 기사를 진행했다. 지난 5주년 때 ‘한국어 트위터 이용 현황’을 분석했으니, 올핸 페이스북을 살펴보자는 단순한 생각에서 출발했다.

진행 과정은 녹록지 않았다. 페이스북 분석을 요청하는 기업의 마음을 간접적으로 느낄 수 있었다고 할까. 무엇부터 시작해야 하는지 감이 잘 잡히지 않았다. 페이스북을 통해서 어떤 수치를 찾을 수 있는지, 발견한 수치가 의미 있는지, 기사로 어떻게 풀어낼 것인지 고민하는 시간이 이어졌다. 취재 틈틈이 메신저와 구글독스를 통해 분석 파트너인 그루터와 어떻게 하면 페이스북 조사를 잘할 수 있는지 의견을 나눴다.

블로터닷넷은 이번 특집 기사를 위해 빅데이터 플랫폼 전문기업 그루터의 도움을 많이 받았다.  “성별에 따른 취미 확인할 수 있나요?”, “국적은 어떻게 확인하나요?”,” 정말 새벽에 ‘야식’이 포함된 글이 많이 올라오나요?” 같은 요청에 프로젝트 매니저인 이두행 그루터 기획자는 쉼 없이 시달렸다. 그는 생각을 정리하는 기획자로, 때론 직접 페이스북 데이터 조사를 돕는 개발자의 모습으로 특집 준비 기간 내내 함께 했다.

그루터는 2010년 8월부터 2012년 7월까지 글을 대상으로 한국어 페이스북 이용 현황과 주요 언론사 페이스북 페이지 데이터를 수집했다. 하둡 HIVE를 이용해 페이스북 데이터를 수집해 조사했다.

트위터와 페이스북은 조사할 수 있는 범위나 과정이 전혀 다르다. API를 공개해 트위터 사용자 정보를 어느 정도 가져올 수 있는 트위터와 달리, 페이스북은 자신의 정보를 ‘공개’로 설정한 사용자의 정보만 갖고 올 수 있다. 이조차도 모두 갖고 올 수 있는 건 아니다.

그 덕에 이번 페이스북 기사는 ‘분석’보다는 ‘조사’에 좀 더 초점을 맞춰 진행했다. 이두행 기획자도 “페이스북 분석이란 단어를 쓰지 않았으면 좋겠다”라고 강조하며, 조사 결과에 대한 추측과 추론을 경계하는 모습을 보였다. 보이는 수치 그 자체로 해석해달라는 당부였다.

2년 연속 아낌없이 도와준 그루터에 진심으로 감사하다. 다음 7주년에도 함께 할 수 있길 바라며, 이번 페이스북 조사는 어떤 즐거움과 아쉬움을 남겼는지 얘기를 나눠봤다.

▲그루터 식구들. 왼쪽부터 이송이, 이두행, 김형준, 권영길.

  • 일시 : 2012년 9월11일
  • 장소 : 그루터 사무실
  • 참석자 : 권영길 그루터 대표, 김형준 수석, 이두행 기획자, 이송이 기획자, 이지영/정보라 블로터닷넷 기자.

이지영 : 드디어 끝났다. 어땠나.

권영길 : 페이스북은 트위터와 다르게 자료 수집을 늦게 시작했다. 그래서 전체적으로 훑는데 시간이 좀 걸렸다. 페이스북 데이터는 아직도 수집 중이다. 현재 1600만명 정도의 모집단을 모았다. 앞으로 더 늘어날 것으로 보인다.

블로터닷넷과 협조하면서 미디어와 팬페이지 쪽에 초점을 뒀다면, 지금은 한국어 페이스북 사용자 파악에 열을 올리고 있다. 특히 페이스북 데이터는 트위터처럼 사용자 정보가 공개되지 않아 어려움이 크다. 공개한 사람의 전체 사용자 중에 몇 퍼센트인지 비율을 아는 것조차 쉽지 않다.

그뿐일까. 한 사람을 쫓아 파고들면 팔로잉-팔로워 관계가 나오는 트위터와 달리, 페이스북은 사용자 간 관계가 명확지 않다. 데이터 수집이 트위터보다 더 어려운 이유다.

이두행 : 페이스북 데이터에 적응하는 데 어려움이 있었을 뿐이지, 자료 자체가 제공하는 정보는 트위터보다 페이스북이 훨씬 더 많았다. 트위터는 스팸 등 변칙 요소가 많았다면, 페이스북은 스팸이 거의 없다. 기본적으로 깔끔한 데이터라고 할까. 여기에 페이스북이 담고 있는 정보가 많다. ‘좋아요’, 의견, 개인정보 등을 알 수 있다. 이번에 이 요소들을 다 묶어 분석할 수 없었던 게 좀 아쉽다. 트위터보다 좀 더 편하게 분석할 수 있는 자료를 분명한데, 공개되지 않은 데이터들도 못지않게 많아 이게 좀 조사하기 어려웠다.

권영길 : 단 하나, 남자와 여자 등 성별 구분은 확실했다.

정보라 : 그래서인가. 지난 트위터 분석 기사를 쓸 때와 또 달랐다. 페이스북 데이터는 뭔가 심심했다. 트위터가 확실한 분석 방식과 지표가 있었다면, 페이스북은 그냥 통계 자료인 듯한 인상을 줬다.

이두행 : 그럴 수도 있다. 지난해까진 트위터와 페이스북 같은 사회관계망서비스(SNS)를 어떻게 활용할 것인지가 규명이 안 됐다. 블로터는 두 번 해봤다. 지난 1년간 SNS를 둘러싸고 나온 이야기도 많다. 대부분 요구하는 눈이 높아진 것일 수도 있다.

페이스북은 앞으로 할 수 있는 게 더 늘어날 것으로 보인다. 트위터보다 신뢰할 수 있는 자료들이 좀 더 있기 때문에, 사람들이 뭘 좋아하는지 생각을 알고 싶어하는 수준의 빅데이터 분석도 가능할 것으로 보인다. 성별에 따른 좋아하는 것, 선호하는 것들이 나중에 나올 수 있지 않을까 싶다.

게다가, 트위터는 정형화된 답을 찾아내고자 하는 게 컸다. 트위터 사용 패턴을 알아내 이에 대해 집중적으로 파헤쳤다고 할까. 이는 이번 페이스북 조사와 성격이 다르다.

페이스북 샘플 수가 적은 면도 있지만, 명확하게 패턴화해서 단정지을 수 없었다. ‘분석’이 아닌 ‘조사’를 강조한 이유다. 전체 페이스북 사용자라고 섣불리 단언할 수 없는 상태에서 패턴을 만들 순 없는 노릇이다.

권영길 : 기준이 명확지 않았다. 더 많은 페이스북 데이터를 모으면 ‘분석’도 가능할 듯하다. 우리가 이만큼 해놨으니, 누군가 또 하기 시작하지 않겠는가. 우린 자체 자료수집을 통해 한국어 페이스북 사용자가 정말 700만인지를 검증하는 작업도 진행할 계획이다. 실제로 글 쓰는 사람은 몇 명인지 알고 싶다.

이지영 : 그렇다면 표본 조사를 했단 얘긴데, 신뢰성은 어떻게 확보했나. 그리고 페이스북 조사에 활용된 기법은 무엇인지 궁금하다.

이두행 : 랜덤샘플링이 답이다. 뽑은 표본이 대표성을 지니게 하려고 10번에 나눠 자료를 비교했다. 비슷하게 나왔다.

김형준 : 워드 카운팅과 사칙연산? 조사 기법은 대단한 게 아니다. 페이스북 페이지를 통해 나온 단어를 셌을 뿐이다. 대략 어떻게 쓰이는지, 통계적으로 어떻게 유의미한지, 계수를 찾아보는 식이다. 처음이다 보니 평균적인 쓰임을 알아보는데 신경 썼다. 특별한 기법이 들어간 건 아니다.

정보라 : 분석이란 말을 자제했으면 좋겠다고 말했다. 통상 통계 분석에서도 아는 계수 놓고 상수 놓고 한다. 어떤 식으로 활용하는지 감이 잘 안 온다. ‘좋아요’를 센 것과 분석한다는 것의 차이는 무엇인가.

김형준 : 예를 들면, 블로터닷넷 페이지에 댓글을 단 사람을 봤더니, 어떤 그룹이 몇 명이고 그 그룹 내에선 IT 관련 얘기를 하더라, 어떤 특징을 지녔더라는 식의 이야기를 만드는 게 된다.

이두행 : 가장 큰 차이는 예측이다. 페이스북 페이지를 구독한 사람들을 군집화해서 어떤 집단이 있는지를 알아낼 수 있다. 빅데이터 키워드와 함께 나오는 금융권에서 무엇을 선호하는지, 무엇을 하려고 하는지 현재 수치를 바탕으로 내다볼 수 있는 것. 이번엔 이런 일을 하지 않아 ‘분석’ 보다는 ‘조사’로 표현해 달라고 요청했다.

권영길 : 단순 통계 인포그래픽을 그렸다고 봐야 한다.

이지영 : 페이스북 조사 과정에서 어려운 일은 없었나.

이송이 : 저는 도와주는 역할이라 잘 모르겠다. 그저 이두행 기획자가 굉장히 고통스러워하는 모습을 지켜봤을 뿐이다.

이두행 : 모든 게 처음이라는 것. 처음 해본다는 것. 그래서 시행착오가 많았다. 비록 조사로 끝났지만, 기본적인 지표를 뽑아냈다는 점에서 만족한다. 기본 지표는 굉장히 중요하다.

이지영 : 해봤으면 좋겠다 싶은 주제가 있었는지 궁금하다. 지난번 트위터 분석에서 창의력이 없다는 말을 듣고 정말 다들 고민을 많이 했다. 올핸 좀 어땠나. 같이 일하기 수월했다.

이두행 : 지난해보다는 괜찮았다. 다만, 개인적으로 페이스북 페이지를 더 보고 싶었다. 페이스북은 기본적으로 페이지가 차지하는 비중이 크다. 최근 페이스북이 페이지 노출을 엄청나게 공개하지 않는가. 업계 종사자들이 어떻게 활용하는지 좀 더 살펴봤으면 했다.

김형준 : 댓글이 얼마나 잘 달리는지도 보았으면 좋았을 뻔했다.

권영길 : 실제로 데이터가 많이 나왔을지는 의문이다. 사실, 페이지 분석 주제론 연예인이 딱 맞다. 연예인 페이스북 페이지 ‘좋아요’는 기업과 정부기관, 미디어 등 다른 분야와 비교할 수 없을 정도로 많다.

정보라 : 연예인을 떠올리지 못했다. 했으면 좋았을 것도 같다. K팝 열풍을 점검할 수 있지 않았을까 싶다. 외국인 비율도 따질 수 있었을 텐데.

이지영 : 이번에 뼈 아팠던 게, 트위터 수치에서 블로터 순위가 지난해보다 하락했다는 점이다. 이유가 뭔지 정말 궁금했다.

권영길 : 트위터에서 블로터가 떨어졌다고? 나는 페이스북에서 블로터가 1등이 나올까 봐 조마조마했다.

이두행 : 작년과 트위터 환경이 많이 달라졌다. 작년엔 주로 IT와 정치인들이 쓰는 트위터를 많이 사용했다. 1년 사이 IT에 관심을 두고 있던 트위터 사용자들이 페북으로 옮겨간 측면도 있고, 구글플러스로 간 경향도 있다. 여기에 박원순 시장 선거 관련해 정치 관련 인물 유입이 매우 많아졌다.

환경 변화 못지않게 각 매체의 SNS 활용 능력도 상승한 점도 블로터 순위가 하락한 요인이 되지 않았을까 싶다. 사실, 하락한 것도 아니지 않은가.

스팸을 얘기하신 분들도 있던데, 지표 자체가 스팸이 있어도 빠지게 했다. 자동으로 리트윗하는 봇이나 스팸이 있더라도 영향력은 감소하게끔 만들었다.

정보라 : 혹시 내년에 하고 싶은 분석이 있는가. 아니면, 트위터와 페이스북 뒤를 이어 뜰 것 같은 서비스로 떠오르는 게 있는가.

권영길 : 핀터레스트!

김형준 : 구글플러스?

정보라 : 이미지를 분석하겠다는 얘기인가, 개인적으로 아기 사진, 친구 모습, 경치 등 이미지에 따라 유입이 어떻게 달라지는지를 알고 싶다.

김형준 : 좋은 생각이다. 지금 현재 기획하는 중인데, 알고리즘이 잘 나오면 내년에 이미지를 분석하는 것도 좋을 듯하다.

네티즌의견(총 0개)