퍼스널 빅데이터, 당신의 삶을 예측한다

가 +
가 -

트위터와 페이스북 같은 사회관계망 서비스(SNS)를 통해 내가 언제, 어디서, 누구와 만났는지, 무엇을 했는지 쉽게 기록하고 검색할 수 있는 시대다. 카메라가 달린 스마트 기기만 있으면 온라인에서 내 하루 일과를 그대로 재현할 수도 있다. 자신의 일거수 일투족을 기록해 페이스북 포스트로 남긴 사람이라면, 타임라인을 통해 손쉽게 자신의 삶을 되돌아 볼 수 있다.

“동영상과 음성 등 다양한 멀티미디어로 개인의 하루를 일일이 기록한 뒤, 이를 바탕으로 사람의 행동을 예측하는 분야에 대한 관심은 ‘라이프로그’라 불리며 2008년부터 있었습니다. 여기에 스마트 기기 보급과 SNS를 이용하는 사람들이 증가하면서 한발 더 나아간 연구가 가능해졌습니다.”

죽기 직전의 순간을 마주한 것도 아닌데, 항상 과거만 살필 순 없는 노릇 아닌가. 과거로부터 무언가 배우고 깨달아야 의미가 있는 법이다. 배창석 한국전자통신연구원(ETRI) 빅데이터 소프트웨어연구소 차세대컴퓨팅연구부 퍼스널컴퓨팅연구팀 팀장은 정보통신기술의 발전과 빅데이터의 등장이 과거의 삶을 바탕으로 향후 내가 어떤 행동을 보일지 알 수 있는 길을 열었다고 설명했다.

최근 ETRI가 실감교류인체감응솔루션연구단과 공동으로 진행하는 ‘사용자 지식 다이제스트 중추’ 연구가 대표적 사례다. ‘사용자 지식 다이제스트 중추’는 사람의 행동을 유발하는 요소들을 찾아낸 뒤, 각 요소별 연관성을 분석해 행동을 예측한다. 사용자의 모든 행동을 복합적으로 축적한 퍼스널 빅데이터가 있어야 가능하다. ETRI와 연구단은 2019년까지 사람의 생활 패턴을 수집 분석해, 예측할 수 있는 알고리즘으로 완성시킨다는 계획이다.

퍼스널 빅데이터와 라이프로그는 얼핏 비슷해 보이지만, 속을 들여다보면 엄연히 다르다. 친구들과 같이 갔던 맥주집에서 맛잇게 마셨던 맥주가 기억이 나지 않을 때, 각종 장치를 통해 수집한 정보를 바탕으로 그때 마신 맛있는 맥주의 이름을 알려주는 건 라이프로그다. 그러나 어느 상황에서 맥주를 맛있게 마실 수 있는지, 언제쯤 내가 맥주를 마시기 위해 친구들에게 연락을 돌릴지 등을 예측하는 건 퍼스널 빅데이터의 힘이다.

“라이프로그가 주로 내가 수집한 정보, 내가 움직이는 기록 등 개인의 실생활에 관련된 데이터에 초점을 맞췄다면, 퍼스널 빅데이터는 나와 관련된 주변 데이터까지 모두 수집합니다. 퍼스널 빅데이터는 이동, 구매, 식사 같은 실생활 패턴 외에도 웹이나 소셜 로그 같은 온라인 활동을 포함합니다.”

혈압, 간 수치, 혈액형 같은 건강검진 기록부터 끼니별 식사 메뉴, 수면 시간, 일하는 시간, 카드 기록, 소비 습관 같은 생활 데이터, 책이나 TV를 볼 때 눈동자의 시선이 어떻게 움직이는지 같은 생체 데이터 등 사람에게서 나올 수 있는 모든 데이터를 수집한다. 표현 그대로 ‘퍼스널 빅데이터’인 셈이다.

배창석 팀장 설명에 따르면, 이렇게 발생한 데이터로 약 3개월 간 시범 분석해 본 결과 각 개인의 행동을 약 80% 가까이 예측했다고 한다. 일주일 뒤에 점심으로 무엇을 먹을지, 지금 보고 있는 TV가 재미있어서 보는건지 대충 파악할 수 있게 됐단 얘기다. 이 연구가 상용화되면 기업 입장에선 수집된 고객 정보를 바탕으로 한 맞춤형 서비스에서 한발 더 나아가, 그 사람이 무엇을 원하는지 미리 파악해 선제 대응하는 마케팅 정책으로까지 발전할 지도 모를 일이다.

물론 연구 과정이 쉬울 리 없다. 같은 팀의 이형직 선임연구원은 “처음 이 연구를 하겠다고 나섰을 때, 모든 게 벽에 가로막힌 기분이었다”라며 “지금도 개인정보를 수집하는 문제부터, 분석 패턴을 찾아내 알고리즘을 찾아내기까지 각 과정이 힘들다”라고 토로했다. 특히 그 중 데이터 수집이 가장 힘들다는 답이 돌아왔다.

“어느 정도 표본이 있어야 패턴을 찾고 알고리즘을 찾는데, 아무리 연구 목적이라고 해도 통신사가 갖고 있는 전화 기록 같은 데이터를 받을 순 없습니다. 생체 데이터 같은 병원이나 기타 연구기관의 협조가 필요한 데이터는 거의 분석하지 못하고 있는 상황이죠. 그만큼 개인정보보호를 신경써야 하기 때문이죠.”

현재 ETRI는 개인정보보호 문제 때문에 자사 연구원이나 동의를 얻은 실험자를 대상으로만 데이터를 수집하고 있다. 데이터 수집은 주로 스마트폰을 이용한다. 스마트폰 응용프로그램(앱)에 위치정보를 읽을 수 있는 프로그램을 심어 시간별 위치 정보를, 웹브라우저에 남는 로그를 통해 인터넷 사용 패턴 등을 읽는 식이다. 그날 먹은 음식 자가 기록을 바탕으로는 식습관을, 카드 내역과 영수증으로는 무엇을 샀는지 소비 습관을 파악한다. 오는 9월부터는 트위터나 페이스북 같은 SNS도 분석 항목에 포함시킬 계획이다.

아직은 수집하는 데이터 크기가 미비하다보니 하둡 같은 오픈소스를 이용해 수집하기 보다는 일반 컴퓨팅 장비를 최대한 활용한다. 데이터분석은 오픈소스 R을 활용하고 있다. 이런 점에서 아직 ETRI의 퍼스널 빅데이터는 빅데이터라고 보기에 무리가 있어 보인다.

이형직 선임연구원은 “트위터 단문 메시지 데이터도 용량으로 볼 때 그 크기가 작지만, 트위터 네트워크 트래픽 데이터를 보고 빅데이터라고 부르지 않냐”라며 “퍼스널 빅데이터는 역시 용량보다는 수집할 수 있는 각 항목의 다양성과 복잡성 때문에 빅데이터로 보고 있다”라고 말했다.

이처럼 수집된 데이터를 오픈소스 R로 분석하면 일정 패턴이 나온다. 발견된 패턴은 설문조사나 사람들 피드백, 데이터 간 재분석을 통해 정확도를 검증받는다. 안정적인 알고리즘을 만들어야 정확한 예측이 이뤄지기 때문이다. “데이터 검증 작업 역시 수집 못지 않게 어려운 분야입니다. 예측 정확성이 검증 작업에서 갈린다고 해도 과언이 아닙니다.”

이렇게 입증된 ‘사용자 지식 다이제스트 중추’ 연구 행동 패턴 활용 사례는 무궁무진할 것으로 보인다. 한 사람이 어떻게 생각을 하는지, 생각 과정은 어떻게 발전하는지, 특정 상황에서 어떤 조건을 가진 사람은 어떻게 반응한다는 공식이 나오기 때문이다.

이형직 선임연구원은 “잘 활용되면 영화 ‘터미네이터’에 나오는 주인공처럼 사람을 쳐다보면 그 사람의 정보를 한눈에 알 수 있고, 무엇을 할 수 있는지 예측하는 시스템을 만들어 볼 수 있다”라며 “구글 글래스가 나온 상황에서 곧 머지않은 미래에 실현될 것으로 보인다”라고 말했다.