RSS 구독
뉴스레터 신청
맨위로

두 사진작가가 찾아낸 ‘빅데이터의 얼굴’

| 2013.01.02

유명 사진작가 릭 스몰란은 데이터가 어떠한 방식으로 수집되고 활용되는지 궁금했다. 각종 매체와 기관에서 ‘빅데이터는 인류의 삶에 있어 인터넷을 능가하는 파급효과를 가져올 것이다’라고 떠드는데, 정확히 어떤 효과가 발생할 것인지를 얘기하는 곳은 없었기 때문이다.

궁금증에서 그치지 않고 스몰란은 실제로 빅데이터를 파헤치기로 결심했다. 또 다른 사진작가인 제니퍼 어윗과 손잡고 ‘휴먼 페이스 오브 빅데이터‘라는 전문가와 일반시민이 함께 참가하는 대규모 글로벌 프로젝트를 만들었다. 두 사진작가는 EMC와 시스코, 페덱스의 후원을 받아 데이터가 어디서 발생하며, 얼만큼 발생하고, 우리 삶과 어떤 연관관계를 가지는지를 조사했다.

사진작가와 편집자, 작가 등 주요 진행요원 100여명을 비롯해 수백만명의 사람들이 프로젝트에 참여했다. 주요 진행요원 100여명은 산과 바다, 정글 등 각종 오지부터 시작해 구글과 아마존웹서비스, 페이스북 등 기업에 이르기까지 빅데이터가 발생되고 활용되는 현장 곳곳을 누볐다.

전세계 100여개 나라에서 참여한 300만명 이상이 ‘휴먼 페이스 오브 빅데이터’ 응용프로그램을 통해 프로젝트에 참여했다. 이들은 앱으로 전달되는 질문에 대해 생각, 행동, 상태 등을 실시간으로 전송하며 ‘휴먼 센서’로 활동했다.

이 과정에서 위성과 각 공장에서 작동하는 수십억개의 센서, RFID 태그와 GPS가 장착된 카메라와 스마트폰이 조사에 사용됐다. 휴먼 페이스 오브 빅데이터 프로젝트 팀은 삼각법을 이용한 조사를 통해 수집한 데이터를 보기 쉽게 시각화했다.

지난해 3월부터 시작한 이 프로젝트의 대장정이 최근 끝났다. 휴먼 페이스 오브 빅데이터 프로젝트 팀은 조사 결과물을 자사 웹사이트와 책, 아이패드 앱으로 공개했다. 프로젝트 팀은 조사를 통해 “3억대가 넘는 컴퓨터가 인터넷에 연결돼 있고, 한 사람이 태어나서 만들어내는 데이터 양이 미국 의회 도서관 정보의 70배에 이른다는 걸 알 수 있게 됐다”라고 밝혔다. 프로젝트 팀은 그 외에도 해저 탐사 장비에선 탐사 사진 외 어떤 데이터가 발생하는지, DNA 정보로 알아낼 수 있는 데이터는 무엇이 있는지, 각종 사회관계망 서비스(SNS)에서 발생하는 데이터 양은 어느정도인지 등을 살폈다. 일종의 빅데이터 백과사전을 만들어 선보인 셈이다. 그 중 일부 내용을 소개한다.

# 3명중 1명, 태어나기 전부터 온라인 데이터 갖고 있어

미국 베이비센터닷컴에 따르면, 2000년 이후 태어나는 아이 3명 중 1명은 태어나기 전부터 온라인에 데이터가 기록돼 있다고 한다. 임신 중 받는 초음파 검사 사진부터 시작해 건강상태가 온라인으로 병원 기록에 남는다. 태어난 뒤로는 더욱 활발하게 온라인 데이터가 생긴다. 아이의 탄생을 축하하며 찍는 사진 데이터가 대부분이다. 프로젝트 팀 조사결과에 따르면 이렇게 한 사람이 태어나서 평생동안 만들어내는 데이터는 현재 미국 의회 도서관에 저장된 정보의 70배에 이른다고 한다.

# 1초도 안되는 시간에 구글이 하는 일

구글 웹사이트에서는 매일 20페타바이트(PB)에 이르는 데이터가 발생한다. 이는 1메가바이트(MB)의 200억배에 이르는 양이다. 그 뿐이랴. 유튜브에선 1분마다 48시간 분량의 동영상이 업로드된다. 매일 40억명이 넘는 사람들이 유튜브를 감상한다. 구글이 대용량 데이터 처리 관련 논문을 괜히 많이 발표하는 게 아니다.

게다가 구글은 대용랑 데이터 처리 기술을 통해 소비자에게 최적화된 검색 결과를 제공한다. 구글 검색창에 검색어를 입력하고 엔터를 누른 뒤 결과물이 나오는 1초도 안되는 시간 동안 엄청나게 많은 정보가 오고간다.

구글 검색창에 검색어를 입력하면, 구글은 해당 검색어를 구글 웹서버로 옮긴 뒤 바로 1억대에 이르는 인덱스 서버로 검색어를 보낸다. 인덱스 서버란 일종의 책 목록이라고 할 수 있다. 책 목록이 책에 어떤 내용이 있는지를 몇 단어로 요약해 보여주는 것처럼, 인덱스 서버도 구글이 저장한 정보를 몇 가지 단어로 요약해 갖고 있다. 인덱스 서버는 사용자가 보낸 검색어에 가장 유사한 목록을 가진 서버로 데이터를 보낸다. 그 다음 해당 서버에서는 검색어에 최적화된 자료를 찾아 정리한 다음 그 결과물을 사용자에게 보여준다. 0.5초도 안되는 시간동안 발생한 일이다.

# 전세계 인구의 10%가 페이스북으로 통한다. 

휴먼 페이스 오브 빅데이터 프로젝트 팀이 조사한 자료에 따르면, 페이스북과 트위터에서 발생하는 데이터양도 만만치 않다. 매월 9억5500만명이 페이스북에 접속해 글을 남긴다. 페이스북에는 2012년 기준 약 300억개가 넘는 글들이 매일 올라오고 있다. 1400억장에 이르는 사진도 함께다.

트위터도 뒤지지 않는다. 72시간마다 1억4천만명 이상의 사람들이 모두 약 10억개의 이르는 트윗을 날린다. 트위터와 페이스북 모두 서로 다른 70여개의 언어로 소통한다.

트랙백 http://www.bloter.net/archives/139400/trackback
이지영 사진
이지영
블로터닷넷 엔터프라이즈, 클라우드, 기업용 SW를 담당합니다. 하루가 다르게 변화하는 IT 세상에 조금이라도 더 빨리 적응하기 위해 노력중. 마음과 몸이 자라는 기자가 되겠습니다. izziene@bloter.net, @izziene
0 Responses to "두 사진작가가 찾아낸 ‘빅데이터의 얼굴’"