[말말말] EMC “빅데이터 두려워 말라”

가 +
가 -

지난 2일 싱가폴에서 열린 ‘휴먼 페이스 오브 빅데이터’ 행사는 짧고 빨랐지만, 일관되게 빅데이터의 당위성에 대한 메시지를 이끌어냈다. 직접적으로 명확한 답이 눈 앞에 펼쳐지지는 않았지만 자연이, 도시가, 인간이 만들어내는 신호에 귀를 기울이고 그 안에서 정보를 꺼내는 사례와 고민들을 나누었다.

하지만 여전히 빅데이터는 논란의 여지가 많다. 그 효용성부터 정보의 권력화, 데이터의 잡음, 심지어 빅데이터의 중심에 서 있는 하둡 자체도 이야기거리가 된다. 그만큼 범위나 가능성이 큰 것이 빅데이터다. 이번 행사는 빅데이터를 어떻게 쓸 것인가에 대한 이야기에서 시작됐지만 EMC가 생각하는 빅데이터에 대한 이야기도 궁금했다. 직접적인 인터뷰 시간이 충분히 허락되지 않았지만 EMC와 그린플럼이 빅데이터를 다루고 시장을 만드는 이야기를 짧게나마 들어 봤다.


▲스티브 레너드 EMC 수석 부사장

“빅데이터와 빅브라더 다르다”

EMC의 미션 콘트롤 행사의 환영사를 연 스티브 레너드 EMC 수석 부사장의 첫 마디는 “빅데이터를 두려워하지 말라”는 것이었다. 큰 정보를 수집하고 분석하는 빅데이터가 개개인을 감시하는 빅브라더로 연결되지는 않는다는 것이다. 세계 시민들이 어떻게 생각하고 어떻게 살아가는지에 대한 데이터들을 모아 가치를 만들어내는 것에 의미를 두는 것이 빅데이터라는 이야기다.

긍정적인 측면을 강조했지만, 다른 한편으로는 이렇게 큰 데이터를 수집하고 분석하는 데에 대규모의 자본과 권력이 필요한 것은 사실이다. 데이터가 힘이 되는 세상에서 극심한 데이터의 부익부 빈익빈이 걱정되지 않을 수 없다. 데이터를 쥐고 있다는 것은 그런 의미다.

스티브 레너드 부사장도 그 부분은 인정했다. “정보가 돈과 파워를 가진 이들에 의해 처리되고 있다는 것은 사실이다. 하지만 정보의 85%가 개인들로부터 생성되고 있기 때문에 권력과 자본만으로 될 수 있는 것은 아니다. 이런 점이 정보의 민주화다.” 그는 ‘휴먼 페이스 오브 빅데이터’ 프로젝트처럼 지식을 끌어낼 정보만 수집해 개개인을 익명화할 수도 있다고 덧붙였다.

빅데이터는 정보를 바라보는 관점에 차이가 있다. 빅브라더는 개별적인 사람들의 A부터 Z까지의 정보를 수집하고 그 사람이 어디에서 뭘 하고 있는지를 감시하는 것이기 때문에 빅데이터와는 별개의 문제라는 설명이다. 정부 등에서 테러를 예방하는 데에 적용되는 것이 빅브라더 논리고 이번 프로젝트에서 이야기하는 말라리아 예방, 환경 오염 같은 것이 빅데이터가 할 일이다. 스티브 부사장은 이를 명확히 분리하길 바랐다.

‘빅데이터=트위터 분석’?

미션 콘트롤 행사에서 발표된 내용의 상당수는 트위터의 데이터를 기반으로 했다. 트위터를 통해 질병을 예측하고 선거 결과를 내다보는 등의 데모가 진행됐다. 국내에서도 지난 선거철에 큰 이슈가 됐던 소셜 데이터 분석과 비슷하다.

마이클 호워드 그린플럼 사업부 마케팅 부사장은 “트위터 피드만 본다면 나이, 교육 수준, 소득 등을 통해 진입 장벽이 생기는 것은 사실”이라고 말했다. “하지만 실제 프로젝트에서는 트위터는 수집되는 정보의 일부다. 온라인에서도 페이스북, 링크드인으로 간극을 좁히고 오프라인에서도 정부나 공공기관을 통해 자료를 수집해서 다각화한다”고 말했다.

트위터를 비롯한 온라인 정보의 신뢰성에 대해서도 스티브 레너드 부사장은 “빅데이터에는 우리가 원하는 신호와 잡음이 공존한다”라며 “선거 예측 역시 실제 데이터가 주는 신호보다 잡음을 걸러내는 것에 더 많은 노력이 들어간다”라고 설명했다. 각 피드의 긍정과 부정에 대한 것을 구분하는 것도 중요한 문제라고 짚었다. EMC의 빅데이터 에코 시스템이 이런 작업들을 하고 있고 여러 파트너와 인증 프로그램을 진행한다고 덧붙였다.

그는 모든 정보가 안전할 수는 없다는 이야기도 꺼냈다. “빅데이터에서 나오는 정보들이 좋은 일을 발생시키게 할 것인가가 중요하다”라며 “정보의 오용이나 잘못된 분석은 항상 경계하고 그에 따른 적절한 처치가 뒤따라야 한다”라고 말했다. “빅데이터는 점이 아니다. 사실과 현상을 그대로 보는 것이다. 이를 잘 배열해 앞으로의 경과를 보는 것이다. 과거에는 데이터를 두고 추측을 했지만 빅데이터의 가장 큰 차이점은 상관관계를 통해 사실을 내다보는 것이다.”

▲마이클 호워드 그린플럼 사업부 마케팅 부사장

“아파치 하둡에 맵R 더해 경쟁력”

빅데이터의 가능성을 내다보는 자리였지만 기술적인 이야기를 빼놓을 수 없다. 빅데이터의 중심인 하둡 자체가 다루기 어렵고 오픈소스인만큼 어떤 문제에 대해 관리나 보증이 쉽지 않다. 그 때문에 빅데이터를 다루는 각 기업들은 아파치 하둡 외에 다른 기술들을 더해 각각의 경쟁력을 더하고 있다. 최근 빅데이터를 처리하는 하둡 기술로 IBM과 오라클이 클라우데라를 선택한 바 있다. 이와 달리 그린플럼은 이에 맞서는 맵R을 무기로 삼고 있다.

어떤 기술이 더 좋은지에 대해서는 아직 이야기할 단계는 아닌 듯 하지만 마이클 호워드 그린플럼 부사장은 스스로의 경쟁력을 맵R보다 오픈소스 아파치 하둡에 더 두는 모양새다. “고객들마다 필요한 빅데이터 솔루션에 차이가 있다. 궁극적으로는 아이실론과 그린플럼을 통합하고 오픈 아파치에 맵R을 더해 고성능 데이터 수집, 분석을 처리할 계획이다.”

일부 기업들이 아파치 하둡의 진입 장벽을 낮추기 위해 또 다른 하둡 솔루션을 이용하는 것과 달리, EMC는 표준화쪽에 초점을 맞추는 모양새다. 그 이후에 맵R을 더해 경쟁력을 찾는 전략인 것으로 볼 수 있다. 시장에서 DW와 빅데이터의 혼선이 일어나는 것에 대해서도 “두 분야는 명백히 다른 것이지만 빅데이터 시장에 접근하는 방식의 차이라고 본다”라고 설명하기도 했다.