빅데이터 컨퍼런스, 하둡·개인정보를 말하다

가 +
가 -

빅데이터 전문가들이 한 자리에 모이면 어떤 이야기가 나올까.

미국 IT전문지 기가옴이 3월21일(현지기준)부터 1박2일에 걸쳐 미국 샌디에이고에서 진행한 빅데이터 컨퍼런스인 ‘스트럭처 데이터‘에 모인 관계자들은 하둡·개인정보보·데이터웨어하우스(DW)를 주제로 이야기를 쏟아냈다.

IBM, EMC, 구글, 호튼웍스, 클라우데라에서 빅데이터를 담당하는 엔지니어들이 직접 나서 주제를 발표했다. 마이클 올슨 클라우데라 최고경영자나 주 콰이 콱 구글 빅쿼리 제품 매니저 같은 익숙한 얼굴도 이번 컨퍼런스에 함께했다.

올해로 2번째를 맞이한 이번 컨퍼런스에서는 ‘하둡 어플라이언스의 등장을 어떻게 받아들여야 하는가‘, ‘개인정보 보호 원칙을 지키면서 하둡으로 어떻게 데이터를 수집할 것인가‘, ‘데이터웨어하우스 솔루션과 하둡 솔루션은 어떻게 다른가‘를 중심으로 세션별 세미나가 진행됐다. 주로 하둡과 하둡 생생태계에 대한 개념 정의가 중심이었던 지난해 컨퍼런스에서 주제가 많이 확장된 모습이다.

바이풀 샤르마 이벤트브라이트 수석 소프트웨어 엔지니어 겸 엔지니어링 관리자는 “오픈소스 DW가 확장성이나 가격에서 많은 이점을 자랑하지만 기존 DW 기술도 나름 강점을 갖고 있다”라며 “보안과 관리 도구쪽으로는 아직 기존 DW 솔루션이 훨신 앞서있는 상황”이라고 설명했다. 데이터를 분석할 수 있는 솔루션으로 하둡이 떠오른 건 최근이기 때문에 전통적인 SQL 중심의 DW 솔루션을 마냥 무시할 수 없다는 것이다.

그는 “하둡 오픈소스 커뮤니티들에서 보안 안정성에 대한 확실한 대답과, 하둡과 HBASE를 쉽게 관리할 수 있는 대시보드가 등장하지 않는 이상 하둡은 기존 DW 보완재 역할을 할 것”이라고 말했다.

하지만 데이터 분석 시장에서 하둡이 새로운 분석 솔루션으로 급부상하고 있는 것은 사실이다. 샤르마 엔지니어 역시 이 점에 동감하면서도 “제조업체들이 출시하는 하둡 어플라이언스만을 믿다가는 언젠가 큰 코 다칠 것”이라며 “하둡 디버깅 문제가 계속해서 일어나고 있기에 하둡을 직접 설계할 줄 알고 다룰 줄 아는 엔지니어 육성에 힘을 쏟을 때”라고 말했다.

하둡이 새로운 분석 솔루션으로 등장하면서 생긴 문제에 대해서 이야기하는 자리도 있었다. 아리 질카 호튼웍스 최고제품경영자와 제임스 마르카리안 인포매티카 최고기술경영자는 하둡을 통해 데이터를 분석하는 과정에서 개인정보 침해 문제가 발생하지는 않을까 걱정하는 모습을 보였다.

질카 최고제품경영자는 “하둡이 빅데이터를 수집할 수 있다는 장점을 갖고 있지만 그 과정에서 개인정보 침해 문제가 생기지 않을까 걱정된다”라며 “하둡 프로세싱을 통해 분석한 데이터를 기업 내부 저장소에 보관하는 게 합법적인지를 놓고 기업 간 의견이 분분하다”라고 말했다. 마르카리안 최고기술경영자도 “하둡을 통해 데이터를 불러올 때 생기는 가장 큰 문제는 불러온 데이터를 사내 방화벽 뒤에 저장하면서부터 시작된다”라며 “세밀한 조정 과정을 거쳐서 데이터를 불러올 순 없기 때문에 생긴 일로 보인다”라고 말했다.

이 날 컨퍼런스에서는 하둡이 점점 장비화되는 모습을 보이는 것에 대한 우려의 목소리가 나오기도 했다.

저스틴 보그만 엔지니어는 “제조업체들이 빅데이터와 하둡을 묶은 상용 하드웨어 장비들이 빠르게 쏟아내고 기업이 이를 구입하면서 빅데이터가 하드웨어 박스 전쟁으로 변하는 게 문제”라고 지적했다. 이에 대해 마크 쿠삭 레인스토 최고아키텍처는 “사실 하둡은 데이터를 분석할 수 있는 새로운 기술로 장비나 비용 절감이라는 주제로만 접근하기에는 무리가 있다”라며 “데이터 크기는 하둡 앞에서 크게 문제되지 않는다”라고 말했다. 오히려 “데이터 크기는 압축을 통해서 기존 장비에서도 충분히 처리할 수 있다”라고 그는 덧붙였다.

이번에 진행된 스트럭 데이터 컨퍼런스 세미나는 라이브스트림 웹사이트를 통해 볼 수 있다. 다음 스트럭처 데이터 컨퍼런스는 6월20일에 열린다.