클라우다인 “이용자 눈높이에 하둡 맞춘다”

가 +
가 -

“빅데이터를 받아들이는 현장과 빅데이터를 전달하는 업체의 눈높이가 서로 다릅니다.” 국내에서 빅데이터와 하둡 전문가 중 하나로 손꼽히는 김병곤 클라우다인 대표는 제조사와 도입사 사이에 놓인 간극을 이렇게 설명했다. “제조사는 오픈소스 하둡을 만들어진 플랫폼을 어떻게 하면 잘 전달할 수 있을지를 고민하고 있습니다. 도입하는 입장은 다릅니다. 기존 데이터웨어하우스(DW) 솔루션이나 비즈니스 인텔리전스(BI) 솔루션만큼 하둡 플랫폼을 사용할 수 있을지를 걱정하고 있습니다.” 금성에서 온 기획자와 화성에서 온 개발자를 일컫듯, 같은 하둡을 놓고도 전달하는 입장과 받아들이는 입장 간 이해관계가 전혀 다르다는 얘기다.

클라우다인은 김병곤 대표를 포함해 하둡 개발자 2명, 실시간 데이터 분석가 2명, 하둡 사용자 인터페이스 개발자 2명으로 이뤄진 회사다. 플랫폼과 솔루션 개발에 집중하는 경쟁 업체들과 달리, 기업 시스템 통합(SI) 업무를 맡아 하면서 현장에서 바라본 빅데이터와 하둡에 대해서 가장 잘 알고 느끼고 있는 회사이기도 하다.

“최전선에서 하둡을 다루는 이들은 개발자들이 아닙니다. 오히려 최종 사용자에 가깝죠. 최근 한 업체가 추진하고 있는 하둡 프로젝트를 담당하면서, 현장 담당자들에게는 하둡 플랫폼이 어떻게 구성돼 있는지가 크게 중요하지 않다는 것을 알았습니다. 오히려 자신이 어떻게 데이터 작업 흐름을 관리할 수 있는지를 쉽게 보길 원한다는 걸 알았습니다.”

빅데이터를 외치는 제조업체들이 많아지면서 국내 클라우드 사업자나 포털, 대형 IT 서비스 회사들은 빅데이터 처리와 분석을 위한 도구로 하둡을 주목했다. 업체들은 하둡 분산파일시스템(HDFS), 하둡 맵 리듀스, HBASE를 활용하면 기존 비용 대비 효과적으로 데이터를 관리할 수 있다고 설명했다. 주로 개발자들이나 이해할 수 있는 기술적인 부문에 대한 설명이 치중된 면이 적지 않았다. 그래서 하둡 솔루션을 도입해서 활용해야 하는 최종 사용자들은 쓰기 어려워 도입을 주저하게 된다는 얘기다.

여기서 힌트를 얻은 클라우다인은 현장에서 얻은 경험을 바탕으로 하둡 사용자 인터페이스(UI)인 ‘플라밍고’를 선보이겠다고 나섰다. 잘 구성된 하둡 플랫폼도 중요하지만, 결국 현장이 원하는 것은 기존과 변화를 느끼지도 못하면서 사용할 수 있는 UI에 달려 있다고 판단했다.

“하둡 솔루션을 만든 뒤 전달하는 것도 중요하지만, 그 못지 않게 쉽게 활용할 수 있는 화면을 보여주는 게 급선무라고 생각했습니다. 경쟁업체들처럼 도구를 만들어서 그 위에서 서비스를 할 수 있다고 소개하는 것도 물론 중요합니다. 하지만 DW나 BI 솔루션을 접했던 고객들은 하둡 솔루션에 대한 기대치가 높습니다.”

눈높이 차이 탓일까. 국내 하둡 솔루션 관계자들은 국내에서 하둡 솔루션이나 서비스가 많이 팔리지 않았다고 한다. 이들 모두 아무리 솔루션을 잘 만들어도 이를 적극 도입해서 활용하겠다고 나서는 기업은 드물다고 하소연했다. 결국 김병곤 대표 설명처럼 아무리 잘 만들어진 하둡 솔루션이라곤 해도 경쟁 상대가 상용솔루션이 되다 보니 고객의 선택을 받기 어렵고, 여기에 하둡이 최종 사용자들을 위한 친숙한 UI 기능이 떨어지니 더욱 도입을 꺼리는 상황이 반복되는 구조가 발생했다.

클라우다인이 선보이는 하둡 UI인 ‘플라밍고’는 철저하게 하둡을 몰라도 사용할 수 있는 최종 사용자들을 겨냥해 만들어졌다. 기존 리포팅 환경과 유사한 환경에서 최종 사용자가 드래그앤드롭으로 원하는 데이터 처리 흐름을 만들면 그와 연결된 하둡 솔루션이 작동되는 원리다. 화면을 보면 실제로 최종 사용자가 하둡을 알 필요도 배울 필요도 없을 정도로 그저 기존 DW나 BI 솔루션을 활용하듯이 사용하는 환경을 목표로 한 게 눈에 보일 정도다.

“괜히 정해진 쿼리를 던지면 답이 나오는 HIVE에 국내 개발자들이 집중해 있는 것은 아닙니다. 기존에 나와 있는 하둡 플랫폼으로 분석하려면 일일이 코드를 작성해서 질문을 던져야 하지요. 그만큼 하둡을 통해서 쿼리를 짜고 운영한다는 것은 상당히 까다롭습니다.”

아직까지 하둡 플랫폼은 최종 사용자들을 위한 친숙한 UI 기능이 드물다. 오픈소스 프로젝트로 ‘플라밍고’가 있긴 하지만 상용 솔루션만큼의 성능을 선보이려면 갈 길이 멀다. 어렵기 때문에 도전할 가치가 있다고 본 것일까. 김병곤 대표는 “만들어 놓고 나면 가장 큰 위력을 발휘하는 게 UI”라며 기대감을 보였다.

클라우다인은  ‘플라밍고’에 UI 모듈을 각 하둡 소스와 연결해 하둡 솔루션이라면 연계해서 사용하게 만들겠다는 전략을 구상했다. 오픈소스 프로젝트 원칙에 따라 소스는 공개하지만 수익은 분석을 위한 모듈을 판매하면서 얻겠다고 밝혔다. 각 모듈을 선택해서 작업 흐름을 짜는 건 개인 몫이다. 다만 쉽게 작업 흐름을 만들고 싶다면 클라우다인이 만들어 놓은 작업 흐름을 구매하라는 식이다.

클라우다인은 하둡 UI 외 실시간 빅데이터 분석에도 집중하고 있다. 실시간 빅데이터 서비스는 쇼핑몰 사이트 사용자 클릭 흐름을 통해 실시간 맞춤형 서비스를 제공, 카드사 결제 정보와 로그정보를 기반으로 개인을 노린 마케팅이 가능해지는 등 새로운 시장을 열고 있다. 김병곤 대표는 데이터를 빨리 처리하고 분석하는 일도 앞으로 UI 못지않게 중요해질 것이라고 내다봤다.

“향후 데이터 처리에 있어 하둡이 중요한 역할을 할 것은 틀림없습니다. 다만 어떻게 하둡을 이용해서 빅데이터 분석을 할 것인가를 두고 기업 간 경쟁력이 달라질 것으로 보입니다.”

클라우다인은 실시간 이벤트 수집과 처리기술, 로그 수집과 분배기술, 대용량 데이터 배치 처리와 분석기술과 통합기술을 바탕으로 복잡한 사건 처리(CEP)를 실시간으로 처리하는데 집중했다. 데이터의 이동을 일정한 시간 동안 유지하는 것에 초점을 둔 셈이다. 클라우다인은 데이터가 이동할 때 질문을 던져 실시간 데이터 처리를 가능케 한다는 전략이다.

예를 들어 데이터 이동을 일정 시간 동안 유지할 수 있게 되면 직장이 강남인 30~35세 여성 중 강남역에서 10분 동안 있었던 사람만 분석할 수 있다. 기존에도 분석은 할 수 있었지만, 처리하는 과정이 좀 복잡했다. 데이터를 수집하는 시간과 처리하는 시간 사이의 오차, 그 사람이 어디로 이동할 건지에 대해 파악하는 데 시간이 걸렸기 때문이다. 클라우다인은 아래 그림처럼 쿼리문에 분석을 위한 조건 외 시간을 삽입하면 쉽게 실시간 분석을 할 수 있다고 설명했다.

김병곤 대표는 “결국 실시간 빅데이터는 실시간과 분석의 결합으로, 지금까지는 CEP에 대한 이해부족으로 시장에서 적용사례가 부족했지만, 앞으로는 빅데이터 시장에서 강력한 폭풍이 되지 않을까 싶다”라며 “앞으로 국내에 더욱 많은 하둡 솔루션 회사들이 나왔으면 하는 바람”이라고 말했다.