“하둡, 값싸고 활용도 높으니 찾을 수 밖에”

가 +
가 -

요새 빅데이터 관련 제품을 살펴보면 ‘하둡’이란 단어가 빠지지 않는다. 마치 하둡이 모든 빅데이터를 다룰 수 있는 마법의 가루라도 된 듯하다. 테라데이타의 ‘SQL-H’부터 EMC의 ‘피보탈HD’, 마이크로소프트의 ‘HD인사이트까지’, 아파치 하둡의 매력은 무엇이기에 데이터베이스(DB) 업체와 데이터웨어하우스(DW) 업체를 사로잡은 것일까.

대용량 데이터 처리에는 고도 병렬처리(MPP)법도 존재한다. 그런데 왜 하둡의 인기만 유독 높은 것일까. 이에 대해 제프 마크헴 호튼웍스 아태지역 기술 총괄 디렉터가 단순하면서 명쾌한 답을 내놨다. 상대적으로 아주 저렴하다못해 무료인 가격이 하둡의 인기 요인이다.

“하둡은 오픈소스입니다. 무료로 내려받아 사용할 수 있다는 뜻이지요. 진입장벽이 낮기 때문에 하둡이 빅데이터 처리에 있어 인기가 유독 높은 겁니다. 하둡 역시 MPP와 비슷한 처리 방식을 가지고 있습니다. 대용량 데이터를 분산해 저장하고 처리할 수 있습니다.”

매번 IT 예산으로 골치를 앓던 기업엔 하둡이 큰 비용을 들이지 않으면서도 대용량 데이터를 처리할 수 있는 대안으로 보였을 것이다. 원하면 무료로 내려받아 상용 하드웨어로 실험해 볼 수 있을 테니까.

hortworks

그 뿐만이 아니다. 제프 총괄 디렉터는 하둡이 MPP와 차별되는 데이터 처리성과 다양한 개발 활용성을 인정받아 빅데이터 시장에서 인기가 높다.

“MPP는 정형 데이터를 다루는 데 최적화돼 있습니다. 하둡은 다릅니다. 동영상, 이미지, 소셜데이터, 센서데이터 같은 비정형 데이터도 얼마든지 저장하고 처리할 수 있지요. MPP가 SQL 기반으로 주로 개발을 한다면 하둡은 자바나 파이썬, SQL 인터페이스 기반의 하이브를 활용합니다. 다양한 개발도구를 사용할 수 있지요. 테라데이타를 비롯해 오라클, IBM, EMC, MS 같은 기업이 하둡을 주목한 이유가 여기에 있습니다.”

시장조사업체 IDC 자료에 따르면, 2020년이 되면 현재 20ZB에 이르는 데이터가 40ZB로 늘어날 전망이다. 이 보고서는 이 데이터 중 85%를 비정형 데이터가 차지할 것으로 내다봤다. EDW와 하둡을 연계하는 일은 늘어나는 비정형 데이터를 처리하기 위한 필수 조치인 셈이다.

“빅데이터 프로젝트에서 하둡은 중요한 요소 중 하나입니다. 첫째, 대용량 데이터를 저렴하게 처리할 수 있게 도와주고 둘째, 비정형 데이터를 다룰 수 있게 도와줍니다. 빅데이터 프로젝트에서 하둡이 핵심이 될 수밖에 없으니, EDW 업체는 하둡과 연계할 수 밖에요.”

그렇다고 반드시 빅데이터 프로젝트를 할 때 하둡을 지원하는 EDW를 구입하거나 이 EDW를 통해 빅데이터 분석을 지원할 필요는 없다. 모든 기업이 시작부터 빅데이터 분석을 통해 가치를 찾아낼 필요는 없기 때문이다.

호튼웍스는 빅데이터 프로젝트 초기, 고객사가 가지고 있는 빅데이터의 가치를 알아보기 위해 작은 데이터부터 분석을 시작해 볼 것을 권유하는 편이라고 한다. 대부분 기업이 보유한 데이터 중 작은 데이터에서 나오지 않는 가치가 갑자기 대규모로 분석한다고 해서 나올 가능성은 거의 없기 때문이다.

“빅데이터를 분석할 때 고객조차도 자신이 무엇을 찾으려고 할 지 모를 때가 많습니다. 그럴 때 하이브로 쿼리를 던지면서, ODBC를 이용해 작게 데이터를 분석해보면서 어떻게 데이터를 살필지 생각해 보는 거지요. 사용자 맞춤형 정보를 제공하는 데 처음부터 ‘빅데이터’를 쓸 필요는 없습니다.”

제프 총괄 디렉터는 하둡의 한계를 인지하고 프로젝트를 시작하는 것도 중요하다고 조언했다. 하둡은 실시간보다는 일정 시간이 걸리는 배치에 유리하다. 호튼웍스도 이 단점을 알고 극복하기 위해 ‘스팅거’를 내놨다. 경쟁업체인 클라우데라는 ‘임팔라’를, 맵R은 ‘드릴’을 선보였다.

“우리도 하둡의 한계를 잘 알고 있지요. 다만 경쟁업체보다는 좀 더 유리한 위치에 서 있어요. 클라우데라는 임팔라가 사용하는 클러스터와 하둡 클러스터가 분리돼, 하둡2.0과 임팔라가 호환이 되지 않습니다. 드릴은 아파치재단에서 1년 반 정도 진행됐는데 여전히 알파 단계에 머물러 있어요. 스팅거는 하둡을 하이브 기술과 연계해 활용하기 때문에 상대적으로는 실시간에 가깝게 처리할 수 있습니다. 그럼에도 상용 솔루션과 비교하면 부족한 편이에요.”

제프 총괄 디렉터는 아직까지는 대용량 데이터를 처리하는 데 테라데이타나 오라클 같은 상용 데이터 처리 기업의 기술이 훨씬 많다는 걸 인정했다. 그렇기에 그는 호튼웍스만의 하둡 상용 솔루션을 추구하기보다는 기존 EDW의 데이터 분석 기술도 사용하면서 하둡 생태계도 아우를 수 있는 통합 솔루션의 등장을 원했다.  EDW와 하둡의 장점을 동시에 취할 수 있는 커넥터라고 할까.

그는 테라데이타를 예로 들어 “하둡의 저장된 데이터를 DW를 옮길 수 있는 일종의 데이터 커넥터를 개발해 테라데이터 고객들이 하둡 사용을 더욱 쉽게 사용할 수 있게 도울 생각”이라고 밝혔다.

“앞으로는 호튼웍스와 테라데이터의 ‘SQL-H 포 테라데이타’ 관계처럼 하둡 상용 솔루션과 EDW 업체간 통합이 지속적으로 이뤄지지 않을까 생각합니다. 분석 도구나 시각화 도구면에서 통합이 이뤄지지 않을까 싶어요.”

물론 이 과정에서 특정 기업과의 통합만을 내세우는 건 아니다. 지금은 테라데이타와의 긴밀하게 협력하고 있지만 다음은 마이크로소프트가 될 수도, 오라클이 될 수도 있다.

“중요한 건 쉽게 쓰기 위해 노력을 많이 기울이고 있다는 점입니다. 기존 EDW와의 통합을 현재로서는 가장 중요하게 생각하고 있습니다.”