‘아파치 하둡’과 손 잡은 기업들

가 +
가 -

‘아파치 하둡’은 오픈소스 검색 라이브러리인 아파치 루씬의 창시자인 더그 커팅이 구글의 파일 시스템 논문 공개 후 개발한 오픈소스 프로젝트다. 지난 2004년 구글은 대용량 데이터를 처리할 수 있는 구글 파일시스템 기술을 발표했는데, 이를 오픈소스 진영이 유사한 컨셉으로 만들어내면서 ‘아파치 하둡’이 생겨났다. 하둡은 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템과 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술인 맵리듀스를 구현한 오픈소스 프레임워크를 일컫는다.

하둡 프레임워크를 이용하면 대용량 데이터를 저렴하면서도 빠르게 분석할 수 있다.  기존에 슈퍼컴퓨터를 며칠씩 돌려야 했던 데이터를 하둡을 이용하면 x86 서버로 실시간 분석이 가능졌다고 할까. DB·DW 업계는 앞다퉈 하둡과 손을 잡았고, 하둡은 빅데이터 처리와 분석을 위한 플랫폼 시장에서 사실상 표준이 됐다. IDC는 ‘하둡과 맵리듀스 생태계 소프트웨어 풍경 2012‘라는 보고서를 통해 2011년 7700만달러 수준인 하둡과 맵리듀스 관련 시장이 2016년이 되면 8억1280만달러에 이를 것으로 보인다고 분석하면서 매년 60% 넘게 하둡 관련 시장이 성장한다고 전망했을 정도다.

오픈소스 하둡을 전문적으로 개발해 상용 솔루션으로 배포하는 기업도 등장했다. 클라우데라와 호튼웍스, 맵R이 대표적이다.  이들 업체들은 하둡을 기반으로 한 플랫폼을 만들고 이를 기존 DB·DW 솔루션 업체에 배포한다.

클라우데라는 2009년 클라우드 컴퓨팅 개념의 창시자로 알려진 클리스토퍼 비시글리아를 중심으로 설립된 업체로 더그 커팅이 클라우데라에 합류하면서 유명해졌다. 호튼웍스는 지난 6월 포털업체 야후와 실리콘밸리 벤처 자본 회사인 벤치마크가 오픈소스 아파치 하둡 사업을 위해 설립한 회사다. 맵R은 지난 8월 세워진 아파치 하둡 배포판 공급 업체다. 모두 하둡 기반 시스템을  다양한 분야의 고객에게 판매해 온 컨설팅 회사라고 보면 된다.

클라우데라를 제외하곤 모두 설립된지 이제 막 1년을 넘은 신생업체들이다. 그럼에도 불구하고 엔터프라이즈 솔루션 업체들은 이들과 손잡고 빅데이터 플랫폼 시장을 노리고 있다. 어떤 기업들이 이들과 손을 잡았을까.

■ 맵R : EMC, 인포매티카

EMC는 DW업체 그린플럼을 인수한 뒤 지난해 9월 비정형 데이터 저장을 위해 하둡을 탑재한 ‘그린플럼 DCA’를 출시했다. 이 장비가 등장하기 전까지만 해도 시장은 정형 데이터와 비정형 데이터를 나눠 따로 분석했다.  EMC는 맵R을 바탕으로 클라우데라와 같은 업체처럼 따로 하둡을 만든 다음 이를 자사 관계형 DBMS와 하나로 묶어내는 DW를 만들어냈다.

데이터 통합 소프트웨어 전문업체 인포매티카는 지난 5월 맵R과 손을 잡았다. 자사 데이터 플랫폼인 ‘인포매티카 플랫폼’에서 하둡용 맵R 배포판을 지원함으로써 대용량 데이터를 더 빠르게 통합하고 복제할 수 있게 하기 위해서다. 양사는  비정형 데이터를 처리할 수 있도록 함께 협럭하겠다고 발표했다.

■ 클라우데라 : 오라클, IBM

오라클은 지난해 11월 출시한 ‘오라클 빅데이터 어플라이언스’로 하둡과 손을 잡았다. DB 시장 강자인 오라클은 비정형 데이터의 원활한 처리를 위해 클라우데라와 손을 잡고 자사 어플라이언스의 클라우데라의 하둡을 탑재했다.

IBM은 하둡 시장에 비교적 빨리 관심을 보인 편에 속한다. IBM은 2010년 하둡 기반의 빅데이터 플랫폼을 개발하겠다고 발표했다. 그동안 인수했던 코그너스와 SPSS와 같은 분석 솔루션을 하둡과 결합해 비용 효율적으로 대용량 정보들을 처리, 분석할 수 있도록 하겠다는 전략이었다. 그러나 지난 4월 IBM은 자사 빅데이터 플랫폼에 탑재하는 하둡 배포판으로 클라우데라를 선택했다면서 자사 분석 소프트웨어인 ‘인포스피어 빅인사이트’를 통해 클라우데라와 손잡는다고 발표했다.

■ 호튼웍스 : 테라데이타, 마이크로소프트, 시만텍, VM웨어 

하둡 솔루션을 도입하거나 하둡을 개발한 다른 업체들과 달리, 테라데이타는 자사 데이터 처리 방식에 하둡 기술을 담았다. 테라데이타는 맵리듀스와 전통적인 DB 처리 언어인 SQL을 결합한 ‘테라데이타 애스터’를 갖고 있었다. 여기에 지난 6월 호튼웍스와 협력해 ‘애스터 SQL-H’라는 기술을 선보였다. 애스터 SQL-H는 어떤 방식으로 데이터가 저장되어 있는지 파악할 필요 없이 방대한 하둡 데이터를 직접 분석할 수 있도록 도와주는 게 특징이다.

마이크로소프트(MS)는 지난 3월 호튼웍스와 협력해 하둡에 저장된 데이터를 엑셀로 불러올 수 있는 ‘커넥터’를 개발했다고 발표했다. 하둡을 몰라도 엑셀만 알면 현업 사용자들이 하둡을 통해 데이터를 쉽게 처리할 수 있게 한 것이다. 그 뿐 아니다. MS는 지난 10월 윈도우 서버와 자사 클라우드 인프라 ‘애저’에 하둡 플랫폼을 통합한 ‘MS 하둡 프리뷰 에디션’을 선보였다. MS는 애저와 하둡 플랫폼을 통합함으로써 윈도우 서버와 애저 환경에서 하둡을 좀 더 편리하게 이용하고 관리할 수 있게 됐다고 설명했다.

시만텍은 지난 8월 호튼웍스와 손잡고 자사 데이터 관리 솔루션인 ‘클러스터 파일 솔루션’에 아파치 하둡 솔루션을 더한 새로운 빅데이터 관리 솔루션 ‘시만텍 엔터프라이즈 솔루션 포 하둡’을 출시했다. 기존 솔루션에 하둡 커넥터를 필요해 밉 리듀스와 하둡 스택을 추가함으로써 고객들이 대용량 데이터를 보다 원활하게 처리하고 분석할 수 있게 돕겠다고 나섰다.

호튼웍스와 손잡은 VM웨어는 조금 특이한 경우에 속한다. DB나 DW 업체가 아닌 가상화 솔루션 업체임에도 불구하고 아파치 하둡을 도입했다. 가상화 환경에서도 하둡 환경을 다룰 수 있게 만든다는 게 이유다. VM웨어는 지난 6월  가상화 환경에서 오픈소스 하둡을 배포하고 관리하기 위한 ‘세렝게티 프로젝트’를 시작하겠다고 발표했으며, 현재 솔루션 개발이 한창이다.