빅데이터 플랫폼, 표준은 ‘하둡’

가 +
가 -

“하둡 자체는 파일 시스템과 분산 처리 플랫폼이지만, 하둡을 중심으로 다양한 에코 시스템이 구축되면서 하둡은 빅데이터에 있어 산업계 표준이라고 할 수 있습니다.”

국내 하둡 전문기업 그루터의 김형준 수석이 자신의 블로그를 통해 남긴 글이다. 그의 말처럼 하둡이 빅데이터 처리와 분석을 위한 플랫폼 시장에서 사실상 표준이 되고 있다. 국내외 빅데이터 컨퍼런스 관련 주제에서 하둡이 빅데이터 플랫폼에 빠지지 않고 거론되는 걸 보면 알 수 있다. 해외 ‘빅데이터 컨퍼런스’, 국내 한국데이터베이스진흥원이 주관하는 ‘빅데이터 전문가로 가는 길’, 국내 커뮤니티가 준비한 빅데이터 행사인 ‘빅데이터 오픈소스 플랫폼 기술세미나’ 등 여러 행사에서 아파치 하둡과 다양한 NoSQL에 대한 기술 논의가 빠지지 않고 등장한다.

이유는 단순하다. 관계형 데이터베이스 관리 시스템(RDBMS) 기반의 솔루션으론 빅데이터를 수용하기 힘들어지면서다. 빅데이터 시대가 되면서 기업은 ‘빅(큰)’ 문제에 부딪혔다. 트위터, 페이스북 같은 사회관계망 서비스(SNS) 사용자가 늘어나고 모바일 기기로 동영상 콘텐츠를 소비하는 사람들이 늘어나면서 RDBMS가 지배했던 데이터 시장에 균열이 발생했다. 기존 솔루션으로 데이터를 감당할 수 있다 해도 천문학적인 시간과 비용이 소요됐다. 데이터 분석 못지 않게 저장과 처리 문제도 생겨났다. 이런 점에서 데이터 손실을 최소화 하면서 쉽게 복구할 수 있는, 기존 데이터 처리 플랫폼과는 다른 플랫폼에 대한 요구가 생겨났다.

대형 하드웨어와 솔루션 업체들이 공통으로 선택한 대안은 하둡이다. 하둡이 제공하는 분산파일시스템(HDFS)과 맵리듀스는 매우 단순한 프로그래밍 모델을 분산환경에 적용한 오픈소스 프레임워크다. 수 페타바이트(PB)에 이르는 대용량 데이터 저장에 드는 비용과 분석에 드는 시간을 획기적으로 줄일 수 있게 도와준다. 기존에 슈퍼컴퓨터를 며칠씩 돌려야 했던 데이터를 하둡을 이용하면 x86 서버로 실시간 분석이 가능하다.

구글, 야후, 페이스북과 같은 글로벌 웹서비스 회사들은 진작 하둡에 관심을 보였다. 데이터베이스 업체들도 하둡에 관심을 보였다. 테라데이터, EMC, IBM, 마이크로소프트, 사이베이스, 오라클도 하둡을 지원하겠다고 나섰다.

초창기 이들은 “하둡을 통한 빅데이터 처리는 안정성이 떨어진다”라고 비난했지만 지금은 전세가 역전됐다. 하둡 등장 전에 대용량 병렬처리 방법이 등장했지만, 폭증하는 데이터를 처리하는 데 비용 효율적이지 않았다.

델과 인포메티카, 오라클은 자사 솔루션을 하둡과 통합했다. 클라우데라, 맵R, 마이크로소프트는 하둡 관리 도구를 선보였다. 비즈니스 인텔리전스(BI) 솔루션 업체인 마이크로스트레티지도 하둡 품기에 나섰다.

여기서 잠깐 살펴보자. 단순히 자사 DB가 하둡을 지원한다고 해서 빅데이터를 감당할 수 있게 되는 건 아니다. 기존 데이터와 하둡을 이어질 수 있는 플랫폼이 있어야 한다. 같은 하둡을 도입 해도 데이터 플랫폼에 따라 데이터 처리와 분석 과정이 얼마든지 달라질 수 있다. 미국에서 하둡을 이용한 데이터 플랫폼이 대거 등장하고 이에 대한 투자가 발 빠르게 이어지고 있는 이유다.

호튼웍스, 맵R, 클라우데라 같은 기존 하둡 강자들 외에도 위비데이터, 인사이츠원, 클리어스토리 같은 신생 기업이 얼굴을 내밀었다. 최근 호튼웍스는 자사 데이터 플랫폼을 공개했다. 단순히 하둡 기술을 사용할 수 있다는 걸 밝히는 것 외에도 어떤 NoSQL 기술을 사용해서 하둡 플랫폼을 만들어냈는지 발표했다. 야후에서 하둡 관련 프로젝트를 담당했던 팀원들이 새로 새운 인사이츠원도 하둡 기반 분석 플랫폼을 공개했다.

해외서만 하둡 플랫폼에 관심을 보인 건 아니다. 국내엔 클라우드웨어와 그루터가 하둡 플랫폼을 준비하고 있다. 클라우드웨어는 넥스알, 아헴스 등을 인수하며 오픈소스 클라우드 환경을 구축한 뒤 그 위헤 하둡을 올리는 작업을 기획중이다. 자회사인 넥스알은 외산 기업 중심으로 하둡 시장을 바꿔보겠다는 포부를 밝혔다.

그루터는 수집, 실시간 분석, 저장, 배치에 이르는 데이터 처리 과정을 관리하는 소프트웨어 스택 솔루션인 Qoobah(쿠바)와 클라우몬이라는 플랫폼을 갖고 있다. 쿠바로 하둡 분산파일저장시스템(HDFS), 하이브, HBASE, 카산드라를 활용해 PB 이상의 원본 데이터와 수백억 건 이상의 실시간 트랜잭션을 처리할 수 있다. 클라우드몬으로는 데이터를 손쉽게 관리할 수 있다.

네티즌의견(총 3개)