빅데이터 실시간 처리, 머지 않았다

대용량 데이터 처리 엔진을 이용한 실시간 분석 기술이 나날이 발전하고 있다. 그 대표 주자 중 하나가 하둡(Hadoop)이다.

지난 6월 30일 레이미 스타타 야후(Yahoo) 최고기술책임자(CTO: Chief Technical Officer)는 더 레지스터(The Register)를 통해 “하둡에서 거의 실시간 분석이 가능해졌다”며 “야후에서 테스트 해 본 결과 하둡의 지연 시간은 약 15분 정도로 진정한 실시간이라고 말하긴 어려지만, 조만간 즉시 서비스를 분석할 수 있는 날이 올 것이다”고 말했다.

그는 또  “이는 다양한 부문에서 최적화 돼 있는 하둡 때문에 가능하다”며 ”하둡의 보완 기술과 알고리즘 기술이 진정한 실시간 분석을 가능케 할 것“이라고 덧붙였다.

하둡의 병렬 자연 처리 방식은 수천개의 노드(서버)를 사용해 과거 수일 걸렸던 테라바이트급 정보를 짧은 시간 안에 처리한다.

하둡이 인기를 끄는 이유는 상상할 수 없을 정도로 늘어나는 데이터를 비용 효율적으로 처리할 수 있기 때문이다. 관련 업계에서는 급증하는 비정형 데이터들을 빅데이터(Big Data)라고 부르고 있다.
최근 EMC의 후원아래 시장 조사 업체인 IDC가 발표한 ‘디지털 유니버스 보고서(IDC Digital Universe Study)에 따르면 2011년 전세계에서 생성되는디지털 정보량이 ‘ 1.8 제타바이트’에 달라고, 전세계의 디지털 정보량은 매 2년 마다 2배씩 증가한다.
1.8제타비이트는 대한민국의 모든 사람(약 4875만 명, 2010년 기준)들이 17만 847년 동안 쉬지 않고 매 분마다 3개의 트위터 글을 게시한 양이며 2천억 개가 넘는 HD 영화 (상영 시간 2시간 기준)의 양이다.
이 같은 빅 데이터의 실시간 분석은 기업들이 더욱 정확하게 고객의 취향, 행동 등을 실시간으로 알 수 있게 해 빠른 의사결정을 내리게 도와준다. 예를 들면, 소셜네트워크 실시간 분석을 통해 특정 시간에 어떤 제품이 인기를 끄는지, 사람들이 어떤 제품이 관심이 있는지 파악한 뒤 기업이 실시간 대처하는 게 가능해진다.

이에 대해 실리콘벨리 기반 기술 동향을 전하는 유명 해외 블로그 기가옴(GIGAOM)은 지난 7월4일 현지 애널리스트들의 말을 인용해 “실시간 분석에 있어 아직 새로운 것은 없지만, 하둡 같은 경우 일상적으로 사용되는 로컬 스토리지 서버 내 모든 조직들의 모든 데이터를 분석할 수 있다”며 “그 결과 기업들은 소셜미디어를 통한 실시간 의견이나 웹페이지 댓글, 서버 로그 파일들을 활용해 경영 전략을 세울 수 있게 됐다”고 전했다.

그는 또 “몇 년 전에는 가능하지 않았던 기술이 놀랄만한 속도로 발전하고 있다”며 “앞으로 실시간 분석이 어떻게 진화할지 기대된다”고 말했다.

블로터닷넷 엔터프라이즈, 클라우드, 기업용 SW를 담당합니다. 하루가 다르게 변화하는 IT 세상에 조금이라도 더 빨리 적응하기 위해 노력중. 마음과 몸이 자라는 기자가 되겠습니다. izziene@bloter.net, @izziene

  • 구글플러스
  • 블로터닷넷 아카데미, 북스, 컨퍼런스 그리고 블로터TV

    아카데미 | Academy

    북스 | Books

    컨퍼런스 | Conference

    블로터 | TV