하둡, 데이터 분석에 활용하기까지

하둡. 혜성처럼 등장해 대용량 데이터 처리 부문에 있어 사실상 표준으로 자리잡은 기술이다. 하둡이 제공하는 분산파일시스템(HDFS)과 맵리듀스는 오픈소스 프레임워크로 수 페타바이트(PB)에 이르는 대용량 데이터를 저렴한 비용으로 빠르게 처리하고 분석할 수 있게 도와준다.

이렇게 좋은 솔루션이지만 막상 국내 기업이 하둡을 도입해 활용하기까지는 꽤 긴 시간이 걸렸다. 5년 전만 해도 하둡은 새로운 데이터 처리 기술 중 하나에 불과했다. 그 당시만 해도 관계형 데이터베이스 관리시스템(RDBMS)으로 충분히 데이터를 처리할 수 있다고 믿는 사람들이 많았다. 새롭게 배워야 사용할 수 있는 하둡을 반기는 이들은 많지 않았다.

이후 비정형 데이터가 등장하고 기업이 감당해야 할 데이터가 많아지면서 하둡에 대한 관심이 높아졌다. 기존 솔루션으로 데이터를 감당하기에는 너무나 많은 비용과 시간이 들었던 탓이다.

이제 국내에서도 하둡을 도입해 활용하고 있는 기업 사례를 적잖이 만날 수 있다. 주로 인터넷 서비스업체와 통신사 위주긴 하지만. 다음커뮤니케이션, 줌인터넷, KT는 하둡을 공부만 하는데서 벗어나 실제 서비스에 도입해 운영하고 있다.

KT, 인터넷전화 서비스 기록만 50TB

KT는 통신분야 데이터 로그 처리와 해석을 위해 하둡을 도입했다. 클라우드웨어 설명에 따르면 KT 인터넷전화 서비스에서만 약 50TB에 이르는 로그 데이터가 발생한다. 여기에 스마트폰 사용자가 늘어나면서 무선 데이터가 폭발적으로 증가해 매년 사용량이 배 이상으로 뛰는 상황이다.

정구범 KT 클라우드웨어 프로젝트 매니저는 “통신 사용자는 점차 늘어나고 있는데, 매번 장비를 사기란 만만치 않았다”라며 “빠른 시스템 확장을 바탕으로 한 신규사업 준비가 필요한 상황에 하둡을 도입하기로 결정했다”라고 말했다.

KT는 정형 데이터 분석과 리포팅엔 기존 DW를, 대용량 데이터 분석과 리포팅엔 하둡, 분산 검색, H베이스, 하이브, R 바탕의 넥스알 빅데이터 분석 플랫폼(NDAP)을 활용하기 시작했다.

“특정 지역에서 무선 데이터를 사용한 고객들의 전체지역, 시간대별 데이터 사용패턴을 파악할 수 있게 됐습니다. 거의 실시간 수준에 가깝게 분석 결과가 나오더군요.”

KT는 NDAP을 활용해 어느 지역에서 통화 폭주 현상이 발생하는지, 사용자 통화 품질이 이상해질만한 곳은 어디인지를 쉽게 예측해 관리할 수 있게 됐다. 기존 시스템으론 상상도 할 수 없는 일로, 서비스 규모와 질이 달라졌다.

“과거에 대용량 데이터 분석을 하려면 수직적 확장 구조에 단일 노드 구조라 데이터 양이 증가하면 성능이 저하되고 비용이 증가하는 상황이었습니다. 하둡 기술의 등장으로 대용량 데이터를 손수 처리하고 분석할 수 있게 됐습니다.”

줌·다음 “하둡, 써보고 얘기하자”

줌인터넷과 다음과 같은 인터넷 서비스 업체들은 주로 검색 로그를 처리할 때 하둡을 활용했다. 인터넷 서비스는 사용자에게 빠른 검색 결과를 보여주기 위해서라도 신속한 데이터 처리가 중요하기 때문이다.

김우승 줌인터넷 연구소장은 국내에서 하둡 관련 지식이 풍부한 사람으로 알려져 있다. 그는 빅데이터 열풍이 시작될 때 자신의 블로그를 통해 하둡 관련 정보를 게시했다. 그런 김우승 연구소장인만큼 적어도 남들보다는 좀 더 수월하게 하둡을 사내 시스템에 도입하지 않았을까.

“거창하게 빅데이터 플랫폼을 고민하고 투자하기보다는 일단 한 번이라도 시작해보는 중요합니다. 생각외로 하둡은 어렵지 않습니다.”

남들과 다를 바 없었다. 김우승 연구소장도 직접 하둡 플랫폼을 만들어보고 운영하면서 하둡의 장단점을 배워나가기 시작했다. 그는 “하둡에 대해서 무조건 두려움을 갖기보다는, 일단 작게라도 데이터를 잘 모으는 방법에 대한 고민을 하고 이에 필요한 데이터 흐름을 파악한 뒤 하둡 도입 여부를 정하라”라고 강조했다.

줌 인터넷은 중복문서 제거, 스팸문서, 성인 필터링, 문서 클러스터링, 검색 순위 계산 등 다양한 검색 로그 분석에 하둡과 HBASE를 도입했다. 원시데이터에 대한 ETL 처리는 피그로, 데이터 분석엔 하이브를 사용해 데이터 분석 프로세스 작업을 진행했다. 비용절감 효과와 시간단축 효과를 경험했음은 물론이다.

[slideshare id=15184870&doc=random-121114230424-phpapp01]

‘줌인터넷 빅데이터 활용 사례’ 발표 자료 보러가기~!

다음커뮤니케이션도 줌인터넷과 비슷하게 로그 분석을 통한 타깃 분석, 카페 로그 분석을 통한 사용자 카페 추천 서비스, 검색품질 랭킹 분석 개선, 게임 서버 로그 분석에 하둡을 활용했다. 클러스터 서버 6개에 하둡과 SAS, R, 스칼라를 활용해 결과를 분석해 냈다. 원시데이터를 하둡이 바로 처리한 덕에 기존 DW 시스템과 비교해 빠르게 검색 결과를 얻어낼 수 있게 됐다.

그 외에도 다음은 전사 로그를 통한 통계 분석, 다음 추천 서비스, 사물 검색 이미지 역색인, 자연어 처리 텍스트 분석, 모바일 광고 데이터별 매체 분석 등에 하둡을 사용하고 있다. 다음이 보여주는 서비스 뒷단에는 거의 하둡이 자리잡고 있는 셈이다.

다음 내부에서 빅데이터 관련 업무를 맡고 있다고 자신을 소개한 팀장은 “다음은 대용량 데이터 분석을 개발자들이 보다 쉽게 할 수 있게 하둡 사용을 장려하고 있다”라며 “개발자들이 각자 사용할 수 있는 가상서버가 있고, 그 서버 위에서 하둡 플랫폼을 운영할 수 있다”라고 말했다. 전사 시스템을 하둡으로 가져가기보다는 각 팀내 서비스별 친 하둡 환경을 만든 셈이다.

[slideshare id=12709216&doc=daum-bigdata-hadoop-usecases-120426194057-phpapp01]

‘다음 내부 빅데이터 기술 활용 사례’ 발표 자료 보러가기~!

블로터닷넷 엔터프라이즈, 클라우드, 기업용 SW를 담당합니다. 하루가 다르게 변화하는 IT 세상에 조금이라도 더 빨리 적응하기 위해 노력중. 마음과 몸이 자라는 기자가 되겠습니다. izziene@bloter.net, @izziene

  • 구글플러스
  • 블로터닷넷 아카데미, 북스, 컨퍼런스 그리고 블로터TV

    아카데미 | Academy

    북스 | Books

    컨퍼런스 | Conference

    블로터 | TV