SKT 빅데이터 분석, ‘타조’에 맡긴 까닭

가 +
가 -

SK텔레콤이 자사 빅데이터 처리를 위해 오픈소스 ‘Tajo(타조)’를 올해 초 도입했다. 타조는 국내 고려대학교 연구진이 빅데이터 분석을 위해 만든 오픈소스 빅데이터 분석 쿼리 엔진이다. 타조를 이용하면 하둡에 저장된 데이터를 SQL 언어로 빠르게 조회하고 분석할 수 있다. SK텔레콤은 국내 빅데이터 플랫폼 업체 그루터와 함께 기존 타조를 자사 시스템에 맞게 손질해 적용했다.

SK텔레콤은 초창기 빅데이터 분석을 위해 다양한 오픈소스 솔루션을 도입했다. 하둡을 이용해 전체 데이터를 수집하고, R과 파이썬으로 분석했다. 복잡한 데이터는 데이터베이스(DB)를 활용했다. 서비스마다 별도의 인프라를 사용하고 분석했다.

처음엔 문제가 없었다. 그러나 데이터가 늘어나면서 SK텔레콤은 어려움을 겪었다. 다양한 종류의 오픈소스 SW가 빅데이터 분석에 활용되면서 시스템이 멈추는 일이 발생했다. 서비스마다 따로 사용되는 빅데이터 기술을 관리하는 일도 만만찮았다. 오픈소스 SW를 도입해 사용하다보니 해결할 수 없는 버그도 많이 접했다.

“빅데이터를 분석할 때 오해가 많았지요. 오픈소스 SW를 가져다 그냥 쓰면 될거라 생각했고, 하둡 코드만 잘 활용하면 될 거라고 생각했습니다. 널리 쓰이는 오픈소스 SW는 나름 안정적일 것이라고 믿었지요. 이게 실수였습니다.”

park deview

박근태 SK텔레콤 데이터테크 랩 매니저는 10월15일 열린 데뷰 행사에서 수많은 오픈소스 SW 가운데 왜 타조를 선택해 빅데이터를 처리하고 분석했는지를 소개했다.

SK텔레콤은 오픈소스 SW를 도입했던 초기, 컴퓨터 성능 최적화 문제를 경험했다. 초기 빅데이터를 분석할 때 맞춰놓은 워크로드 튜닝이 데이터가 늘어날수록 어긋나기 시작했다. 초창기 설정한 튜닝이 나중에 가서는 허사가 되는 일이 빈번했다.

“분석할 빅데이터 양이 정해져 있는 게 아닙니다. 데이터를 처리하면 할수록 더 많은 데이터가 모이지요. 이 과정에서 서버 증설도 계속 이뤄집니다. 초기 데이터 양에 맞춰 서버 설정을 하면 나중에 문제가 생기더군요. 서버가 늘어날수록 설정도 바뀌어야 하는데 말이지요.”

문제를 해결하기 위해 또 다른 오픈소스 SW를 도입하기도 했다. “우리 데이터는 숫자나 문자가 맞아 스트링 연산이 많습니다. 그래서 클라우데라의 임팔라를 도입했는데, 대용량 데이터를 임팔라가 잘 처리하지 못하더군요. 그래서 우리가 직접 문제를 해결할 수 있는 오픈소스를 도입하자고 생각했지요.” 그렇게 선택한 답이 타조였다.

아파치 하이브, 클라우데라의 임팔라, 호튼웍스의 스팅거, 맵R의 드릴 등도 비슷한 기능을 제공한다. 그럼에도 왜 SK텔레콤은 굳이 타조를 선택했을까. 박근태 매니저의 대답은 간명했다.

“성능이지요. 타조를 도입하니 하이브를 사용했을 때 보다 3.7배 성능이 빨라졌습니다. 데이터 처리에 투입됐던 작업량의 70%를 줄일 수 있었지요.”

타조는 표준 ANSI SQL 언어를 사용해 쿼리 처리 시간이 100밀리초 밖에 안 걸린다. 그루터가 진행한 쿼리 처리 벤치마크 테스트에서 타조는 샘플 데이터를 330초만에 처리한 반면 하이브는 827초가 걸렸다. 게다가 타조는 하둡 기반 DW 시스템을 목표로 개발돼 다양한 종류의 대용량 데이터를 쉽게 연산하고 정렬하고 집계할 수 있다.

박근태 매니저는 “단순히 도입하는 선에서 그치지 않고 타조를 발전시킬 예정”이라며 “향후에는 그루터 등 타조 개발 업체들과 협력해 타조로 고급 분석까지 함께할 수 있는 ‘타조+R’을 개발할 생각”이라고 말했다.

타조는 현재 0.1 버전까지 나와 있다. SK텔레콤은 그루터와 함께 이달 안에 타조 0.2 버전을 선보일 계획이다. 1.0 버전은 내년초면 모습을 드러낼 예정이다.

네티즌의견(총 0개)