아파치 ‘타조0.2’ 공개

가 +
가 -

오픈소스 빅데이터 웨어하우스 솔루션 ‘타조0.2’가 11월26일 공개됐다. 첫 공식 배포판이다. 타조는 하둡에 저장된 대용량 데이터를 SQL 질의를 이용해 분석하는 SQL온하둡 계열의 솔루션이다. 대규모 배치 작업과 실시간 상호 분석에 모두 사용할 수 있다.

이번에 출시된 타조0.2는 하이브가 사용하는 느린 속도의 맵리듀스 대신 자체 분산 처리 엔진을 사용해, 각 노드와 디스크 간 부하와 성능차이를 고려해 동적으로 작업을 할당할 수 있게 됐다. 또 질의 실행 중 수집한 통계 정보를 이용해 이후 실행 계획을 동적으로 최적화할 수 있는 데이터베이스 분야 고급 성능 향상 기법을 적용해 성능을 끌어올렸다.

TAJO

현재 빅데이터 웨어하우스 솔루션 시장에는 아파치 하이브를 비롯해 클라우데라 ‘임팔라’, 호튼웍스 ‘스팅거’, 아파치 ‘드릴’, EMC ‘호크(HAWQ)’, 페이스북 ‘프레스토’ 등 다양한 SQL온하둡 솔루션이 경쟁하고 있다.

타조 프로젝트 리더인 그루터 최현식 박사는 “다양한 유형의 데이터와 질의에서 테스트한 결과 타조가 하이브보다 평균 3배 이상 빠르고 일부 데이터 질의에 있어서는 수십배 이상 빠른 성능을 낸다”라며 “치열한 경쟁 구도 속에서도 타조는 실무 환경에서 요구하는 확장성과 내고장성을 지원하면서도 동시에 빠른 수행 속도를 제공하기 때문에 경쟁에서 승산이 충분히 있다”라고 설명했다.

확장성은 클러스터 자원 크기를 넘어서는 대용량 데이터를 처리할 수 있는 능력이며, 내고장성은 질의 처리 중 발생하는 오류를 다루면서 질의를 완료할 수 있는 기능이다.

권영길 그루터 대표는 “기업 환경이 요구하는 대규모 데이터 처리와 실시간 상호 분석을 하나의 솔루션으로 해결할 수 있다는 게 타조의 큰 장점”이라며 “타조는 표준 SQL을 지원할 뿐만 아니라 대부분의 하이브 질의도 그대로 사용할 수 있어, 하이브를 대체하는 빅데이터 DW 솔루션이 될 것으로 기대한다”라고 말했다.

SK텔레콤은 올해부터 타조를 빅데이터 분석 솔루션으로 활용하고 있다. SK텔레콤은 타조를 도입해 하이브를 사용했을 때 보다 평균 3.7배 성능이 향상시켰고, 데이터 처리에 투입됐던 작업량의 70%를 줄였다.

타조 개발팀은 더욱 다양한 SQL을 지원하고 테이블 파티셔닝, JDBC, 하이브 메타 스토어 호환 등의 기능을 추가해 오는 12월 새로운 버전을 출시할 계획이다.

네티즌의견(총 0개)