링크드인, 메타데이터 관리도구 ‘웨어하우’ 오픈소스로 공개

가 +
가 -

링크드인이 오픈소스 데이터 분석 기술 ‘웨어하우’를 3월3일 공개했다. 데이터 분석할 때 필요한 메타데이터가 ‘어디에(Where)’에 있고 ‘어떻게(how)’ 찾을 수 있는지 알려주는 소프트웨어다.

웨어하우는 하둡분산 시스템, 하이브 데이터 웨어하우스, 테라데이터 등 다양한 데이터 시스템과 통합되며, 관련 메타데이터를 주기적으로 추출한다. 이를 이용하면 데이터 흐름을 시각화하고, 쉽게 탐색할 수 있으며 그래픽 UI나 API 형태로 이용할 수 있다. 실제 동작 환경은 다음과 같다.

wherehows_collaboration_ui_demo

링크드인은 “웨어하우를 이용해서 스키마 구조, 저장 위치, 수정 시간, 권한 정보 등 다양한 메타데이터를 얻어낼 수 있다”라며 “HDFS에서만 2만5천개 넘는 메타데이터 모음을 얻어냈으며, 아즈카반같은 오픈소스 스케줄러에서 15만개 넘는 흐름도를 추출하기도 했다”라고 설명했다. 웨어하우 뒷단 구조는 다음과 같다.

wherehows_backend_arch

▲웨어하우 구조(사진:웨어하우 깃허브)

wherehows_METADATA

▲링크드인이 웨어하우로 수집한 메타데이터(사진:웨어하우 깃허브)

웨어하우는 아파치 라이선스 2.0으로 배포됐다. 자세한 원리와 설명은 깃허브 위키 페이지에서 볼 수 있다. 누구나 웨어하우 소스코드 개선에 기여할 수 있으며, 구글 그룹스로 웨어하우 개발자들과 토론할 수 있다. 더 많은 사람이 이용할 수 있도록 웨어하우 예제를 가상머신 이미지로 만들어놓기도 했다. 링크드인은 “앞으로 다양한 데이터와 관리도구를 통합해 메타데이터 범위를 넒히겠다”라고 밝혔다.

네티즌의견(총 1개)