링크드인, 실시간 분석 SW ‘피노’ 오픈소스로 공개

가 +
가 -

링크드인이 6월10일 실시간 분석 기술 ‘피노’를 오픈소스 소프트웨어로 전환했다.

피노는 2014년 9월 처음 공개됐다. 당시 링크드인은 “2012년부터 데이터의 양이 예상범위를 훨씬 벗어낫다”라며 “대규모 데이터를 실시간 분석하는 기술이 필요해 피노를 만들었다”라고 밝혔다.

LinkedIn_01_before_and_after

▲링크드인 내부 데이터 활용 구조. 왼쪽이 피노를 이용하기 전, 오른쪽이 피노를 적용한 후다. (사진 : 링크드인 블로그)

링크드인은 피노를 개인 프로필 페이지나 기업용 분석 서비스에 적용하고 있다. 링크드인은 “25개 넘는 분석 서비스에 피노를 적용했다”라며 “피노를 활용해 하루에 수십억개의 데이터를 분석하고 있다”라고 설명했다.

LinkedIn_05_data_volume

▲링크드인에서 활용하고 있는 데이터 규모(사진 : 링크드인 블로그)

LinkedIn_02_applied_example

▲피노를 적용한 링크드인 개인프로필 화면(사진 : 링크드인 블로그)

LinkedIn_03_applied_example

▲피노를 적용한 링크드인 기업용 분석 서비스(사진 : 링크드인 블로그)

링크드인은 공개되지 않은 30여개 내부 기술 실험에도 피노를 활용하고 있다. 대표적으로 링크드인이 자체 개발한 A/B 테스트 플랫폼 ‘XLNT’에 피노를 결합했다.

LinkedIn_04_applied_example

▲피노를 적용한 링크드인 A/B 테스트 플랫폼. (사진 : 링크드인 블로그)

피노라는 이름은 ‘피노 누아르(Pinot noir)’라는 와인 이름에서 따왔다. 링크드인은 “피노 누와르 포도로 와인을 만들려면 아주 복잡하고 어려운 과정을 거쳐야 한다”라며 “데이터 역시 모으고 분석하기 어렵지만 제대로 관리하면 유용하다는 것을 피노라는 이름으로 표현했다”라고 설명했다.

링크드인 개발팀을 피노를 SQL과 비슷한 형태로 개발했다. SQL에서 이용했던 기능들은 대부분 피노에서 이용할 수 있다. 클러스터 관리를 위해 오픈소스 소프트웨어 ‘아파치 헬릭스’도 피노에 활용했다.

LinkedIn_06_high_level_architecure

▲피노 구조(사진 : 링크드인 블로그)

피노는 아파치2.0 라이선스가 적용됐다. 튜토리얼과 구체적인 구조에 대한 설명은 위키문서로 공개됐다. 소스코드는 깃허브에서 볼 수 있다.