[빅데이터1년] ①테라데이타 “걸음마 뗐다”

가 +
가 -

‘빅데이터’. 국내외 대다수의 기업이 2013년에도 주목하겠다고 꼽은 단어다. 근데, 걱정이 앞선다. 이미 너무 많은 매체가 지난 한 해 빅데이터를 주목했다. 빅데이터 시장성, 가능성, 사례 등을 얘기했다. 갑자기 쏟아진 빅데이터에 사람들은 ‘귀에 딱지가 앉겠다’라는 반응을 보였다. 그럼에도 불구하고 빅데이터는 여전히 뜨거운 감자다. 많은 기업이 빅데이터를 주목하고 나섰으며, 빅데이터의 가치를 얘기하려고 한다. 그래서 1년전 ‘빅데이터’와 지금의 ‘빅데이터’는 뭐가 다른지 살펴봤다.

“단순한 데이터 활용에서 기업들이 원하는 상관요소들을 결합해 더 복잡해진 데이터들을 빅데이터라고 보면 됩니다. 복잡해진 데이터를 저장하고, 처리하고, 분석하려다보니 자연스레 빅데이터 분석 솔루션이 등장한 거지요.”

1년 전, 구태훈 테라데이타 이사는 빅데이터를 처리하는 데이터웨어하우스(DW)와 데이터베이스(DB), 어플라이언스들이 어느날 갑자기 출현한 게 아니라고 주장했다. 정보기술이 발전하면서 자연스레 데이터 처리 비용이 낮아졌고, 기업들이 더 많은 데이터를 감당할 수 있게 되면서 빅데이터를 처리하는 장비들이 등장했다고 설명했다. 테라데이타가 2011년에 선보인 ‘테라데이타 애스터 맵리듀스 플랫폼’ 분석 솔루션도 그 연장선에서 나온 거라고 구 이사는 말했다.

테라데이타는 DW 분야 선두 기업 중 하나다. 30여년 동안 정형화된 데이터 처리와 분석에 강점을 보여 왔다. 사진, 동영상, 웹로그 같은 비정형 데이터가 범람하는 빅데이터 시대가 오기 전까지는 그랬다. 시장은 비정형 데이터를 어떻게 처리해야하는지 고민하기 시작했다. 이에 테라데이타는 2011년 4월 대용량 데이터 분석업체인 ‘애스터데이터’를 인수하며, 정형화된 데이터에서 비정형까지 포함한 데이터로 분석 범위를 넓혔다.

애스터데이터 인수 후 테라데이타는 기존 DW 기술을 기반으로 기업의 정형화된 데이터를 분석하는 영역에 비정형화된 데이터를 정형화하고 분석하는 영역을 더했다. 하둡 상용 솔루션 업체인 호튼웍스와 손잡고 애스터데이터에 맵리듀스와 대용량 데이터 전처리 프로세싱 기술을 녹였다. 여기에 테라데이타의 장점을 적용해 SQL 기반 기술로 비정형 분석과 예측, 시공간 분석, 실시간 분석 등이 가능한 플랫폼을 만들었다. 그 결과물이 ‘테라데이타 애스터 맵리듀스 플랫폼’이다. 지난해 테라데이타는 하둡과 애스터데이타, 테라데이타라는 삼각편대로 빅데이터 시장에 접근했다.

teradata

# 시장이 관심 보이기까지 11개월

“지난해 빅데이터 시장에 대한 관심은 어마어마했습니다. 그러나 실제로 프로젝트가 진행된 건 거의 없었지요. 이제서야 조금씩 빅데이터 관련 프로젝트들이 진행되고 있는 추세라고 할까요. 이마저도 빅데이터 플랫폼을 도입하기보다는, 빅데이터 플랫폼을 만들기 위해 걸음마를 뗴고 있는 단계입니다.”

구태훈 이사는 지난해 빅데이터 시장에서 괄목할만한 성과는 아직 없었다고 평가했다. 매체의 관심과 달리, 기업은 빅데이터 시장에 매우 신중하게 접근했다. 비정형 데이터가 늘어났다고 하지만, 대다수의 기업은 정형 데이터를 활용하는 데 최적화 된 플랫폼을 갖추고 있는 상태였다. 검증되지 않은 비정형 데이터를 분석하겠다고 빅데이터 플랫폼 도입을 검토한 업체는 드물었다.

“그나마 제조업체와 물류업체가 빅데이터에 관심을 보였습니다. 고객관리, 품질관리, 수율 최적화 등 기존 업무 프로세서에서 안봤던 데이터를 개선해보자는 얘기가 나오더군요. 국내 굵직한 제조업체와 유통업체를 중심으로 빅데이터 플랫폼 구축 얘기가 나오기 시작했습니다.”

이마저도 빅데이터를 떠들기 시작한 지 11개월 만에 일어난 일이다. 구태훈 이사 설명에 따르면, 국내 기업은 기기 데이터, 웹 로그, 웹 애플리케이션 데이터, 소셜 데이터 활용에 관심을 보였다고 한다. 이 중 특히 주목한 분야는 기기 데이터와 웹 로그, 웹 애플리케이션 데이터다. 제조업이 발달한 국내 시장에선 대량의 기기 데이터를 활용해 제조 수율을 어떻게 높일 것인지, 장비를 어떻게 하면 효율적으로 쓸지를 중심으로 고민했다. 대용량 데이터 처리 기술 정도가 곧 기업의 이윤으로 연결되는 상황인만큼, 제조업체의 빅데이터에 대한 관심은 상당했다.

“맥킨지가 예고한 것처럼 빅데이터 시장이 흘러가고 있다고 할까요. 제조업, 기간산업 중심으로 빅데이터에 대한 얘기가 많이 나오고 있습니다. 인터넷 업체들이 빅데이터에 대한 관심과 기술 성취도는 높지만 예산이 부족한 탓에 빅데이터에 대해 본격적으로 뛰어들고 있지는 않은 상태입니다.”

# ‘로그데이터’에 주목

이쯤되면 테라데이타가 지난해 국내 시장에서 어떤 산업분야에 빅데이터 솔루션 마케팅을 펼쳤는지 짐직할 만하다. 유통업과 제조업체를 노렸다. 해당 분야에서 빅데이터에 대한 얘기가 가장 활발히 진행됐기 때문이다.

“소셜분석 시장을 바라보지 않은 건 아닙니다. 하지만 소셜분석에는 ‘한글’이라는 장벽이 엄연히 존재합니다. 국내 업체와 손을 잡지 않으면, 해결할 수 없는 부분이지요. 그래서 저흰 로그데이터로 시선을 돌렸습니다. 기존에 고객이 수차례 접하면서도, 제대로 활용하지 못했던 데이터 시장으로 말이지요.”

로그 데이터 속에는 사용자 발자국이 남아 있다는 얘기가 있다. 그간 비용 때문에 기업이 다루지 못했던 로그 데이터 속에는 언제쯤 기기가 고장날 예정인지, 사용자들이 물건을 언제 가장 많이 구매하는지 등에 정보가 담겨 있다. 구태훈 이사 설명에 따르면, 반도체 공정업체는 이미 빅데이터라고 불리는 수율 데이터를 활용하거나 활용을 검토중이었다.

실제로 테라데이타는 지난해 지난해 국내외 굵직한 제조업체와 중공업 기업과 손잡고 빅데이터 분석 사업을 진행했다. 취급 품목수와 전체 취급상품 합리화를 위해 이마트 같은 유통업체와 손을 잡기도 했다. 한국정보화진흥원 빅데이터 전략연구센터가 발간한 ‘빅데이터 기업의 솔루션 및 서비스 추진현황’ 보고서에 따르면, 테라데이타는 자사 애스터 맵리듀스 플랫폼을 활용해 ‘이마트의 고객관계관리(CRM) 프로젝트’를 수행했다. 이마트는 이 플랫폼을 도입해 기존 고객 중심으로 상품을 평가하는 방식을 영수증 데이터 수준에서 분석하는 수준으로 끌어올렸다. 분석 결과는 마케터와 바이어, 점장들이 활용할 수 있는 영업지원시스템에 중요 정보로 제공됐다.

“빅데이터는 사실 기존 데이터와 크게 다르지 않습니다. 기업들이 빅데이터를 마케팅 용어라고 충분히 생각할 수 있지요. 어쩌면 빅데이터가 CRM일 수도 있습니다. 중요한 건 기존엔 활용하지 않았던 데이터를 어떻게 처리하느냐에 달린 겁니다. 보지 않은 데이터를 돌아봤다는 게 중요한 거지요.”

# 2013년엔 ‘유니티’가 대세

지난해 11월 테라데이타는 다양한 시스템으로 구성된 테라데이타 환경을 조직화할 수 있는 ‘테라데이타 유니티’를 발표했다. 정형데이터든, 비정형데이터든 구분하지 않고 테라데이타 유니티를 통해 통합적으로 데이터를 관리하겠다고 나섰다.

“하둡도 필요하고, EDW도 필요한 환경에서 통합 아키텍처를 지원한다고 나선 거지요. 음성정보, 동영상 이미지 등 로우 형태로 파일을 다룰 땐 하둡을, 고객 행동을 파악하기 위해 웹로그 분석을 할 땐 애스터데이터를 활용하는 거지요. 이를 모두 통합해 관리하는 환경은 테라데이타만 제공합니다.”

빅데이터 시장이 뜨면서 같이 거론되는 게 대용량 데이터 분산 처리 기술인 하둡이다. 대용량 데이터를 쉽게 쪼개서 정리하는 기술에 기업은 관심을 보였다. IBM과 오라클 등 DW 업체도 모두 하둡 지원을 약속했다.

테라데이타 역시 호튼웍스와 손을 잡고 하둡 지원에 나섰다. 하둡은 배치성 프로그램이다. 애스터데이터는 디스커버리형 프로그램이다. 테라데이타는 기존 자사 DW 솔루션과 하둡 사이에 애스터데이터를 놓았다. NoSQL인 하둡을 SQL을 다루던 DW 엔지니어들이 하루아침에 쓰기엔 무리가 있다는 생각에서다. 이제는 테라데이터 시스템간의 쿼리 전달과 동기화 기능을 제공하는 ‘테라데이타 디렉터’, 대용량 데이터를 로딩하는 ‘유니티 로더’, DW 구성요소를 모니터링하는 ‘유니티 에코시스템 매니저’, 테라데이타 시스템 간 데이터 이동을 담당하는 ‘유니티 데이터 무버’로 구성된 ‘테라데이타 유니티’ 포트폴리오로 빅데이터 시장에 접근할 계획이다.

“골프를 할 때 드라이버가 있고, 7번 아이언이 있고, 퍼터가 있는 것처럼 하둡이 필요한 상황이 있고, 그렇지 않은 상황이 있습니다. 이걸 적절하게 따져서 지원하는 게 핵심입니다. 무조건 하둡을 지원한다고 해서 빅데이터를 잘 처리하는 건 아닙니다.”

네티즌의견(총 2개)