기업에서 빅데이터 기술을 도입하려 한다. 이때 기업에서 가장 먼저 해야 하는 일은 무엇일까. 인프라 구축? 기술검토? 아니면 전문가 섭외? 2월24일 ‘솔루션커넥트 2015’ 행사에 참여한 빅데이터 전문가들은 “의사 결정 권한을 가진 사람이 먼저 교육받아야 한다”라고 조언했다.

한국IBM이 주최한 솔루션커넥트 2015 행사에선 빅데이터 전문가 3명이 참여해 강연을 했다. 참여자를 대상으로 설문조사도 동시에 진행됐다. 질문은 '의사결정에 도움을 주는 데이터를 동료에게 주었는데도 동료가 이를 제대로 활용하지 못하는 이유는 무엇일까요?'였다. 답안은 4가지로 다음과 같이 주어졌다.

1. (동료가) 기본적으로 자료 자체를 활용하려 하지 않는다.
2. (동료가) 자료를 읽고 분석하는 것에 익숙하지 못하다.
3. (동료가) 자료 품질에 대해 기본적으로 신뢰하지 못한다.
4. 1, 2, 3번 모두 해당한다.

참여자 중 150명이 현장투표를 했더니, 4번을 투표한 응답자가 가장 많았다. 즉, 3가지 보기가 현재 빅데이터 도입의 문제점을 지적하고 있는 셈이다. 4번을 제외하고 나머지 답변을 보면 근소한 차이로 2번을 투표한 사람이 많았다. 회사 직원들이 주어진 데이터를 보고 그 의미를 이해하지 못하고 있다는 말이다.

▲  '솔루션커넥트 2015'에선 참여자를 대상으로 설문조사가 진행됐다.
▲ '솔루션커넥트 2015'에선 참여자를 대상으로 설문조사가 진행됐다.

조성준 서울대학교 데이터 마이닝센터 교수는 “의사결정을 하는 사람들은 비즈니스에 관한 지식이 많은 사람”이라며 “데이터에 대해 잘 모를 수밖에 없다”라고 설명했다. 이건 단순히 관리자에게만 해당하는 문제가 아니다. 기술을 다루는 개발자조차도 데이터 분석은 생소할 수 있다. 그만큼 전문적인 분야이고 공부가 필요하다.

“데이터가 어떻게 만들어지는지, 왜 필요한지, 분석 결과가 어떤 모습인지 등 빅데이터 전체 과정을 배우는 게 필요합니다. 교육 이후 담당자가 데이터를 직접 조작할 수 있게요. 그래야 빅데이터 분석 결과가 어떤 효과를 줄지 미리 예상할 수 있습니다. 그게 빅데이터 도입할 때 가장 먼저 해야 하는 일이고, 이후 발생되는 걸림돌도 해결할 수 있습니다. 얼마 전 국내 반도체 기업은 교육의 중요성을 알고 수십명 직원 단위로 빅데이터 교육을 제공했습니다.”

▲  조성준 서울대학교 데이터 마이닝센터 교수(사진 : 한국IBM)
▲ 조성준 서울대학교 데이터 마이닝센터 교수(사진 : 한국IBM)

빅데이터를 도입할 때 기업은 크게 2가지를 고민한다. 빅데이터를 도입하고 누릴 수 있는 효과, 그리고 빅데이터 분석을 할 때 필요한 비용이다. 조성준 교수는 “인프라 고민을 먼저하면 원하는 효과를 얻지 못한다”라며 “마치 과거 CRM 기술을 무분별하게 도입하고 별다른 효과를 못 얻은 것과 비슷해질 것”이라고 설명했다.

조성준 교수는 “기술이나 비용 고민보다 원하는 효과를 미리 설정해야 한다”라고 강조했다. 이때 빅데이터 분석이 어떤 과정으로 진행되는지 알아야 효과를 정할 수 있다. 예를 들어 ‘이번 분석으로 마케팅 비용을 10분의 1 정도 줄일 수 있는지 확인해보자’라거나 ‘기존에 진행했던 복잡했던 제조과정을 한 단계 줄여도 될지 알아보자’라는 식으로 원하는 효과를 정해두는 것이다. 그 뒤에 담당자를 누구로 할지, 어떤 데이터를 쓸지 등을 고민하면 된다. 이러한 과정을 거치면 필요한 비용과 시간을 계산할 수 있고, 프로젝트 진행여부도 결정할 수 있다.

▲  빅데이터 분석을 할 때는 5단계를 거친다. 조성준 교수는 첫번째 단계가 가장 중요하다고 강조했다.
▲ 빅데이터 분석을 할 때는 5단계를 거친다. 조성준 교수는 첫번째 단계가 가장 중요하다고 강조했다.

분석 결과의 목표를 정해놓으면 비용도 줄일 수 있다. 최근 실시간 분석 기술이 업계에서 주목받고 있다. 하지만 모든 분석에서 실시간 분석 기술을 사용할 필요는 없다. 조성준 교수는 “도로교통 상황을 파악할 때 실시간 센서 정보를 전부 받아와 분석할 수 있다”라며 “하지만 일부 데이터만 받고 나머지 과거 교통량 통계를 합쳐 분석할 수 있다”라고 설명했다.

장윤정 한국IBM 빅데이터 분석실 실장은 “데이터를 분석할 때 무조건 비싼 인프라, 대규모 데이터가 필요한 게 아니다”라며 “필요한 데이터만 추려내는 식으로 중소기업 등에서도 충분히 도입할 수 있다”라고 설명했다.

빅데이터를 적극적으로 도입하려는 기업에서는 다른 곳에서 문제를 발견한다. 전용준 리비젼컨설팅 대표는 “실제 현장에서 컨설팅을 하면 데이터 품질이 문제다”라며 “데이터가 애초부터 분석을 위한 형태로 저장되지 않아 핵심 데이터가 없거나 데이터 형식도 맞지 않은 경우가 더러 있다”라고 설명했다.

▲  왼쪽부터 전용준 리비젼컨설팅 대표, 조성준 서울대학교 데이터 마이닝센터 교수, 장윤정 한국IBM 빅데이터 분석실 실장(사진 : 한국IBM)
▲ 왼쪽부터 전용준 리비젼컨설팅 대표, 조성준 서울대학교 데이터 마이닝센터 교수, 장윤정 한국IBM 빅데이터 분석실 실장(사진 : 한국IBM)

조성준 교수는 데이터 품질에 대한 예로 기기 분석 경험담을 들었다. 당시 프로젝트에선 기기가 1초에 10개 데이터 생성해야 의미 있는 분석을 할 수 있었다. 하지만 막상 데이터를 보니 1분에 1개 데이터를 생성하고 있었다. 과거 관리자가 데이터 저장 용량이 부족해 데이터 생성 개수를 줄인 것이었다. 이러한 데이터는 아무리 많이 있어서 필요한 분석을 할 수 없다. 의미있는 데이터가 없기 때문이다.

장윤정 실장은 최근 빅데이터 분석 흐름도 짚어주었다. 과거엔 주로 과거에 있던 데이터를 분석하고 시각화하는 데 그쳤다. 그는 “데이터를 가지고 미래 예측을 할 수 있는 분석이나 여러 예측 분석 중 어느 걸 선택해야 하는지 제안하는 분석도 부상 중”이라며 “데이터의 패턴을 찾아주는 기계학습, 문맥을 찾아주는 인지 컴퓨팅도 국내에서 주목을 받고 있다”라고 설명했다.

▲  장윤정 한국IBM 빅데이터 분석실 실장(사진 : 한국IBM)
▲ 장윤정 한국IBM 빅데이터 분석실 실장(사진 : 한국IBM)

분석 데이터 종류도 변화되고 있다. 조성준 교수는 “이전엔 데이터들이 대부분 숫자였는데 이제 문자도 많아지고 있다”라며 “또한 과거 문자는 대부분 소셜 데이터를 가져왔지만 이제 소셜미디어에서 벗어나 기업 내부에 있는 문자 데이터를 활용한다”라고 설명했다.

빅데이터에 대한 관심은 기업마다 다른 것으로 보인다. 국내에선 어떤 기업은 인지컴퓨팅, 예측 분석을 시도하고, 어떤 기업은 데이터를 모으는 것부터 시작하고 있다. 조성준 교수는 “결국은 많은 기업이 빅데이터 분석에 관심을 가지겠지만 현재는 기업마다 관심의 편차가 아주 크다”라며 “올해 당장 빅데이터 수요가 늘어나진 않을 것”라고 평가했다. 장윤정 실장은 “국내 제조업이 주로 제품 수명 관리 때문에 빅데이터에 관심이 많다”라고 덧붙였다.

저작권자 © 블로터 무단전재 및 재배포 금지