[IT열쇳말] 데이터과학

가 +
가 -

몇 년 전부터 주목받기 시작한 데이터과학은 복합적인 기술을 요구한다. 프로그래밍 지식이 있어야 하고, 수학과 통계학적 지식도 갖춰야 하며, 내용도 전문성을 갖춰야 한다. 이 접점에 ‘데이터과학’이 있다.

메타마켓의 CEO 마이크 드리스콜은 다음과 같이 말한 바 있다.

“현실에서 보듯이 데이터과학은 레드불과 같은 각성음료에 의지해 날밤을 새우는 해킹과, 에스프레소에 의해 영감을 받는 통계학의 혼합이다.”

최근 데이터과학과 관련된 시장이 성장하고 있다. 대기업에는 데이터과학 부서를 설립하고 데이터 산업과 관련된 스타트업도 늘어나고 있다. 물론 이전부터 ‘데이터’가 쓰이지 않았던 적은 없다. 그러나 지금 부르는 데이터과학이 단순히 엑셀 파일에 있는 숫자들을 그래프로 표현하는 걸 의미하진 않는다. 데이터를 단순히 분류하거나 분석하는 것 말고 데이터 속에 담긴 패턴이나 미래 예측에 도움이 되는 신호를 찾는 것 등을 아우르는 것이 데이터과학이다.

▲레드불, flickr, Anders.Bachmann. CC BY-SA.

▲레드불, flickr, Anders.Bachmann. CC BY-SA.

쇼핑몰 웹사이트를 예로 들어보자. 예전에는 여성 고객 수는 얼마인지, 여성 고객이 구매한 의류 총 금액을 얼마인지 통계를 냈다. 쇼핑몰 마케팅팀은 여성들이 자주 가는 카페나 커뮤니티에 쿠폰과 이벤트 정보를 보낸다. 이러한 마케팅이 어느 정도 효과를 볼 수는 있다. 하지만 모든 여성이 옷에 관심이 있을지, 쇼핑몰에 들어간 모든 여성이 옷 제품을 보고 구매 버튼을 누르는지는 알 수 없었다.

요즘은 쇼핑몰 사용자의 접속 방식, 체류 시간, 스크롤 패턴, 과거 구매횟수 등 다양한 데이터를 복합적으로 분석한다. 여기에 다양한 분석 기법을 더해 좀 더 확실한 잠재고객을 찾는다. 예를 들어 “e메일 광고를 보고 5분 안에 접속한 A그룹 고객에게 10% 이상 쿠폰을 제공하면, 해당 고객은 50% 확률로 제품을 구매할 것이다”란 식의 결론을 낸다. 이러한 결론을 토대로 기업은 새로운 자동화 시스템을 적용하고 고객 맞춤 서비스를 제공한다. 단순히 내부 쇼핑몰 데이터 뿐만 아니라 외부 데이터를 결합해 새로운 의미를 찾아내기도 한다.

홍보 영역에서는 이러한 전략을 활용할 수 있다. 기업이 두 가지 광고 문구 후보를 두고 어떤 것이 좋을지 고민하고 있다고 치자. 예전에는 임원진의 감이나 경험으로 특정 문구가 선택됐다. 하지만 미리 데이터 분석을 통해 경영진이 별로라고 생각했던 문구가 오히려 클릭 수와 판매액이 더 높은 것을 증명해낸다. 이를 통해 더 나은 홍보 전략을 세우기도 한다.

왜 지금 데이터과학인가?

▲데이터. r2hox, flickr, CC BY-SA.

▲데이터. r2hox, flickr, CC BY-SA.

왜 데이터과학이 필요할까? 삶의 많은 기록이 인터넷과 온라인에 축적되고 있다. 심지어 의식하지 못하는 오프라인의 행동도 데이터화되고 있다. 무심결에 카드를 찍고 지하철을 타고 원하는 목적지에 도착해서 내리는 동안 나의 이동거리가 기록된다. 카드 사용 내역을 보면 한 사람의 입맛을 알아내는 것도 어렵지 않다.

이렇게 데이터화가 가속되고 있는 세상에서 데이터는 실시간으로 ‘데이터 상품’의 소재가 될 수 있다. 데이터 상품이란 데이터를 이용해서 만들어진 서비스 등을 말한다. 데이터 상품은 정부 차원에서는 데이터 기반 정책이 될 수도 있고, 사소하게는 페이스북 친구추천 같은 서비스도 해당될 수 있다. 데이터는 오프라인에도 영향을 준다. 많은 양의 데이터에서 패턴을 찾아내 비즈니스 기회로 만들 수 있기 때문이다. 예를 들어, 대형마트에서 사용자의 구매 패턴을 살펴보고 “맥주와 기저귀를 같이 놓으면 매출이 상승할 수 있다”는 결론을 기업에 제안할 수도 있다. 데이터과학이 주목을 받는 이유도 이 데이터 상품에 있다.

예를 들기 위해 비즈니스의 사례를 사용했지만, 데이터과학이 비즈니스의 영역에서만 쓰이는 것은 아니다. 콜럼비아대학교의 ‘데이터과학 입문’ 과목은 60명의 학생이 수강했는데, 학생들은 다양한 배경을 가지고 있었다. 데이터과학에 관심있으리라 생각되는 통계학자, 응용수학자, 컴퓨터과학자는 물론 정치학자, 언론인, 환경공학자, 공기관 직원, 사회복지 관련 비영리법인 직원 등 다양했다. 어느 영역이든 데이터를 활용해서 중요한 문제를 해결하려는 사람은 데이터과학을 수행하는 사람이라고 할 수 있다.

데이터과학에 필요한 기술은?

데이터과학은 복합적인 기술을 요구한다. 웹의 수많은 데이터를 가져오고 분석해야 한다. 양이 엄청나게 많기 때문에 프로그래밍 능력이 있어야만 대규모의 데이터를 다룰 수 있다. 데이터를 분석하는 과정에서는 수학적, 통계적 지식이 필요하다. 당연히 데이터가 이야기하고 있는 해당 분야에 대한 내용적 전문성도 요구된다. 이 뿐만이 아니다. 많은 양의 데이터는 분석이나 결과를 내는 과정에서 시각화가 동반되는 경우도 많다. 표나 수치로 된 자료일 때는 확인할 수 없는 흐름을 읽어야 하기 때문이다. 데이터과학은 이런 다양한 영역의 접점에 있다.

▲드류 콘웨이의 데이터과학 벤다이어그램

▲드류 콘웨이의 데이터과학 벤다이어그램

해외에서 데이터과학자를 채용하는 공고를 보면 대부분의 직무 내용 설명에서 데이터과학자가 컴퓨터과학, 통계학, 커뮤니케이션, 데이터 시각화를 포함해 해당 분야의 전문성을 요구한다. 그러나 어지간한 사람이 아니고서는 모든 영역에서 전문가가 될 수는 없다. 데이터과학의 입문서로 사용되는 ‘Doing Data Science’(데이터과학하기)라는 책에서는 데이터과학을 ‘하나의 팀을 이룸으로써 전문적이 될 수 있는 것’이라고 설명한다. 다양한 분야의 능력이 한데 모여야 한다는 의미다.

꼭 전문가에게만 중요한 건 아니야

데이터과학은 어렵고 전문가만 접근해야 하는 영역이라고 생각할 수 있다. 연구원, 개발자, 엔지니어만 데이터과학을 시도할 수 있다고 보는 시선이다. 하지만 꼭 그렇지는 않다. 데이터과학에 대한 이해가 필요한 사람은 의사결정권자나 마케터, 기획자, 홍보담당자 등 여럿이다. 작은 기업이나 내부에 데이터과학 팀이 없는 곳에서 더욱 그렇다.

최근에는 데이터과학 관련 제품이 아예 컨설팅 형태나 서비스로 판매되는 경우가 많다. 실제로 그들은 마케터, 기획자들 등과 지속적으로 소통한다. 데이터과학 관련 상품을 판매하는 기업들은 대부분 ‘고객이 데이터로 무엇을 찾고 싶은지’부터 찾는다. 그리고 다양한 변수를 끊임없이 조작하며 원하는 결과를 찾는다. 이때 기술부서 외에 다른 부서에 있는 직원들이 데이터에 대한 이해도가 높을수록 어떤 변수를 조작해야 할지 아이디어가 나온다. 다양한 아이디어와 피드백이 나올수록 더 좋은 데이터 분석 결과물이 나올 수 있다.

▲물론 이것보다는 훨씬 어려운 수학이 필요하다. Dylan Ng, flickr, CC BY-SA.

▲물론 이것보다는 훨씬 어려운 수학이 필요하다. Dylan Ng, flickr, CC BY-SA.

사실 아주 깊은 데이터과학을 진행하기 위해서 어느 정도 시간이 걸린다. 수학, 통계적 지식이 필요하고 많은 논문을 읽어봐야 한다. 데이터마이닝, 프로그래밍, 알고리즘, 데이터 엔지니어링, 시각화 등 다양한 분야가 데이터과학에 섞여 있다. 비전문가는 이를 모두 알기 쉽지 않다. 따라서 만약 기술직이 아니라면 원리를 깊이 알기보다는 데이터과학의 큰 테두리를 이해하는 데 집중하는 것도 좋다. 이러한 이해를 기반으로 데이터과학 결과물을 좋게 만들 수 있다. 실제 마이크로소프트 엑셀이나 태블로, 구글 애널리틱스 같은 비교적 간편한 도구로 데이터분석을 시도하면서 데이터과학의 개념을 익힐 수 있다. 큰 틀의 개념을 안다면 향후 기존 전문가들과 협업을 좀 더 효과적으로 하는 데 도움이 된다.

데이터과학은 무슨?!

지금의 데이터과학은 뭐든 할 수 있는 마법의 단어처럼 쓰이고 있는 게 사실이다. 그러나 일각에서는 비판론도 상당하다. ‘데이터과학’이나 ‘빅데이터’는 그저 유행에 불과하며, 실체가 없다는 주장이다. ‘빅데이터’에는 사실 명확한 기준이 없다. 얼마나 커야 ‘빅’이라는 말을 붙일 수 있는가에 대해 뚜렷한 대답을 찾기도 어렵다. 데이터과학이 그저 통계학의 현장버전이라는 말도 있다. 대학에서 배우면 통계학이고, 직장에서 활용하게 되면 데이터과학이 된다는 의미다. 과학보다는 기예(craft)에 가깝다는 의견도 있다.

더 읽어보세요!

글 앞 부분에서 데이터과학을 정의할 때 인용했던 마이크 드리스콜 메타마켓 CEO는 다음과 같은 말을 덧붙인 바 있다.

“그러나 데이터과학이 단순히 해킹은 아니다. 배시와 피그 스크립트 디버깅을 끝낼 때, 거의 모든 해커는 비-유클리드적 거리척도에 관심을 갖지 않는다. 그렇다고 데이터과학은 단순한 통계학도 아니다. 왜냐하면 완벽한 모델을 이론화하고 난 후에는 탭으로 구분된 데이터 파일을 R로 읽어 들이는 통계학자는 거의 없기 때문이다.”

데이터과학은 분명히 전통적인 통계학이나 기계학습과는 구분되는 지점이 존재한다. 무엇이 ‘빅’이라고 말할 수는 없지만 이전에 비해 압도적으로 않은 데이터를 직접 핸들링하고 있음은 분명하다. 분석을 위한 시각화가 주요 수단으로 등장하는 것 또한 특징적이다. 클라우데라 데이터과학 이사인 조시 윌스는 데이터과학자를 “어떠한 소프트웨어 공학자보다 통계학을 잘 알고, 어떠한 통계학자보다 소프트웨어 공학을 잘 아는 사람”이라고 정의했다. 데이터과학은 이처럼 통계학과 컴퓨터과학의 방법론을 모두 활용하며 나름의 영역전문성을 바탕으로 다양한 해결책을 모색한다. ‘무엇이다’고 단정할 수는 없지만, 데이터과학은 나름의 영역을 구축해 나가고 있다.

※ 참고문헌

이 글은 ‘네이버캐스트→테크놀로지월드→용어로 보는 IT’에도 게재됐습니다. ☞‘네이버캐스트’ 보기

네티즌의견(총 0개)