데이터과학에 입문하고 싶다면, 이곳부터

가 +
가 -

제너럴일렉트릭(GE) 회장이자 ‘세계에서 가장 존경받는 경영인’로 자주 언급되는 잭 웰치는 ‘잭 웰치의 마지막 강의’ 책에서 아래와 같은 사업 노하우를 전했다.

“오늘날 가장 뛰어난 창의적인 광고를 얻는 방법은 자존심을 버리고 데이터를 사랑하는 법이다. 적어도 데이터에 의존하는 방법을 배우는 것이 필요하다.”

– ‘잭 웰치의 마지막 강의‘, 잭 웰치·수지 웰치 저, 강주헌 역, 알프레드 2015.

어떤 기업들은 “우린 과거부터 데이터를 이미 활용했다”라고 답한다. 기업들은 매출이 얼마나 올랐는지, 고객 수는 얼마나 되는지, 상품이나 직원 수는 얼마나 되는지 끊임없이 데이터를 업데이트하고 데이터를 기반으로 결정을 내려왔기 때문이다. 하지만 최근 주목받는 데이터과학은 과거에 데이터를 바라보던 방식과 조금 다르다. 예전에는 과거 상황을 정리하고 참고지표로 데이터를 활용했다면, 이제는 데이터가 구체적인 경영 방향을 제안한다. 데이터 활용 방식이 미래에 초점을 맞추면서 진화한 셈이다.

데이터과학은 단순 통계가 아니다

데이터과학은 무엇일까? 일단 단순한 숫자의 나열은 아니다. 엑셀 파일에 있는 숫자들은 그래프로 표현하는 것 자체를 데이터과학이라고 표현하진 않는다. 데이터 분류하거나 분석하는 것 말고 데이터 속에 담긴 패턴이나 미래에 문제가 될 수 있는 경고 신호를 찾는 것 등을 데이터과학이라고 부른다.

데이터 과학의정의_BY GE (자막 있음) 바로보기

쇼핑몰 웹사이트를 예로 들어보자. 예전에는 여성 고객 수는 얼마인지, 여성 고객이 구매한 의류 총 금액을 얼마인지 통계를 냈다. 쇼핑몰 마케팅팀은 여성들이 자주가는 카페나 커뮤니티에 쿠폰과 이벤트 정보를 보낸다. 이러한 마케팅은 어느 정도 효과를 볼 수 있다. 하지만 모든 여성이 옷에 관심이 있을지, 쇼핑몰에 들어간 모든 여성이 옷 제품에서 구매 버튼을 누르는지는 알 수 없었다.

요즘은 쇼핑몰 사용자의 접속 방식, 체류 시간, 스크롤한 패턴, 과거 구매횟수 등 다양한 데이터를 복합적으로 분석한다. 그리고 다양한 분석 기법을 적용해 좀 더 확실한 잠재고객을 찾는다. 예를 들어 “e메일 광고를 보고 5분 안에 접속한 A그룹 고객에게 10% 이상 쿠폰을 제공하면, 해당 고객은 50% 확률로 제품을 구매할 것이다”란 식의 결론을 낸다. 이러한 결론으로 기업은 새로운 자동화 시스템을 적용하고 고객 맞춤 서비스를 제공한다. 단순히 내부 쇼핑몰 데이터 뿐만 아니라 외부 데이터를 결합해 새로운 의미를 찾아내기도 한다.

홍보 영역에서는 이러한 전략을 활용할 수 있다. 기업이 두 가지 광고 문구 후보를 두고 어떤 것이 좋을지 고민하고 있다고 치자. 예전에는 임원진의 감이나 경험으로 특정 문구가 선택됐다. 하지만 미리 데이터 분석을 통해 경영진이 별로라고 생각했던 문구가 오히려 클릭수와 판매액이 더 높은 것을 증명해낸다. 이를 통해 더 나은 홍보 전략을 세우기도 한다. 잭 웰치 GE 전 회장은 이러한 데이터 활용법으로 “현명하고 계획적으로 사업을 진행할 수 있다”라고 설명한다.

“빅데이터란 다양한 형태의 방대한 디지털 데이터를 의미한다. 문자, 이미지, 음성, 영상, 위치정보 등 생성속도가 매우 짧고 종류가 무수히 많으며 어마어마한 양의 데이터다. 이를 통해 사람들의 생각이나 의견, 트랜드 등을 분석하고 예측할 수 있다. 빅데이터의 필요성은 반드시 더 많은 정보를 구하기 위한 것은 아니다. 자칫하면 정보에 파묻혀 갈피를 잡지 못할 수도 있다. 어떤 정보가 당신 조직에게 중요한지 알아낸 후 그 정보를 완벽하게 분석해서 비용과 성장에 관련된 진정한 요인들을 찾아내는 것이 핵심 쟁점이다.”

– ‘잭 웰치의 마지막 강의‘, 잭 웰치·수지 웰치 저, 강주헌 역, 알프레드  2015.

data_for_non_tech_02_Jack_Welch
데이터과학은 전문가만의 영역일까

데이터과학은 어렵고 전문가만 접근해야 하는 영역이라고 생각할 수 있다. 연구원, 개발자, 엔지니어만 데이터과학을 시도할 수 있다고 보는 시선이다. 하지만 그렇지 않다. 데이터과학에 대한 이해가 필요한 사람은 의사결정권자나 마케터, 기획자, 홍보담당자 등 여럿이다. 작은 기업이나 내부에 데이터과학 팀이 없는 곳에서 더욱 그렇다. 최근에는 데이터과학 관련 제품이 아예 컨설팅 형태나 서비스로 판매되는 경우가 많은데, 실제로 그들은 마케터, 기획자들 등과 지속적으로 소통한다. 데이터과학 관련 상품을 판매하는 기업들은 대부분 ‘고객이 데이터로 무엇을 찾고 싶은지’부터 찾는다. 그리고 다양한 변수를 끊임없이 조작하며 원하는 결과를 찾는다. 이때 기술부서 외에 다른 부서에 있는 직원들이 데이터에 대한 이해도가 높을수록 어떤 변수를 조작해야 할지 아이디어가 나온다. 다양한 아이디어와 피드백이 나올수록 더 좋은 데이터 분석 결과물이 나올 수 있다.

더 읽어보세요!

그렇다면 기술전문가가 아닌 기획자, 마케터 등은 어떤 식으로 데이터과학을 공부해야 할까? 사실 아주 깊은 데이터과학을 진행하기 위해서 어느 정도 시간이 걸린다. 수학, 통계적 지식이 필요하고 많은 논문을 읽어봐야 한다. 또한 데이터마이닝, 프로그래밍, 알고리즘, 데이터 엔지니어링, 시각화 등 다양한 분야가 데이터과학에 섞여 있다. 비전문가는 이를 모두 알기 쉽지 않다. 따라서 만약 기술직이 아니라면 원리를 깊이 알기보다는 데이터 과학의 큰 테두리를 이해하는 데 집중하면 좋다. 이러한 이해를 기반으로 데이터과학 결과물을 좋게 만들 수 있다. 실제 MS 엑셀이나 태블로, 구글 애널리틱스 같은 도구로 데이터분석을 시도하면서 데이터과학의 개념을 익힐 수 있다. 큰 틀의 개념을 안다면 향후 기존 전문가들과 협업을 좀 더 효과적으로 할 수 있다.

아래는 데이터과학을 무료로 배우면서 정보를 얻을 수 있는 웹사이트들이다. 아직 한국어 자료는 부족한 편이지만, 영어가 가능하면 좀 더 다양한 자료를 볼 수 있다.

1. 데이터과학, 무료로 배울 수 없을까?

얼마 전 데이터사이언스센트럴은 데이터과학을 공부할 수 있는 26가지 자료를 정리해 공개했다. 여기에는 데이터 분석 사례를 소개한 TED 영상부터 인포그래픽 등이 담겨 있다. 국내에선 한양대 김영웅 연구원이 직접 해당 글을 번역하기도 했다.

2. 데이터과학자들이 쓰는 도구는?

데이터퀘스트는 이론보다 실습을 선호하는 사람에게 좋은 사이트다. 데이터 분석, 데이터 과학이 무엇인지 실제 도구를 조작하면서 이해할 수 있다. 이런 학습 방식을 ‘런 바이 두잉(Learn by Doing)’이라고 표현한다.

data_for_non_tech_01

▲데이터퀘스트 홈페이지

3. 온라인 무료 강의를 살펴보자

현재 코세라나 에덱스 같은 온라인 공개 강좌(Massive Open Online Course, MOOC) 업체와 많은 대학들이 데이터과학과 관련된 강의를 무료로 공개하고 있다. 이 외에도 파이썬과 R 같은 프로그래밍 언어, 기계학습, 시각화 기술 등을 MOOC 페이지에서 찾아 배울 수 있다. 이러한 웹사이트에서 이론적인 지식을 먼저 쌓아보자.

4. 데이터과학자들이 경쟁하는 커뮤니티

카글은 전세계 데이터과학자들이 모이는 커뮤니티다. 여기서도 데이터과학에 대한 기본 정의와 활용 사례를 볼 수 있다. 동시에 여러 데이터과학자들이 같은 문제를 서로 다르게 풀어보는 경합이 이뤄진다. 카글을 보면 데이터과학자들이 어떻게 일하는지 좀 더 쉽게 확인할 수 있을 것이다.

data_for_non_tech_02

▲카글 홈페이지

네티즌의견(총 3개)