“데이터분석만큼은 R이 파이썬보다 낫다”

가 +
가 -

R이냐, 파이썬이냐. 부쩍 질문 빈도가 늘어나고 있다. 데이터 분석, 데이터 과학이 인기를 얻으면서 나타나는 현상이다. 하지만 이 질문에 똑 부러지는 대답을 얻기란 쉽지 않다. 두 언어마다 각각의 장점이 존재하는데다, 용도의 확장성도 다르기 때문이다.

20160310_conference_04_Kwon_Byeongguk_01

R을 이용해 의료 데이터를 분석하고 있는 권병국 씨는 그래도 R을 추천한다. 데이터 분석에서만큼은 R이 파이썬보다 한수 위라는 것이다. 데이터 분석에 특화돼 개발된 프로그래밍 언어인 만큼 관련 패키지가 워낙 다양하기 때문이다. 통계학자, 경제학자 등 관련 전문가들이 빠른 속도로 패키지를 업데이트하는 장점도 R을 추천하는 이유라고 했다.

물론 파이썬도 최근 들어 다양한 데이터 분석 패키지가 나오고 있다. 그럼에도 아직은 R이 우위에 있다는 것이 그의 판단이다. 권씨는 “데이터 분석과 관련된 문제라면 R이 못할 건 없다”며 R을 추천했다.

블로터아카데미는 지난 3월21일, 미국에서 의료 데이터 컨설턴트로 일했던 권병국 씨를 e메일로 인터뷰했다.

– 간단한 자기소개 부탁드린다.

블로터 플러스 '지식 아카이브'

“저는 한국에서 경제학과 행정학을 전공한 후에 미국에서 의료 정책 경영 분야 석사를 마치고 주정부와 병원에서 정책과 건강 증진 프로그램 결과들을 분석하고 디자인하는 일을 했습니다. 그 틈틈이 공부를 해서 통계학 석사를 마무리했고요. 미국 주요 의료 경영 관련 연구소에서 의료 데이터 분석가로 5년간 일했습니다.

그 뒤 1년간 에티오피아의 의과대학에서 학생들에게 질병 역학과 의료 통계학을 가르쳤고요. 에티오피아 보건복지부에서 주도하는 의료 시스템 개혁 프로젝트에서 통계 컨설턴트로 일하며 프로젝트를 모니터하고 평가하는 일도 도왔습니다.

지금은 서강대 기술 경영학과에서 병원의 환자 데이터 그리고 의료 특허 및 산업 관련 데이터 분야를 분석하며 박사 과정을 진행 중입니다.”

– ‘R을 활용한 데이터 분석의 이해’는 어떤 강좌인가.

“요즘 데이터 분석이란 단어만큼 핫한 키워드는 드문 것 같습니다. 짧은 시간이기에 많은 욕심을 낼 수는 없을 것 같습니다. 하지만 데이터 분석과 데이터 정리는 다른 말입니다. 코딩을 통해 데이터를 나누고 합치고 조합해 힘들여 정리해 놓았다 하더라도, 통계적 이해가 없다면 데이터가 무엇을 말하는지 알 수 없습니다.

이 강좌는 게임, 경영, 날씨, 의료, 음식의 영양소 등 다양한 데이터를 R로 분석해보며 분석을 위한 기본 코딩과 통계지식, 로직들을 배우게 됩니다. 또 R을 이용한 다양한 데이터 시각화 기능을 사용해 데이터를 효과적으로 시각화해 프리젠테이션할 수 있는 방법도 함께 배울 수 있습니다.”

– 다른 교육기관에서 진행하는 R 강의와 다른 점이 있나.r_300_250

“다른 기관에서도 훌륭한 강사님들이 R을 강의하시는 것으로 알고 있습니다. 제가 직접 강의를 들어본 적이 없어 그분들의 강의와 비교할 수는 없습니다. 제가 데이터 컨설턴트로 일할 때 데이터 분석가는 명령에 따라 코딩만 하는 사람이 아닌, 의사 결정을 주도하고 프로젝트를 이끌어가는 역할을 했습니다. 그래서 저는 그런 역할을 하려는 분들께 데이터에 기반한 분석과 효율적 의사결정에 도움을 주는 R 강좌를 만들어보려고 노력 중입니다.”

– R로 할 수 있는 것들과 없는 것은 무엇인가.

“이미 전문가 집단, 연구기관, 대학, 기업들에서 R을 데이터 분석 도구로 사용하고 있고 그 수요가 더 급격히 증가하고 있습니다. 얼마 전 발표된 미 IT업계에서 가장 많은 연봉을 받는 프로그래머가 바로 R 프로그래머였습니다. 그만큼 분석이라는 측면에 있어서 R은 그 중요성을 이미 자리매김했습니다. 각종 통계 프로그램이 다들 장단점이 있습니다. R도 장점과 단점이 있습니다. 하지만 데이터 분석과 관련된 문제라면 R이 못할 건 없습니다.”

– R과 파이썬의 장점을 자주 비교하곤 한다. R이 파이썬보다 나은 사례나 이유가 있을까.

“저도 때때로 데이터 클리닝을 위해 파이썬을 쓰기도 합니다. 파이썬은 그 자체로 다방면으로 효율적인 언어고 훌륭한 통계 분석 패키지들을 가지고 있습니다. 하지만 데이터 분석에서만큼은 R이 훨씬 더 많은 종류의 분석 패키지들을 가지고 있습니다. 파이썬은 다양한 목적을 위해 사용되는 언어이지만 R이란 프로그램 자체가 분석만을 위해 최적화된 프로그램이기 때문입니다. 그래서 통계학자나 수학자, 경제학자들과 같이 분석에 초점을 맞춘 직군들은 R을 많이 이용하고 있습니다. 당연히 분석에 있어 최전방에 있는 그분들을 통해 날마다 업데이트되고도 있습니다. 하지만 데이터의 종류가 다양해지는 이 시점에서는 R과 파이썬 둘 다 배워두는 게 좋을 것 같습니다. 저도 틈틈이 파이썬을 공부합니다.”

– 회사에서 R을 어떻게(어떤 업무에) 사용할 수 있나.

“소박하게는 가지고 있는 데이터를 효과적으로 정리하고 분석하고 시각화해서 업무의 효율성을 높일 수 있습니다. 아마 R에 숨겨진 각종 업무에 도움이 되는, 공짜로 이용할 수 있는 패키지를 보시면 깜짝 놀랄 것입니다. 특히 다양한 예측 모델을 사용해야 하는 마케팅팀에서는 업무에 활용도가 더 클 것입니다. 하둡과 같은 시스템을 이용해 빅데이터를 분석하는 것도 가능하지만, 이것은 R만 가지고는 되는 것은 아닙니다.”

r_salary

2013년 기준 R 활용 능력을 갖춘 개발자의평균 연봉 도표. (출처 : revolutionanalytics.com)

– 데이터 분석을 위해 통계학을 배워야 하는 이유가 무엇인가.

“명검을 가지고도 검리를 모르면 싸울 때 아무런 소용이 없겠죠. 최고 좋은 인프라를 가지고 데이터를 뽑아낸다 하더라도 그 데이터가 무슨 말하는지 모른다면 의미 없는 고생일 뿐입니다. 통계는 명검을 어떻게 사용하는지 가르쳐 주는 검리로 볼 수도 있고, 데이터가 무엇을 말하는지를 통역해주는 통역가입니다. 또 요즘은 통계학을 ‘의사결정과학'(Decision making science)이라 부릅니다. 이것은 데이터 분석에서 통계학이 어떤 역할을 하는지 잘 이야기 해준다고 생각합니다.”

– R이 쉽다고 하는데, 통계를 모르는 일반인으로서는 어렵게 느껴진다. R에 도전했지만 고전하고 있는 분에게 줄 수 있는 조언이 있다면.

“수영을 글로 배우면 어렵습니다. 마찬가지라고 생각합니다. 하나하나 실습해보면서 그때그때 생기는 질문들을 해결해가며 배우면 생각보다 빠르게 진전될 수도 있습니다. R이 쉬운 언어가 아니라고 생각하는 또하나의 이유는, R을 제대로 공부하려면 통계와 함께 배워야 하기 때문입니다. R이 분석을 위해 만들어진 도구인데 통계적 지식을 모른다면 당연히 코드 하나하나가 무엇을 이야기하는지 이해가 가지 않을 수도 있습니다. 전혀 배경지식이 없는 분들도 20시간 정도 통계와 코딩 강의를 받으니 스스로 코딩을 보완해나가셨습니다.”

– 어떤 분들에게 이 강좌를 추천 할 수 있을까.

“기존 분석도구에 고정된 몇 가지 기능만으로는 부족함을 느끼고 보다 전문적인 시각화, 데이터 분석 기술을 얻기 위해 R을 배우고 싶었지만 혼자 입문하기에는 어렵게만 느껴져서 시도하지 못했던 분들에게 추천해드립니다. 또 데이터를 수집·정리해 본 경험이 있지만 통계적인 지식의 부족함을 느껴 힘들여 정리한 결과가 무엇을 말하는지 명확하게 이해하기 어려웠던 분, 그래서 데이터에 기반한 의사결정을 내려야 할 때 자신감 있게 분석 결과들을 활용하지 못했던 분들에게 도움이 되리라 생각합니다.”

네티즌의견(총 3개)