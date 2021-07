리뷰

[테크체인저]'상위 0.1%' 캐글 마스터 김찬란의 '데이터 사이언스 팁'

어떤 기업·기술·기기가 또 2021년 우리의 일상을 바꿔놓을까? <블로터>가 설문조사와 전문가 추천 등의 방식으로 '우리의 일상을 바꿀 기업·기술·기기'를 선정, 소개한다. '데이터'가 곧 '금'인 시대다. 제아무리 뛰어난 인공지능(AI)도 학습 데이터가 없으면 못 배운 천재에 불과하다. 그렇다고 아무 데이터나 학습하게 되면? 아무렇게나 똑똑한 AI가 된다. 이 때문에 데이터는 넓은 광산 안에서 쓸 만한 원석을 캐내는 것과 같은 분별 과정, 그것을 다듬어 '금빛 정보'로 가공하는 작업이 반드시 필요하다. AI 융합이 일상화되고 데이터 분석은 전산업의 기초가 된 요즘, 이런 일을 하는 사람을 우리는 '데이터 사이언티스트(데이터 분석가)'라 부른다. "사실 스킬만 놓고 보면 기업이 요구하는 수준의 데이터 분석 기술을 갖추는 데 필요한 시간은 길지 않은 편입니다. 코딩 난이도도 기존 디자인 패턴 개발보다 쉬운 편고요. 요즘은 교육 인프라가 좋아서 신입들의 능력 수준도 높습니다. 다만, 기업은 여전히 경력자를 선호하므로 스킬 쌓기를 넘어 외부 커뮤니티 프로젝트 등에도 적극적으로 참여한다면 정말 큰 도움이 될 겁니다." 2020년 글로벌 데이터 사이언스 커뮤니티 '캐글(Kaggle)'에서 노트북 부문 마스터(상위 0.1%, 약 250명)에 오른 된 김찬란 씨의 조언이다. 줌(ZUM) 머신러닝 엔지니어를 거쳐 현재 NC소프트 비전AI랩(Vision AI Lab)에 근무 중인 그는 이번 인터뷰에서 커뮤니티 활동의 중요성을 여러 차례 강조했다. 전세계 데이터 분석 올림픽 '캐글' 캐글은 비전공자에겐 생소해도 데이터 분석 전문가들에겐 '올림픽' 무대와 같은 곳이다. 데이터 분석과 관련해 다양한 경진 대회가 열리는 경쟁의 장이자 각자가 자신의 기술과 지식을 공유할 수 있는 정보 공유 커뮤니티다. 데이터 분석 관련 최신 트렌드와 신기술을 가장 먼저 접할 수 있는 곳이다 보니 데이터 분석의 인기가 높아진 현재 캐글의 전세계 등록 이용자는 500만명에 달한다. 캐글은 주어진 문제를 해결하는 경쟁(Competition) 분야와 대회를 위한 베이스라인 코드 및 여러 코드 개선안을 제안하는 노트북(Notebook) 분야 등 여러 섹션으로 나뉘어 있다. 각 부문에서 열리는 대회 결과, 참여도에 따라 참여자의 랭킹과 등급이 산정되는 구조다. 명예는 물론 적잖은 상금까지 거머쥘 수 있다 보니 많은 데이터 분석 실력가들이 캐글에 흥미를 갖곤 한다. 찬란 씨도 우연히 캐글을 접했다가 이런 시스템에 푹 빠진 경우다. 그는 "내가 아는 방법으로 문제를 해결하거나 개선하는 과정 속에서 등수가 오르는 것이 게임과 비슷해 재미있었다"고 말했다. 캐글은 찬란 씨에게 다양한 커리어를 연결해준 디딤돌이기도 하다. HP는 캐글 마스터가 된 그에게 지난해 9월 전세계에 16명뿐인 Z by HP 글로벌 앰배서더 자리를 제안했다. Z by HP는 데이터 분석과 크리에이팅에 특화된 HP의 고성능 워크스테이션 라인업이다. HP는 앰배서더로 선정된 이들에게 Z by HP 데스크톱, 노트북, 모니터 패키지를 제공하며 데이터 사이언스 연구에 활용할 수 있도록 돕는 프로그램을 운영하고 있다. 데이터 분석가에게 전문 워크스테이션이란 이날 인터뷰 현장에서 Z by HP 노트북 제품을 볼 수 있었다. 찬란 씨에게 "장비보다 센스가 중요할 것 같은 데이터 분석가도 장비 수준이 중요하냐"고 묻자 그는 "한정된 장비로는 한정된 문제만 풀 수 있다"고 답했다. 장비 성능이 받쳐주지 않으면 규모가 작고 단기적 모델 훈련만 가능한 반면, Z by HP처럼 워크스테이션급 제품을 사용하면 동시간 내에 더 많은 데이터를 깊이 있고 빠르게 분석할 수 있는 만큼 프로젝트에 따라 장비 수준도 중요하다는 설명이다. 현재 많은 데이터 분석가가 구글의 '콜랩(Colab)' 같은 클라우드 기반 GPU 제공 서비스를 이용한다. 하지만 난이도 높은 문제를 풀게 될수록 데이터 분석에 더 많은 자원과 시간이 소모되는데, 성능이 제한적이고 사용량에 따라 요금이 지속적으로 부과되는 클라우드 서비스는 오래 사용할수록 재정적 부담이 따른다. 이 때문에 일부 전문가는 조립 PC를 만들어 쓰지만 이 역시 데이터 분석에 필요한 여러 장비 요구사항을 맞추는데 적잖은 비용과 시간이 드는 단점이 있다. 찬란 씨가 Z by HP 글로벌 앰배서더 활동을 수락한 이유도 전문 워크스테이션을 사용했을 때 데이터 분석 효과가 가시적으로 증가한다는 점을 확인했기 때문이다. 현재 업계에는 아직 HP처럼 데이터 분석에 특화된 장비를 제조하는 업체가 드물다. 찬란 씨는 Z by HP 제품군의 장점으로 구글 콜랩 대비 약 3배 정도 뛰어난 성능 수치, 특히 데이터 분석에 필요한 대부분의 소프트웨어가 사전 설치된 환경을 꼽았다. 머신러닝·딥러닝은 빠른 발전 속도로 인해 소프트웨어 버전이 자주 바뀌는 분야다. 이에 데이터 분석가들은 여러 소프트웨어, 하드웨어의 의존성·호환성을 고려하는 과정에서 많은 시간을 사용하게 되는데 사전 탑재된 데이터 분석용 소프트웨어 스택이 이 같은 불편을 막아준다는 설명이다. 장비의 높은 연산 성능과 준비된 분석 환경은 대회 준비에 필요한 세팅, 분석 시간도 대폭 줄여준다. 계산에 실수나 오류가 생기더라도 회복 속도가 훨씬 빠르다. 이는 제한된 시간 내에 과제를 수행해야 하는 캐글 대회나 기업 프로젝트 환경에서도 이점으로 작용하는 부분이다. 물론 찬란 씨는 Z by HP 홍보대사다. 칭찬일색인 듯해 "단점은 없냐"고 물으니 그는 "조금 더 많은 사람이 쓸 수 있게 되길 바란다"고 말하며 웃었다. 좋은 성능만큼이나 높은 가격 장벽이 점차 낮아지길 바란다는 의미였다. 스터디, 커뮤니티 활동이 곧 업계의 '등용문' 그는 캐글을 통해 업계의 여러 유명인들과 교류하게 된 것도 큰 수확으로 꼽았다. 캐글에서 등급이 오를수록 글로벌 기업에서 먼저 채용 제안을 받는 일이 늘고 업계 사람들과의 미팅 자리도 잦아졌다고 한다. 행사에서 연사로 초대받거나 출판 제의를 받는 일도 익숙해졌다. 캐글 마스터란 자리가 그에게 직접적 수익을 주진 않지만, 유명 커뮤니티의 유명인이 된다는 것 자체가 그에겐 업계에서의 발판을 넓힐 수 있는 '등용문'이 된 셈이다. 영상 촬영 중 시종일관 수줍음을 보인 찬란 씨였지만 대외활동에 대한 그의 열정만큼은 진짜배기였다. 캐글을 비롯해 커뮤니티에 대한 이야기를 나누는 과정에서 알게 된 건 그가 본업, 캐글, Z by HP 앰배서더 활동 외에 '가짜연구소'라는 머신러닝 커뮤니티 운영진도 겸하고 있다는 사실. 그는 가짜연구소를 "각 스터디 그룹을 중심으로 AI나 데이터 분석을 학습하거나 프로젝트를 함께 진행해볼 수 있는 비영리 무료 커뮤니티"라고 소개했다. 찬란 씨는 "가짜연구소 내 모든 학습이 온라인, 레벨별로 진행되고 있는 만큼 지역별 교육 격차를 줄이는 데에 기여하길 바란다"며 "아직은 직장인 비중이 높은데 앞으로는 대학생들이 더 적극적으로 찾아줬으면 하는 바람"이라고 말했다. 이어서 그는 "회사에선 주어진 일만 하고 일반적인 기술로 작업하는 경우가 대부분이다. 반면 커뮤니티 세계에선 회사 업무보다 앞선 최신 기술을 많이 다루기 때문에 트렌드를 파악하고 준비하는 데에도 큰 도움이 된다"며 데이터분석 새내기, 현업 전문가들의 커뮤니티 활동 참여를 거듭 독려했다.