“머신러닝의 미래, 금융 데이터에서 찾았다”

가 +
가 -

올 상반기 국내를 뜨겁게 달군 IT업계 키워드를 꼽으라면 ‘머신러닝’, ‘딥러닝’을 빼놓을 수 없다. 지난 3월로 시간을 거슬러 올라가보자. 당시 구글 딥마인드사의 인공지능 프로그램인 ‘알파고’가 프로기사인 이세돌과 대국에서 4승1패로 승리를 거머쥐면서 인공지능, 머신러닝, 딥러닝이 뜨거운 감자로 떠올랐다. 데이터 분석을 통해 가치를 찾을 수 있다고 믿는 이들이 늘어났다.

안명호 딥넘버스 대표도 그중 한 명이다. 사실 그는 재작년까지만 해도 딥러닝, 머신러닝 기술에 큰 관심을 두지 않았다. 수많은 언론이 해당 키워드를 다루는 것을 두고 ‘새로운 기술에 대한 언론이 과장되게 표현하는 게 아닐까’ 하는 걱정까지 했을 정도다.

“과거 이미지 프로세싱 프로젝트를 진행한 적 있습니다. 컵 용기에 액체가 얼마나 담겨 있는지를 알고리즘으로 만들어 컴퓨터가 인식할 수 있게 만드는 프로젝트였는데, 쉽지 않더군요. 이미지 인식을 하기 위해 컴퓨터가 인지해야 할 변수가 너무 많았습니다. 이 영역은 ‘쉽지 않겠구나’하는 생각을 했지요. 2010년이었습니다.”

그가 생각을 바꾼 건 컴퓨터의 이미지 인식률이 90%에 가까워졌다는 기사를 보면서부터다. 그는 직접 ‘씨아노'(Theano) 라이브러리를 내려받아 예제대로 따라해 봤다. 그가 연구하던 시절과 많이 달라져 있었다. 인식률이 월등하게 향상됐다. 언론에서 다루는 딥러닝, 머신러닝에 대한 기사가 허황된 사실이 아니라는 생각이 안명호 대표 머릿속을 스쳤다. 머신러닝 연구를 다시 해보는 것도 나쁘지 않겠다는 생각으로 이어지기까지는 그리 오래 걸리지 않았다.

“머신러닝을 통해 우리 삶에 직접 영향을 주는 가치를 만들어 낼 수 있을 거라고 생각했습니다. 그동안 우리가 생각하는 소프트웨어는 도구에 가까웠습니다. 오피스 솔루션은 문서 작성과 편집을 쉽게 도와주는 도구로, 내가 원하는 가치를 얻기 위한 연장에 가까웠습니다. 소프트웨어에 머신러닝이 올라가면 도구로서의 소프트웨어가 아니라 직접 우리 삶에 영향을 끼칠 수 있는, 새로운 영역이 되지 않을까 하는 생각에 이 분야를 주목하게 됐지요.”

안명호 딥넘버스 대표

안명호 딥넘버스 대표

주식 데이터, 머신러닝으로 예측하려면

머신러닝 분야를 하려면 첫째로 중요한 게 데이터, 둘째로 중요한 게 데이터, 셋째로 중요한 것도 데이터일 정도로 데이터가 가장 큰 비중을 차지한다. 재료 없이 연장을 개발할 수 있는 목수는 없지 않은가.

안명호 대표가 머신러닝 분야에 관심을 가지면서 겪은 가장 큰 어려움도 데이터 확보에 있었다. 처음엔 공공기관에서 주도하는 정부3.0, 데이터 거버먼트에 기대했다. 해당 웹사이트에 가면 엄청나게 많은 금광이 있을 것으로 생각했다.

그러나 현실은 달랐다. 데이터라고 보기엔 자료에 가까웠다. 단순히 데이터만 많다고 해서 바로 데이터 분석을 할 수 있는 건 아니다. 각 데이터를 분석에 알맞게 정렬하고 정리하는 데이터 전처리 작업이 필수다. 국내 공공기관이 수많은 자료를 웹사이트에 올렸지만, 그 데이터를 바로 머신러닝에 활용하기에는 아쉬웠다. 데이터 필드값이 어떤지 알 수 없는 자료도 있고, 같은 공공기관에서 올리는 데이터도 부서마다 형식이 달랐다. 해당 데이터를 바탕으로 머신러닝을 하려면 데이터 전처리 과정에 시간이 더 많이 들어갈 터였다.

“어느 날 우연히 TV를 보는데, 주식 이야기가 나오더군요. 웹사이트에서 100년 주가 데이터를 내려받을 수 있더군요. 각종 경제지표도 쉽게 구할 수 있었습니다. 게다가 국내 데이터도 금융투자협회 웹사이트를 통해서 펀드 수익률, 운용현황, 수임률 등 데이터를 받아볼 수 있더군요. 이거다 싶었습니다.”

그가 찾은 금광은 오히려 다른 곳에 있었다. 쉽게 구할 수 있는 몇십년 동안 축적된 양질의 데이터와 전처리 과정이 필요 없을 정도로 지표 자체가 명확한 정형 데이터가 모인 곳, 바로 금융 분야였다.

“처음엔 돈을 벌겠다는 생각으로 금융 데이터를 분석한 건 아닙니다. 축적된 데이터를 바탕으로 좀 더 빠르게 알고리즘을 설계할 수 있고 규칙을 만들어 낼 수 있을까 하는 기대에서 시작했습니다. 주식 시장에서 머신러닝이 어떤 영향을 만들어내는지 직접 알아볼 기회라고 생각했지요.”

주식 시장은 수많은 숫자 변수가 서로 관계를 맺으면 만들어지는 시장이다. 빅데이터 분석이 처음 등장했을 때, IBM은 데이터 분석을 통해 주식 시장을 예측할 수 있다고 장담했을 정도다. 머신러닝이 등장하면서 데이터 분석으로 주식 시장을 읽을 수 있다고 했지만, 실제로 주식 시장을 예측한 기업을 찾긴 어렵다. 주식 시장 자체가 환경과 시간 등 워낙 다양한 변수로부터 영향을 받기 때문이다. 단순히 방대한 숫자만 분석한다고 해서 주식 시장의 앞날을 볼 수 있는 건 아니다.

“예측이란 단어를 조금 다르게 살펴볼 필요가 있습니다. ‘내일 특정 주식이 오를 것인가’란 예측보다는 ‘내일 주식 상황이 변할 것인가’에 초점을 맞추면 주식 시장도 충분히 머신러닝 기반으로 예측할 수 있는 영역이라고 생각합니다.”

우리가 보통 주식 시장에서 기대하는 예측은 A 주식이 현재 100만원인데 내일 110만원이 될까, 90만원이 될까를 맞히는 영역에 가깝다. 안명호 대표는 분석을 통한 주식 시장 변화를 읽어내는 점에 주목했다. 머신러닝을 통해 주식시장 패턴을 찾아내는 식이다. 패턴을 찾아내면 주식이 얼마큼 오를 것인지는 모르지만, 특정 패턴 환경에서 주식이 변화할지 안 할지 정도는 분석을 통해 알 수 있다.

“제가 생각하는 머신러닝 방법은 주가 자체를 예측하는 데 있지 않습니다. 주가 변동이 있다는 전제 아래 얼마나 변동이 일어나는지를 확률적으로 계산하는 데 있습니다. 이 계산에 사람의 영역이 닿지 않는 알고리즘으로 파악하려고 합니다. 정확도를 높일 수 있지요.”

딥넘버스가 준비중인 서비스

딥넘버스가 준비중인 서비스

알고리즘 기반 자문 서비스 선보일 것

안명호 대표는 머신러닝을 통한 개인 자산 컨설팅 업무 서비스를 선보일 계획이다. 고객 자산에 대해서 머신러닝 방식을 통해 도출한 알고리즘을 통해 주식, 펀드 시장을 분석하고 리포트를 제공하는 식이다. 이 과정에서 사람 의견을 배제한다. 순수하게 컴퓨터가 분석한 수치를 통해서 신뢰성과 안정성을 높인다는 계획이다.

“제가 머신러닝을 통해서 금융 데이터에서 찾고자 하는 건 경제 상황을 잘 읽을 수 있는 ‘하이퍼 파라미터’를 도출하기 위해서입니다. 이 하이퍼 파라미터에 따라 알고리즘 정확성이 달라집니다. 그리고 수많은 데이터를 분석하면서 더 정교하게 하이퍼 파라미터를 최적화할 수 있습니다.”

경제 시장에는 이미 주식이나 펀드 등 시장 상황을 설명할 수 있는 수많은 모형과 모델이 존재한다. 문제는 각 모형과 모델을 운영하면서 사용하는 변수를 무엇으로 둘 것인지, 변수 가중치는 어떻게 설정한 것인지에 따라서 똑같은 데이터라도 해석이 달라진다는 데 있다.

예를 들어 주가 시장 분석을 위해 주가 데이터를 입력하는 방법을 생각해보자. 누구는 하루 주가 평균치, 누구는 하루 주가 최소값이나 최대값, 누구는 하루 거래 데이터의 이동 평균값을 쓸 수 있다. 굉장히 다양한 값을 사용해서 현상을 분석할 수 있는 셈이다.

지금까지는 머신러닝 기술이 발전하지 않아 무한정 모든 변수를 넣고 시험해 볼 수 없었다. 이젠 다르다. 향상된 컴퓨팅 자원과 발전한 분석 기술을 바탕으로 여러 가지 데이터를 입력해서 시험해 볼 수 있다. 모델에 어떻게 데이터를 넣느냐에 따라 똑같은 알고리즘이더라도 결과가 달라진다.

안명호 대표는 머신러닝을 통해 최적의 하이퍼 파라미터를 찾고, 이를 최적화한 모델을 설계해서 이를 바탕으로 한 자산 컨설팅 서비스를 준비 중이다.

“수학 이론은 이미 나와 있습니다. 그러나 이 이론을 어떻게 활용할지는 사람마다 다르겠지요. 핵심은 최적화에 달려 있습니다. 일단은 알고리즘 개발을 한 뒤 호흡을 길게 가지고 시장을 보려고 합니다. 수익률이 단박에 나올 거라고는 기대하지 않으니까요. 펀드를 시작으로 나중에 헤지펀드까지 다뤄보고 싶습니다.”