“금융소비자 행동도 머신러닝으로 예측”

가 +
가 -

알파고 이후에 머신러닝에 대한 관심이 높아졌다. 모든 기업에서 머신러닝을 접목한 기술에 관심을 보이고 선보였다. 머신러닝을 이용한 리뷰 관리, 머신러닝을 활용한 상품 추천, 머신러닝 기반 펀드 상품 추천 서비스 등 다양한 영역에서 활용하고 있다.

금융 분야도 예외는 아니다. 증권사를 비롯한 금융권에서 머신러닝을 활용한 다양한 서비스를 선보이고 있다. 써니뱅크는 모바일대출에 머신러닝을 활용했고, KB캐피탈은 머신러닝을 활용한 심사시스템을 도입했다. 신한은행은 머신러닝 기반 로보어드바이저 서비스 개발 계획을 발표했다.

국내에서 금융 산업에 머신러닝을 결합했을 때 생기는 시너지에 대해서 일찍이 주목한 기업이 있다. 지난 2014년 설립 후 머신러닝 기반 리스크 예측 솔루션 개발 영역에서 다양한 프로젝트를 진행한 솔리드웨어다.

“최근에 많이 머신러닝과 금융 분야 결합을 주목하고 있습니다. 여러 기업이 투자하고 적용하고 있지요. 그러나 금융쪽에서 활발하게 성과를 내고 성과를 낸 경후가 많지 않습니다. 분명 금융과 머신러닝이 만났을 때 시너지가 생길 것 같은데, 정작 이 효과를 보고 있는 곳은 없더군요.”

솔리드웨어에서 경영과 영업, 사업 개발을 총괄하고 있는 엄수원 공동대표가 금융 분야 머신러닝 시장에 뛰어든 이유다. 때는 2014년, 엄 대표는 현재 솔리드웨어에서 머신러닝 알고리즘 개발을 총괄하고 있는 올리비에 듀센 공동대표에게 손을 내밀었다.

올리비에 대표는 인식 기술을 비롯한 다양한 머신 러닝 알고리즘을 개발한 경력이 있다. 관련 특허도 3개나 출원했다. 엄수원 대표와 올리비에 대표는 가능성뿐 아니라 기술을 바탕으로 시장에 접근해 솔리드웨어를 세우고 운영했다.

엄수원 솔리드웨어 공동대표이사

엄수원 솔리드웨어 공동대표

1천개 금융데이터 항목으로 행동 예측 정확도 높여

솔리드웨어는 다른 금융기업과 다소 다르게 금융 분야에서도 주식 예측이나 자산 분배, 관리하는 자본시장보다 비자본 시장을 주목했다. 과거에도 알고리즘을 통한 기계학습을 바탕으로 주식 시장을 예측하고, 투자하는 기업이 존재했다. 이 시장에서 머신러닝은 새로운 기술이 아니다. 엄수원 대표는 금융 소비자 행동을 예측하는 분야에 주목했다. 과거 엄 대표가 AXA 다이렉트에서 근무한 경험이 크게 작용했다.

“보험회사에서는 대출이 나가는 대상, 대출 고객이 연체할 가능성, 보험 가입 고객이 사고를 낼 가능성을 제대로 예측하면, 그 결과가 이익으로 이어집니다. 이를 금융 소비자 행동 예측이라고 보지요. 이미 시장이 형성된 자본 시장보다 이 분야를 기회 영역으로 보았습니다.”

솔리드웨어가 비자본 영역에 머신러닝을 활용한 원리는 단순하다. 행동을 설명할 수 있는 데이터를 최대한 많이 모은 다음, 그 데이터를 항목에 맞춰 정리했다. 정리한 데이터를 최대한 많이 활용해서 머신러닝으로 고도화했다. 기존 기법이 30가지 데이터 항목만 사용한다면, 솔리드웨어는 머신러닝을 이용해 1천가지가 넘는 데이터를 바탕으로 금융소비자 행동을 예측했다.

“우리나라만큼 DB화가 잘 돼 있는 곳이 없습니다. 언제 카드를 써서 연체했는지, 나이, 거주지, 급여, 회사명, 직군 등 금융 소비자 행동을 보여주는 데이터가 이미 정형화가 잘 돼 있습니다. 다만, 전통적인 기법에서는 한 사람을 설명하는 행동이 1천가지가 된다고 해도 최종적으로 30가지만 바탕으로 분석했지요.”

행동도 결국 수치화된 결과치다. 항목을 적게 쓰면, 예측 능력이 떨어질 수밖에 없다. 많이 쓰면 쓸수록 더 예측 정확도를 높일 수 있다. 솔리드웨어는 1천가지를 다 사용해서 더 정확한 예측 모델을 만드는 기법으로 승부수를 띄웠다. 데이터 자체로 차이를 주기보다, 기존에 사용하지 못하는 데이터를 머신러닝으로 고도화해서 더 높은 예측치를 만들 수 있게 알고리즘을 개발하고 개선했다.

우선, 단변량 분석을 통해 1천가지 항목 중 중요도를 자동화한다. 이 과정에서 전통적인 분석 방법과 달리 사람의 개입, 즉 휴먼 바이어스가 들어가지 않는다. 순수하게 데이터만을 바탕으로 항목 간 상관관계, 교호성을 반영한 패턴 분석 작업을 진행했다.

알고리즘 뼈대는 오픈소스 라이브러리를 부분적으로 가져다 썼다. 여기에 솔리드웨어가 확보한 데이터에 맞게 알고리즘을 학습해서 튜닝하는 과정을 거쳤다. 데이터에 적합한 비선형 함수를 생성해 모든 데이터의 상호작용 패턴을 감지한다. 수많은 변수를 동시에 고려해 예측값을 도출한다. 전이학습을 통해 대량 데이터에 대한 학습 결과를 소규모 데이터 모델에도 적용했다. 그 결과 데이터가 부족한 사용자도 충분히 행동을 분석하고 예측할 수 있다.

이렇게 개발한 예측 함수에 자신감이 붙고 나니, 솔리드웨어는 이를 쉽게 활용할 수 있는 방법에 대해 고민했다. 기업 담당자가 머신러닝을 몰라도, 알고리즘을 몰라도, 원하는 데이터만 넣으면 상관관계와 예측치, 분석 결과를 알아볼 수 있는 솔루션을 고민했다. 고민의 결과물이 바로 다빈치랩스다.

머신러닝 몰라도 머신러닝 활용할 수 있다

다빈치랩스는 머신러닝 비전문가도 사용할 수 있게 설계된 머신러닝 기반 데이터 분석 솔루션이다. 데이터 가공부터 리포트 기능까지 제공한다.

“기존에는 우리가 개발한 모형을 각 회사에 맞춰 적용했습니다. 어려웠지요. 다빈치랩스 솔루션엔 그동안 우리의 경험과 기술을 모두 담았습니다. 이를 쓰는 사용자가 어려움 없이 클릭만 하면 작업을 할 수 있도록 자동화 과정을 엔진에 담았습니다.”

다빈치랩스를 사용하려면 따로 코딩할 필요가 없다. 마우스 클릭만으로 데이터 분석과 모델링을 할 수 있다. 일반 데이터를 자동으로 머신러닝에 적용할 수 있는 데이터로 바꾸는 자동 전처리 기능을 갖췄다. 변수 타입을 자동으로 설정할 수 있다. 인공지능 기반의 다양한 알고리즘 파라미터 설정을 최적화했다. 딥러닝, 리지 회귀, 랜덤 포레스트 등 7가지에 이르는 다양한 알고리즘 선형 조합으로 예측치를 높였다.

davinvi labs

아무 알고리즘이나 분석에 적용되는 건 아니다. 데이터 분석 과정에서 어떤 알고리즘이 예측치를 높이는지 하나씩 적용을 한 다음 얻은 결과를 바탕으로 분석에 주로 사용할 챔피언 알고리즘을 정한다. 그다음 챔피언 알고리즘을 바탕으로 학습하면서 알맞은 분석 결과를 보여준다. 이 과정에서 자바 등 운영 시스템에 실제 적용 가능한 형태로 머신러닝 기반 예측함수를 추출할 수 있다.

당연히 검증 과정도 거친다. 개발할 당시 과거 데이터 중 80%를 통해 모형을 정한다. 그다음 나머지 20% 데이터를 검증 데이터로 놓고 예측이 제대로 이뤄졌는지 판단한다.

아직 다빈치랩스는 자동학습을 지원하지 않는다. 금융소비자 행동 예측이 실시간으로 바뀌는 형태에 최적화돼 있지 않기 때문이다. 예를 들어, 한 금융 소비자가 머신러닝 기법으로 신용도를 평가받았는데 어느 날은 3등급을 받았다. 다음날 이 소비자가 또 신용도를 평가 받았을 때 등급이 달라지면 신용도 자체 신뢰성이 무너진다. 솔리드웨어는 이 부분을 고려해서 실시간 자동학습을 지원하는 기능을 뺐다. 짧게는 3개월에서 6개월 기간을 두고 데이터를 쌓은 다음에 업데이트하는 방식을 도입했다.

현재 다빈치랩스 솔루션을 이용하면 최선의 결과를 얻을 수 있는 모델 파악까지 약 이틀이 걸린다. 이후 24시간 종일 2주 정도 운영하면 분석 결과값이 나온다. 이 과정에서 자동으로 튜닝이 이뤄진다.

“실제 금융처리를 하면서 부딪혔던 어려운 점을 솔루션에 다 녹아냈습니다. 물론 이런 과정을 R로 만들 수 있다고 하시는 분들이 있습니다. 산에 가서 나무를 베어 직접 설계해서 식탁을 만드는 것과 한샘 가구를 사서 쓰는 것을 비교한 셈이지요.”

솔리드웨어는 앞으로 부도율 예측에 따라 등급을 산출하거나 타깃 마케팅, 사기 방지 시스템 (FDS), 고객 이탈률 예측, 고객관계관리(CRM)에 적용하는 방법을 고민하고 있다. 일본이나 아시아, 유럽 등으로 사업 영역을 확장하는 게 1차 목표다.

금융 분야만 고집하는 건 아니다. 엄수원 대표는 의료 분야에도 머신러닝을 활용할 수 있는 방법에 관해서 관심을 보였다.

“혈액 검사하면 혈청, 호르몬 수치 등 각종 수치가 나옵니다. 특정 병에 대해서 양성이다 음성이다 여부를 부도 여부와 똑같이 타깃으로 하면, 혈액검사 수치를 바탕으로 특정 병에 대해서 양성일 확률이 예측하는 모델을 만드는 일도 가능합니다. 의료 영역에서도 머신러닝을 활용할 가능성이 높을 것으로 보고 있습니다.”