애자일소다, 강화학습 보상 기술로 국내 특허 획득

가 +
가 -

기업용 인공지능(AI) 전문 기업 애자일소다(대표 최대우)가 기업 비즈니스에 강화학습 기술을 적용하는 데 활용할 수 있는 ‘데이터 기반 강화 학습 장치 및 방법’ 관련 국내 특허를 취득했다고 2월24일 밝혔다.

회사측에 따르면 강화학습은 AI가 특정 목표를 향해 움직이도록 동기를 부여하기 위해 처벌과 보상이라는 인센티브를 활용한다.  환경(environment)과 상호작용하며 목표를 달성하는 에이전트(agent)를 다루는 머신러닝의 한 분야로, 자율주행, 로봇제어, 게임 분야에서 주로 사용되고 있다.

행동의 주체인 에이전트가 어떤 행동을 해야 더 많은 보상(reward)을 받을지 알아내는 것을 목적으로 한다는 것이 특징. 그런 만큼, 보상을 어떻게 책정하느냐에 따라 학습 결과에 크게 영향을 미친다는 것이 회사측 설명이다.

게임과 같은 경우 게임 점수라는 명확한 보상이 있지만, 비즈니스 환경은 사업목적에 맞는 보상체계를 정하기가 쉽지 않기 때문에 매번 사업목적에 부합하는 보상 설정을 반복하면서 실험해야만 하는 어려움이 있었다. 분석가들은 최적의 모델을 개발하기 위해 임의로 보상 점수를 부여하며 학습 결과를 보며 재조정하는 시행착오를 거쳐야 했다.

이와 관련해 애자일소다는 다양한 기업 프로젝트 경험을 기반으로 ‘기업의 목표와 성과를 일치(Align)시킬 수 있는 보상 함수 알고리즘’을 개발, 실제 프로젝트를 통해 가능성을 입증하며 이에 대한 특허를 획득했다라고 설명했다. 이를 통해 분석가들은 매번 새로운 목표에 맞는 보상 설정에 필요한 시간과 공수를 크게 줄일 수 있을 것으로 기대했다. 반복적인 학습-재조정 과정에 필요한 대규모 컴퓨팅 리소스도 절약할 수 있어  비용도 절감할 수 있을 것이라고 덧붙였다.

최대우 애자일소다 대표는 “이번 특허 기술은 머지않아 출시 예정인 강화학습 솔루션 ‘베이킹소다[에 적용될 예정”이라며 “기업 의사결정 최적화에 강화학습 기술의 가능성을 내다보던 기업 분석가들이 강화학습 도입을 적극 검토하는 계기가 될 것이다”라고 말했다.