"인공지능(AI)이 스타크래프트2를 정복했다."

지난 1월25일 AI가 '스타크래프트2' 프로게이머를 이겼다는 소식이 전해졌다. 화제의 주인공은 '알파스타'. '알파고'를 개발한 구글 딥마인드가 다시 인간의 영역에 발을 내디뎠다. '알파고 쇼크'라는 예방 주사가 있었던 만큼 충격의 여파가 크진 않았지만, 딥마인드는 진일보한 AI 기술을 효과적으로 전시했다. 알파스타는 중상위권의 실력을 갖춘 것으로 평가받는 2명의 유럽 프로게이머 TLO(다리오 뷘시), 마나(그레고리 코민츠)와 11번 맞붙어 10번을 이겼다. 그렇다면 AI가 '스타크래프트2' 프로게이머를 이겼다는 소식은 어떤 의미가 있을까. 딥마인드는 게임왕 AI라도 만들려는 셈일까.

▲  | 알파스타와 인간 프로게이머의 '스타크래프트2' 경기 (사진=딥마인드)
▲ | 알파스타와 인간 프로게이머의 '스타크래프트2' 경기 (사진=딥마인드)

알파고와 알파스타의 차이


먼저, 알파고와 알파스타의 차이를 짚어볼 필요가 있다. 알파고와 알파스타의 기술적 차이는 바둑과 '스타크래프트2'의 차이에 기인한다. 바둑은 기본적으로 선수가 모든 상황 정보를 확인할 수 있다. 또 두 선수가 돌을 하나씩 번갈아 놓으며 진행된다. 반면, '스타크래프트2'는 실시간 전략 게임(RTS)이다. 선수에게 불완전한 정보가 주어진다. 유닛의 시야 범위 안에서만 정보를 얻을 수 있으며, 정찰을 보내 탐색전을 펼치며 상대방의 상황을 추론해야 한다. 또 실시간으로 넓은 전장에서 수백개의 유닛과 건물을 제어하며 다양한 조합을 통해 전략을 짜야 한다.

▲  | '스타크래프트2'는 바둑보다 복잡한 게임이다. (사진=딥마인드)
▲ | '스타크래프트2'는 바둑보다 복잡한 게임이다. (사진=딥마인드)

불완전한 정보, 실시간성, 대규모 유닛 제어 등 게임이 더 복잡하기 때문에 '스타크래프트'는 바둑보다 AI가 정복하기 어려운 영역으로 평가된다. 바둑은 19×19 바둑판 위에서 벌어지는 10의 170승에 달하는 경우의 수가 도전 과제였다면, '스타크래프트2'는 더 복잡한 과제들이 제시된다. 딥마인드는 '스타크래프트2'에서 AI 도전 과제로 필승 전략이 없는 게임 이론, 불완전한 정보, 장기간 계획, 실시간성, 큰 액션 공간 등을 꼽았다. 알파스타가 알파고보다 진일보한 부분이다.

알파스타는 지도학습과 강화학습이 결합된 머신러닝 기법을 사용해 '스타크래프트2'를 학습했다. 알파고가 바둑을 배운 방식과 비슷하다. 초기에는 인간의 게임 리플레이 데이터를 통해 훈련한 다음 여러 AI 에이전트를 만들어 리그 경기를 치르는 방식으로 훈련했다. 알파스타는 계속해서 새로운 에이전트와 겨루는 과정에서 새로운 전략을 학습했다. 포톤캐논이나 다크템플러를 활용한 초반 러시 등 초기에는 단조로운 전략을 썼지만, 다양한 전략을 확장해나갔다. 딥마인드 측은 "스타크래프트 출시 후 사람들이 초기 전략을 파훼하고 새로운 전략을 발견해나가는 것과 유사하다"라고 설명했다.

딥마인드는 다양한 경기 방식이 나오도록 하기 위해 각 AI 에이전트별로 다른 학습 목표를 부여했다. 예를 들어 특정한 AI만 이기도록 목표를 부여하거나 전체 AI를 이기도록 하고, 특정한 유닛을 더 많이 생산하는 걸 목표로 설정하는 식이다. 이러한 학습 목표는 훈련 과정에서 각 AI 에이전트에 최적화됐다. 알파스타 훈련은 구글 AI 칩 ‘TPU’ 3세대를 이용했다. 각 AI 에이전트별로 16개의 TPU가 사용됐으며, 14일간 AI끼리 리그를 진행했다. 각 AI 에이전트는 인간으로 치면 200년간 죽도록 스타만 하는 양의 경기를 치렀다. 또 훈련 시간을 줄이기 위해 테란, 저그, 프로토스 세 종족 중 프로토스만 연습했다.

경기 공정성 논란


인간 프로게이머와의 경기도 프로토스 단일 종족전으로 치렀다. 알파스타에게 5연패를 당한 TLO는 "알파스타의 강함에 놀랐다"라며 "알파스타는 이전에 생각하지 못했던 전략을 보여줬고, 아직 우리가 가보지 않은 새로운 게임 방식이 여전히 있을 수 있다는 걸 알려줬다"라고 말했다. 실제 경기에서 알파스타는 유닛 컨트롤에 능했다. 전장에서 신속하게 병력을 통제해 상대방을 제압하는 모습을 보여줬다. 마나와의 경기에서 알파스타는 추적자 유닛 컨트롤로 상대방을 압도하는 경기력을 나타냈다. 경기 후 마나는 "인간 플레이어라면 추적자를 이렇게 멋지게 컨트롤하지 못할 것"이라고 말했다.

▲  | 알파스타 관점에서의 '스타크래프트2' (사진=딥마인드)
▲ | 알파스타 관점에서의 '스타크래프트2' (사진=딥마인드)

이번 경기 내용이 알려지면서 일각에서는 공정성 논란이 불거졌다. AI와 인간의 물리적 한계 차이가 경기 결과로 이어졌다는 주장이다. 특히 명령을 내리는 속도인 분당 행동 수(APM)에서 AI가 유리하지 않냐는 문제 제기다. 이에 대해 딥마인드 측은 알파스타의 평균 APM을 프로게이머보다 낮은 수준으로 제한했다는 입장이다. TLO와 마나의 평균 APM이 각각 678, 390인데 반해 알파스타의 평균 APM은 277 정도다. 딥마인드는 알파스타의 낮은 APM가 인간 플레이를 학습하는 과정에서 인간과 같은 게임 방식을 모방했기 때문이라고 밝혔다. 또한, 알파스타는 보고 행동하는 것 사이에 평균 350ms의 반응 지연이 발생하도록 돼 있다.

▲  | 알파스타와 프로게이머의 평균 APM (사진=딥마인드)
▲ | 알파스타와 프로게이머의 평균 APM (사진=딥마인드)

하지만 시야 범위가 인간보다 자유로웠다. 맵핵을 쓰는 건 아니지만, '스타크래프트' 게임 엔진과 직접 연동되기 때문에 카메라 움직임 없이 가시 영역을 확인할 수 있었다. 즉 인간은 카메라를 이리저리 움직이면서 전장 정보를 확인해야 하는데 알파스타는 이런 물리적 제한이 없었다는 얘기다. 이는 알파스타와 인간의 대결에서 승패를 가른 결정적 요인 중 하나로 분석된다. 불확실한 정보를 바탕으로 한 추론과 전략이 승부에 미치는 영향이 크기 때문이다. 실제로 마나가 알파스타에 승리를 거둔 마지막 생중계 경기에서는 알파스타의 시야가 인간 수준으로 제한됐다. 카메라를 움직여 비치는 화면 정보로만 상황을 인식하도록 일주일간 새로 훈련했다.

딥마인드는 알파스타의 승리 요인이 초월적인 클릭률, 빠른 반응 시간, 원시 인터페이스(자유로운 시야 범위)보다 우수한 매크로, 미세한 전략적 의사 결정에 있다고 자평했다. 즉 신속하고 빠른 의사결정과 정확한 명령 입력 면에서 인간에 앞섰다는 얘기다.

알파스타의 다양한 가능성


사실 알파스타의 개발 목적은 단순히 '스타크래프트2'에서 인간을 이기기 위해서가 아니다. 게임은 AI 시스템 성능을 테스트하고 평가하는 매개일 뿐이다. 게임을 통해 얻은 AI 기술은 다양한 과학과 실제 문제를 해결하는 데 필요한 기술로 응용된다. 지난 수년간 AI 개발자들이 체스, 바둑 등에서 인간을 이기는 AI를 개발해 온 이유다. 구글 딥마인드는 지난해 12월 알파고를 통해 얻은 AI 기술을 바탕으로 단백질의 3차원 형태를 예측하는 ‘알파폴드’를 공개했다. 인류의 난제인 단백질 구조를 규명한다면 생명체의 근원적 현상에 대해 접근하고 질병을 고칠 수도 있다. 신약 개발에 미칠 파장도 크다.

딥마인드는 '스타크래프트2'를 매개로 바둑보다 더욱 복잡한 상황에서 AI 기술을 테스트해볼 수 있었다. 알파스타에 적용된 심층 신경망 구조는 장시간 동안 불완전한 정보에 기반해 행동을 예측하는 모델링에 사용될 수 있다. 즉 복잡한 실제 세계에 알파스타가 적용될 수 있다는 얘기다. AI를 활용한 기상 예측이 대표적인 예다.

딥마인드는 "매우 긴 데이터 시퀸스에 대한 복잡한 예측을 하는 근본적 문제는 날씨 예측, 기후 모델링, 언어 이해 등과 같은 실제 세계에 나타난다"라며 "우리는 알파스타 프로젝트에서 얻은 기술이 이러한 분야에 활용돼 상당한 발전을 이룰 가능성에 대해 매우 흥분하고 있다"라고 밝혔다.

알파스타는 인간을 이긴 것으로 끝난 게 아니다. '스타크래프트'라는 가상 세계에서 벗어나 실제 세계에 AI를 적용하기 위한 과정일 뿐이다.

저작권자 © 블로터 무단전재 및 재배포 금지