이세돌과 대국으로 ‘알파고’ 설계자가 꿈꾸는 것은?

가 +
가 -

그는 영국이 아꼈던 체스 천재다. ’바둑 신동‘ 이세돌 9단만큼이나 어릴 적 타의 추종을 불허할 만한 기록을 여럿 남겼다. 세계적으로도 촉망받는 체스 기사였지만 그의 관심은 체스에 머물지 않았다. 이세돌이 그 천재성을 오로지 바둑에만 쏟아부었다면 그는 체스에서 벗어나 다른 길을 향해 떠났다.

데미스 하사비스. 그는 올해 한국 나이로 41살(1976년생)이다. 이세돌 9단과 대국을 앞둔 알파고의 인공지능 알고리즘을 설계한 ‘천재과’ 프로그래머다. 영국 캠브리지대학에서 컴퓨터과학으로 학사를, 유니버시티 칼리지 런던(UCL)에서 인지신경과학으로 박사학위를 받았다.

하사비스의 이력은 화려함 그 자체다. 13살에 체스 마스터에 오른 뒤 곧 14살 이하 체스 세계랭킹 2위를 차지했다. 그는 단 한 번 진 적이 있는데 체스의 전설 유디트 폴가를 만났을 때다. 유디트 폴가 최고의 체스 고수 중 한 명이면서 세계 10대 천재에 꼽힐 정도로 비상한 두뇌를 소유한 체스 기사다(Theguardian. 2014.1.28.).

이세돌 9단과 알파고의 대국장 전경

하사비스가 인공지능에 눈을 뜨게 된 계기

데미스 하사비스를 관통하는 하나의 키워드를 꼽는다면 아마 ‘게임’일 게다. 하사비스와 게임의 인연은 떼려야 뗄 수가 없다. 게임은 현재 주목받고 있는 인공지능 알파고의 태반이자 자궁이다. 그가 인공지능에 눈을 뜬 계기도 게임 덕이었다.

하사비스는 잘 알려지진 않았지만 비디오 게임 개발의 고수로 통했다. 대학에 입학하기 전인 1994년, 전설적인 개발자인 피터 몰리뉴와 경영 시뮬레이션 게임 ‘테마파크’를 공동으로 개발했다. 당시 그의 나이는 17살에 불과했다. 하사비스의 손때가 묻은 테마파크는 전세계 수백만 카피가 팔리면서 영국 개발사가 내놓은 최고의 대작으로 평가를 받았다.

Theme_Park_cover테마파크 개발로 명성을 날렸던 하사비스는 회사 생활을 접고 돌연 대학으로 향했다. 영국의 명문 캠브리지대학 퀸즈 칼리지에서 컴퓨터과학을 공부했다. 그가 왜 게임 개발에서 손을 놓고 대학으로 진로를 틀었는지는 확인하기는 어렵다. 하지만 그의 천재성은 학사와 석사를 캠브리지에서도 최고 등급을 동시에 취득할 만큼 여전히 유효했다.

그는 퀸즈 칼리지를 졸업한 뒤 또다시 피터 몰리뉴와 손을 잡았다. 당시 그의 머릿속은 인공지능 기술에 담겨 있었다. 게임과 인공지능의 결합을 향한 도전이 이때부터 시작된다. 하사비스가 몰리뉴가 창업한 라이언헤드 스튜디오에서 부여받은 역할은 인공지능 프로그래밍이다. 특히 게임 블랙앤화이트 개발에 인공지능을 녹여넣는 미션이었다.

블랙앤화이트라는 게임에는 ’크리처’라는 캐릭터가 등장한다. 인공지능으로 작동하는 가상의 개체다. 라이언헤드 스튜디오는 크리처를 개발할 때 몇 가지 원칙을 제시했다. 그 한 가지 “사용자가 사람과 상대하고 있다고 느끼도록 해야 하고, 그럴 듯하고(plausible), 적응성이 있고(malleable), 사랑스러워야(loveable) 한다”는 것이다(Evans, 2001). 게임 속 조력자 캐릭터지만 가상현실 속 인공지능을 개발하는 중요한 영역을 그가 맡았다. 그는 1998년 몰리뉴와 결별하고 엘릭서 스튜디오를 1998년 설립했고 2003년 ‘리퍼블릭: 레볼루션’, 2004년 ‘이블 지니어스’를 잇달아 세상에 선보였다. 하지만 2005년 “지금의 게임 개발 상황은 독립 개발사들이 혁신을 지속할 만한 여지가 없다”며 돌연 폐업을 선언했다. 마이크로소프트가 인수 제안을 해왔지만 그는 거부했다. 그렇게 그의 첫 번째 실패의 역사로 남아 있다.

두뇌를 연구해 인공지능의 미래를 설계하다

DecodingSpatialMemory엘릭서 스튜디오를 정리한 하사비스는 대학 연구실로 다시 돌아갔다. 두뇌를 사고 작용 혹은 학습 방식을 본 딴 혁신적인 알고리즘을 만들어내고 싶어서였다. 자연스럽게 그의 관심은 인지 신경과학으로 향했고 런던칼리지대학에서 이 분야 박사학위도 취득했다.

그는 2009년 게임이 아닌 논문으로 전세계의 스포트라이트를 받았다. 뇌 속에 저장된 과거의 기억을 스캔을 통해 읽어낼 수 있다는 사실을 입증한 한 편의 학술 논문 덕이다. 그는 박사과정 내내 기억의 저장 과정에 관심을 드러냈다. 기억이 이뤄지는 신경과학적 작용을 이해함으로써 이를 알고리즘화하는 데 활용하기 위해서였다. 다음은 그가 발표했던 논문의 제목들이다.

  • 2007년 : 에피소드 기억의 신경 기반 이해를 위한 이미지네이션 활용(Using Imagination to Understand the Neural Basis of Episodic Memory)
  • 2007년 : 에피소드 기억 생성의 해체(Deconstructing episodic memory with construction)
  • 2009년 : 두뇌의 생성 시스템(The construction system of the brain)
  • 2009년 : 인간 해마상 융기세포에서 뉴런 앙상블의 디코딩
  • 2009년 : 위협에서 두려움까지 : 인간의 두려움 방어 시스템의 신경적 조직화(From threat to fear: the neural organization of defensive fear systems in humans)
  • 2009년 : 인간 의사결정에서 개념적 지식의 출현 트래킹Tracking the emergence of conceptual knowledge during human decision making
  • 2012년 : 미래 기억 : 상기하기, 이미지화하기 그리고 두뇌(The future of memory: remembering, imagining, and the brain)
  • 2015년 : 심화강화학습을 통한 인간 수준의 제어(Human-level control through deep reinforcement learning)

하사비스는 그간의 학문적 토대를 바탕으로 2011년 알파고를 출산한 딥마인드를 영국 런던에서 창업했다.

구글맨이 된 데미스 하사비스

demis

데미스 하사비스 구글 딥마인드 CEO.(사진 : 구글코리아 제공)

하사비스의 딥마인드는 창업 3년 만에 구글에 인수됐다. 인수 가격은 정확히 밝혀지진 않았지만 대략 4억달러, 우리 돈으로 4천억원 이상인 것으로 알려진다. 이 과정에서 흥미로운 사실이 드러나기도 했다. 창업 이듬해인 2012년 인수 제안을 페이스북 창업자 마크 주커버그에게도 받았다는 것이다.

당시, 구글과 페이스북, MS를 비롯해 중국의 바이두는 딥러닝 전문가를 찾기 위해 혈안이 돼 있던 때였다. 실제 딥러닝에 조예가 깊은 엔지니어는 전세계를 통틀어 수십명 안팎에 불과했다. 이들 IT 거인들은 솔깃한 제안을 담아 영입 경쟁을 펼치고 있었는데, 하사비스의 딥마인드는 중 가장 매력적인 스타트업 가운데 하나였다. 인공지능 실력자들을 전세계에서 가장 많이 보유한 스타트업으로 이름을 드날리기도 했다.

데미스 하사비스는 이미 몇 년 전부터 이 분야에서 손꼽히는 전문가로 인정받아왔고 그의 천재성은 모두가 탐내고 있던 터였다. 그의 딥마인드는 스스로 학습해서 진화하는 독특한 알고리즘으로 정평이 나 있었다. 하지만 하사비스는 주커버그가 내민 손은 거절했다.

“나는 인공지능이 인류가 만들어갈 수 있는 가장 중요한 것들 중 하나라고 믿고 있다. 하지만 주커버그는 구글의 래리 페이지 같은 이들만큼 뿌리깊이 관심을 두는 것 같진 않았다. 그는 사람들을 연결시키는 미션에 더 관심이 많았다.”

그는 그렇게 구글을 선택했고 지금의 알파고를 개발해냈다. 사실 구글은 그에게 최상의 인프라였다. 무한대에 가까운 컴퓨팅 파워를 마음껏 활용할 수 있는데다, 다룰 수 있는 데이터 양도 상상 이상으로 제공해주고 있다. 무엇보다 자신과 자신의 팀을 통제할 수 있는 인공지능윤리위원회를 설치해 달라는 요구에 래리 페이지가 긍정적으로 화답했다. 인공지능의 윤리적 위험성을 내부에서 통제할 수 있는 조건도 갖춘 셈이다. 그의 역할은 구글 엔지니어링 이사인 레이 커즈와일과 일부 겹치기도 한다. 한 가지 확실한 점은 레이 커즈와일의 예측을 실현시킬 사람이 바로 하사비스라는 점이다.

하사비스의 꿈과 강화학습의 위력

reinforcement_learning

강화학습의 학습방법.(이미지 출처 : http://www.gameai.net/)

하사비스는 인간을 이기는 인공지능을 꿈꾼다. 그가 다시 대학으로 돌아가 신경과학을 연구한 이유다. 이세돌 9단과의 대국도 이런 구상의 첫발일 뿐이다. 인간을 넘어서는 인공지능 혹은 인간 수준의 인공지능이 개발되려면 아직 수십년이 필요한 것이 사실이다. 이를 앞당길 수 있는 방법을 그는 바둑에서 힌트를 찾으려고 하고 있다.

이세돌 9단과의 대국을 단순한 바둑경기로 바라봐서는 안 된다. 바둑만으로 한정되는 약한 인공지능의 실력 테스트로 봐서도 안 된다. 그는 그 너머를 바라보고 있다. 데미스 하사비스는 신경과학과 딥러닝에 더해 강화학습 알고리즘에 빼어난 재능을 갖추고 있다. 구글 딥마인드 기술력의 핵심이 강화학습이라는 평도 있다.

강화학습은 딥러닝만큼이나 주목받고 있는 영역이다. 제프리 힌튼 교수가 딥러닝의 대가라면, 그는 강화학습의 대가라고 주저없이 말한다. 뿐만 아니라 둘의 결합과 조화를 꾀할 수 있는 탁월한 능력을 딥마인드가 갖고 있다고 자부한다. 어디에도 가질 수 없는 그들만의 차별성이 바로 이 여기에서 비롯된다는 것이다. 하사비스는 지난 2015년 1월 스티브 레비와 인터뷰에서 “우리가 갖고 있는 다른 큰 무언가는 우리가 생각하기에 딥러닝만큼이나 중요한 강화학습”이라고 밝힌 바 있다.

강화학습은 기계학습의 한 방법론이다. 지도학습이나 비지도학습과 달리, 현재 조건에서 어떤 결정을 내리는 것이 최적인지 스스로 학습하는 것이다. 각 결정에 대해선 보상과 처벌이 주어지기도 한다. 따라서 강화학습 알고리즘은 보상이 최대화하는 방향으로 결정을 내리도록 스스로 공부하는 것이다. 인간이 칭찬을 받으며 진화하듯, 인공지능도 높은 보상을 받으며 더 똑똑해질 수 있다는 걸 증명할 수 있는 것이다.

데미스 하사비스, 이세돌, 에릭 슈미트. (사진 : 구글코리아 제공)

알파고도 마찬가지다. 알파고는 두 가지 방식으로 학습한다. 하나는 지도학습 기반으로 기존 기보를 학습하지만, 다른 한편으로는 강화학습 기반으로 스스로 대국을 설계하고 게임을 진행한다(주형석 등, 2016.3.3.). 이를 통해 기보에 존재하지 않는 빈틈을 확인하고 스스로의 지능을 높여나가게 된다. 두 학습법의 조합은 인간의 학습 방법을 그대로 닮아있다고 할 수 있다.

이세돌 9단과의 대국으로 한층 향상된 강화학습 알고리즘을 개발하게 된다면 이는 다른 게임 영역에 적용할 수 있게 된다. 그것이 하사비스의 목표다. 하사비스는 범용인공지능 또는 강한 인공지능을 본인 손으로 창조하고 싶어한다. 체스만 잘하는 혹은 바둑만 잘 두는 인공지능을 개발하는 것이 그의 바람이 아니다.

블로터 플러스 '지식 아카이브'

하사비스는 레비와 같은 인터뷰에서 “특정 영역에서 학습한 것을 다른 영역에서도 적용할 수 있는 알고리즘에 관심이 있다”고 말했다. 나아가 그는 사람이 하나의 보드 게임을 익힌 뒤 다른 보드 게임에 그 능력을 활용하는 것처럼 알고리즘도 그렇게 만들어가고 싶다고 덧붙이기도 했다. 아주 극단적인 경우긴 하지만 체스에서 배운 노하우를 바둑에도 써먹을 수 있는 알고리즘을 만드는 것이 그의 목표인 것이다.

딥러닝과 결합된 그의 강화학습 알고리즘이 진화에 진화를 거듭하게 되면 언젠가는 그의 꿈이 현실이 될 수 있을 것이다. 알파고와 이세돌의 대결은 그가 누차례 말해왔던 인공 두뇌의 프로토타입으로 만들어가는 과정이다. 이번 대국이 가지는 의미, 하사비스가 의도했던 바도 바로 이것이다. 범용적 두뇌를 만들기 위한 강력한 파트너로 이세돌 9단을 선택한 배경이다.

어쨌든 인간의 승리다

2010년 촉망받던 신경과학자였던 하사비스는 싱귤래러티 서밋에 참석한 자리에서 자신의 계획을 이렇게 털어놓은 적이 있다. “지각된 정보를 추상적 정보로 바꿔갈 수 있는 기계학습 알고리즘을 갖지 못했다. 우리는 이 질문에 답을 찾기 위해 모든 최신 신경과학 기술, 뇌 영상법에서부터 단일 세포 기록에 이르기까지 활용하고 있는 중이다. 우리의 계획은 이러한 알고리즘을 범용인공지능(AGI)으로 실행해보는 것이다.” 그가 강화학습을 그렇게도 강조하는 이유다.

알파고와 이세돌의 대국은 겉으로는 인공지능과 인간의 대결로 보이지만 실은 인간과 인간의 대결이다. 요약하면 체스 천재 하사비스와 바둑 천재 이세돌의 싸움인 것이다. 누가 이기든 3월 대국은 인간의 승리일 수밖에 없다. 이세돌이 이겨도, 알파고가 이겨도 말이다. 인간 이상의 인공지능이 탄생하는 데 인간이 스스로 자양분이 되고 있다는 점만큼은 분명하다. 단, 인간 이상의 인공지능이 탄생했을 때 이 인공지능을 인간이 통제할 수 있느냐는 누구도 장담할 수 없다.

참고 자료

  • 주형석·안성원·김석원.(2016.3.3.). AlphaGo의 인공지능 알고리즘 분석. SPRi Issue Report. 소프트웨어정책연구소.
  • Evans, R. (2001). The future of ai in games: A personal view. Game Developer Magazine. Chicago
  • Demis Hassabis: 15 facts about the DeepMind Technologies founder. Theguardian. 2014.1.28.
네티즌의견(총 48개)