▲ “모두에게 주치의가 있다면 어떨까요. 모순적으로 들리지만, 기술적으로는 충분히 가능한 일입니다. 디지털 휴먼이 있으면 모순적인 상황을 현실로 만들 수 있어요.”(사진=카카오브레인)
▲ “모두에게 주치의가 있다면 어떨까요. 모순적으로 들리지만, 기술적으로는 충분히 가능한 일입니다. 디지털 휴먼이 있으면 모순적인 상황을 현실로 만들 수 있어요.”(사진=카카오브레인)

“모든 사람들에게 ‘주치의’를 만들어준다면 어떨까요. ‘디지털 휴먼(가상인간)’ 기술이 있다면 가능한 일입니다.” 김일두 카카오브레인 대표는 20일 오전 온라인 기자간담회를 열고 “교육·헬스케어 난제를 푸는 데 나서겠다. 특히 신약 개발은 글로벌 1등 사업으로 키워보겠다”며 이같이 자신했다.

이 자리에서 김 대표는 카카오브레인의 초거대 인공지능(AI) 로드맵을 설명하는 데 집중했다. 내년 글로벌 최대 규모의 ‘멀티모달(multi-modality)’ 데이터셋(데이터 집합체)을 구축해 공개하고, 카카오 안팎의 다양한 기업과 협력해 본격적으로 사업을 키우겠다는 포부다.

글·이미지 아우르는 ‘멀티모달 AI’ 구축
카카오브레인이 구축 중인 ‘멀티모달’ 데이터셋은 글·이미지를 동시에 이해하는 데이터 묶음을 일컫는다. 현재까지 구축한 20억건의 데이터셋 가운데 일부를 내년 1월 공개할 예정이다. 이른바 ‘넥스트 이미지넷 프로젝트’다. 지난 2010년 1200만장 이미지 데이터베이스를 공개해 딥러닝 연구 가속화를 이끌었던 ‘이미지넷(ImageNet)’의 뒤를 따라 연구에 기여하겠다는 설명이다. 앞서 카카오브레인은 세계 최대 오픈소스 커뮤니티 깃허브(github)에 초거대 AI를 잇따라 공개해왔다. 지난달에는 한국어 특화 초거대 언어모델인 ‘KoGPT(코지피티)’를, 이달에는 이미지 실시간 생성 모델 ‘minDALL-E(민달리)’를 선보였다.

이에 대해 김 대표는 “딥러닝 연구 가속화를 이끌었던 ‘이미지넷’ 이후에 중요한 데이터셋이 공개된 사례가 없었다. 기업들이 사업상 공개하지 않았기 때문”이라며 “우리는 연구 커뮤니티에 이바지하고, 연구 가속화를 이끌 파트너도 찾을 예정이다. 해외 연구기관들과 논의 중”이라고 말했다. 카카오브레인의 멀티모달 데이터셋은 포털 다음(DAUM), 카카오톡, 카카오 쇼핑 등 카카오 공동체 서비스에 우선적으로 적용될 예정이다.

▲ 카카오브레인이 개발한 민달리가 이용자의 명령어만 가지고 그려낸 그림들.(사진=카카오브레인)
▲ 카카오브레인이 개발한 민달리가 이용자의 명령어만 가지고 그려낸 그림들.(사진=카카오브레인)
“초거대 AI, 네이버보다 규모 작지만 성능 앞서”
이날 김일두 대표는 파라미터(매개변수)의 규모보다는 실질적인 성능이 중요하다고 거듭 강조했다. 경쟁사인 네이버의 초거대 AI ‘하이퍼클로바(HyperCLOVA)’는 2040억개 파라미터를, LG ‘엑사원’은 국내 최대 수준인 3000억개 파라미터를 자랑한다. 반면 카카오브레인의 코지피티는 300억개, 민달리는 14억개 파라미터를 보유하고 있다. 일반적으로 파라미터가 많을수록 정교한 학습이 가능한 것으로 알려져 있다. 이를 두고 김 대표는 규모가 클수록 학습과정이 복잡해 사용성이 떨어진다고 지적했다. 그는 “이미 해외에서는 규모를 ‘실용구간’으로 내리는 연구들이 이루어지고 있다”며 “초거대 모델에서 나오는 극단적인 단점을 극복하기 위해 구조를 바꾸고 있다. 6억에서 80억개 파라미터 수준이 실시간 응답이 가능해 실용적”이라고 말했다.

실제로 성능 면에서 네이버를 앞서고 있다고도 강조했다. 김 대표는 “네이버가 논문에 공개한 테스트를 동일하게 진행한 결과 코지피티의 성능이 더 높게 나왔다”며 “네이버는 더 큰 모델 만들고 있다고 했지만 우리는 이미 그보다 낫다”고 말했다. 그러면서 “카카오브레인은 언어만 하는 것도 아니고 언어와 이미지, 이미지 생성 등을 선구적으로 하고 있다. 국내서 이런 연구를 하는 팀은 거의 없다”고 자부했다.

코딩교육·신약개발...그 끝엔 ‘디지털 휴먼’
내년부터는 교육·헬스케어 분야의 난제를 푸는 데 도전할 계획이다. 특히 헬스케어에선 신약개발 과정을 획기적으로 줄이는 데 주력한다. 이달 AI 신약 설계 스타트업 갤럭스에 50억원을 투자하고 공동연구를 약속한 이유다. 김 대표는 “갤럭스에 집중투자해서 ‘글로벌 1등’으로 키워보겠다”고 자신했다. 궁극적으로는 디지털 휴먼을 구현하는 게 카카오브레인의 목표다. “‘사람 같은 AI’가 세상의 중요한 문제에 쓰이도록 하겠다”는 생각이다. 김 대표는 “(가상인간이) 사람의 역할을 일부 대체하면서 고부가가치를 줄 수 있는 대표적인 영역이 교육·헬스케어”라며 “비용에 따라 접근성이 떨어지는 산업에 진출하겠다”고 말했다.

한편 이날 간담회에서는 카카오브레인이 제공하는 오픈소스를 활용해 혐오발언·개인정보 유출 등이 발생할 수 있다는 우려가 나오기도 했다. 김 대표는 “전세계 어느 곳에서도 혐오발언·정보유출을 100% 막은 팀이 없고 기술적으로도 어렵다”며 “난이도가 높아 5년 이상 연구적 과업으로 보고 있다. (타사) 제품에 들어갈 땐 우리도 가능성을 보면서 주의를 기울이려 하고 있다”고 말했다.

또 데이터를 확보한 방법에 대해 묻자 “기본적으로 웹에서 찾는다. 구글, 오픈 AI도 마찬가지로 ‘커먼 크롤’에 공개된 데이터를 활용한다”며 “저작권 문제가 없고 차별·혐오발언 없는 데이터 등을 걸러내니 20억건 정도가 남았다”고 말했다. 김 대표는 “웹 데이터 이외에 전략적으로 수급하는 것도 있는데, 이는 내년쯤 돼야 ‘사실은 이런 차원에서도 공급받고 있었다’고 언급 드릴 수 있을 것 같다”고 말했다.

저작권자 © 블로터 무단전재 및 재배포 금지