▲ △네이버 정석근 클로바 CIC 대표
▲ △네이버 정석근 클로바 CIC 대표

“우리말을 가장 잘 이해하고 구사하는 최초의 초대형 한국어 인공지능입니다.” 네이버가 국내 기업 최초의 ‘초대규모 AI’인 ‘하이퍼클로바(HyperCLOVA)’를 공개했다. 세계 최대 한국어 언어모델 하이퍼클로바를 통해 글로벌 시장에서 기술 주도권을 잡겠다는 포부다.

25일 정석근 네이버 클로바 CIC(Company-In-Company) 대표는 온라인으로 열린 ‘네이버 AI 나우(NAVER AI NOW)’ 컨퍼런스 기조연설에서 “글로벌 기술 대기업들은 대형 AI 모델이 가져올 파괴적 혁신에 대한 기대로 투자를 가속화하고 있다”며 “한국의 AI 기술이 글로벌 플랫폼에 종속되지 않기 위해서는 이미 공개된 기술을 활용하고 따라잡는 수준에 그칠 수 없다고 판단했다”고 개발 배경을 밝혔다.

왜 만들었을까

초거대 AI는 특정 용도에 한정하지 않고 자율적으로 사고·학습·판단·행동하는 인간의 뇌 구조를 닮은 AI를 뜻한다. 일론 머스크 테슬라 최고경영자(CEO)가 주도해 설립한 ‘오픈(Open)AI’가 지난해 공개한 초거대 AI ‘GPT-3’가 대표적인 예다. GPT-3은 현존하는 가장 뛰어난 초거대 AI 모델로, 인간처럼 자연스러운 대화가 가능하고 에세이·소설도 창작할 수 있다. 하지만 GPT-3의 학습 데이터는 영어가 대부분이다. 네이버가 ‘한국형 AI’를 만드는 데 뛰어든 이유다. 글로벌 경쟁에서 뒤처지지 않는 한편 한국어에 최적화한 언어모델을 개발해 AI 주권을 확보하려는 의미도 있다.

언어모델 개발을 담당하고 있는 클로바 컨버세이션팀 박우명 개발자는 “GPT-3 언어분포를 보면 약 93%로 대부분이 영어고, 한국어 비중은 0.1% 미만”이라며 “다국어 모델이라고는 하나 사실상 영어 전용이고 이외의 언어, 특히 한국어에 있어서는 생성능력이 매우 제한적”이라고 지적했다. 그는 “기술이 종속될 수 있다는 우려가 있었고 글로벌 기업 대비 한국어 기반 서비스의 성장에도 제약이 있을 것으로 예상됐다”며 “(네이버는) 이 같은 문제의식을 가지고 GPT-3 영어능력에 필적하거나 더 뛰어난 한국어모델 개발에 착수하게 됐다”고 설명했다.

▲ △영어가 학습 데이터의 대부분을 차지하는 GPT-3와 달리, 하이퍼클로바 학습 데이터는 한국어 비중이 97%에 달한다.
▲ △영어가 학습 데이터의 대부분을 차지하는 GPT-3와 달리, 하이퍼클로바 학습 데이터는 한국어 비중이 97%에 달한다.

국내 최초 ‘초대규모’ 인공지능, 한국어가 핵심

하이퍼클로바는 네이버가 국내 기업 최초로 자체 개발한 초대규모 AI다. GPT-3는 공개 당시 1750억개(175B) 파라미터(parameter·매개변수)를 보유했다. 하이퍼클로바는 이보다 큰 204B 파라미터 규모를 자랑한다. 파라미터는 인간 뇌의 ‘시냅스’와 유사한 역할을 한다. 규모가 커질수록 AI의 지능도 높아지는 것으로 알려져 있다. 정 대표는 “‘빅 AI’에서 파라미터 개수는 반도체의 집적도와 같다”면서 “파라미터 수가 증가함에 따라 AI가 풀 수 있는 새로운 문제의 해결 가능성이 높아진다”고 말했다.

가장 큰 차이점은 ‘한국어 능력’이다. 하이퍼클로바는 GPT-3보다 한국어 데이터를 6500배 이상 학습했다. 이를 위해 네이버는 560B 토큰(token·말뭉치)의 한국어 대용량 데이터를 구축했다. 한국어 위키피디아의 2900배, 뉴스 50년치, 블로그 9년치에 달하는 규모다. 학습에는 300B 토큰을 사용했다. 이 같은 초거대 AI를 개발하기 위해 네이버는 지난해 10월 700페타플롭(PF) 성능 슈퍼컴퓨터를 도입한 바 있다. 이날 네이버는 하이퍼클로바와 ‘바로크 음악’을 주제로 20회 이상 자연스러운 대화를 이어 가는 모습을 시연하기도 했다.

성낙호 네이버 클로바 CIC 비즈AI 책임리더는 “하이퍼클로바는 우리말을 가장 잘 이해하고 구사할 수 있는 최초의 초대형 한국어 AI”라며 “데이터셋을 별도로 구축하지 않아도 연결된 대화가 가능하다. 이용자가 굳이 모든 문장을 완벽하게 구사해서 내 의도를 전달하지 않아도 편하게 대화할 수 있는 수준”이라고 말했다.

데이터는 어디서 얻었나

하이퍼클로바는 네이버가 가진 ‘자료’에 뿌리를 두고 있다. 뉴스부터 블로그·지식인·카페·웹문서가 대상이었다. 국내에 있는 전반적인 데이터를 두고 품질 순으로 데이터를 골랐다. 먼저 기반이 되는 지식은 정보 범용성·완결성 등을 고려해 객관적인 사실을 중심으로 꾸리고자 노력했다. 국립국어원의 ‘모두의 말뭉치’처럼 신뢰할 수 있는 출처에서 공유하는 자료들은 고품질로 분류해 데이터에 추가했다.

또, 전문지식을 더해 정보 다양성을 확보했고 문서 내용이 유사하면 중복 제거를 진행했다. 문서 내용·구조를 하나의 문서로 재구조화해 유의미한 흐름으로 구성되도록 손봤다. 문서 내용에 더해 메타정보도 추가했다. 정보성·신뢰성 있고 이용자들이 즐겨 찾는 공식사이트·출처 등은 상위 품질에 포함되도록 설계했다. 이 가운데서도 정보가치와 유용성에 따라 데이터를 선별하는 작업 등을 진행했다. 이 같은 ‘골라내기’ 작업으로 최종적으로는 1.96테라바이트(TB)의 데이터셋을 구축했다.

강인호 네이버 서치 CIC 책임리더는 “검색이 허용된 범위에서 품질 순으로 줄을 세워 차례대로 데이터를 가져왔다”며 “개인정보수집은 지양하고 있지만 사용자 전체공개로 지정해서 수집된 정보나 검색 허용된 문서의 경우 포함될 수 있는 개인정보는 제거 또는 비식별화 처리했다”고 말했다. 이어 “한국의 지식과 특성을 잘 반영한 구성으로 지금 우리가 구할 수 있는 한국어 문서의 결정체라고 볼 수 있다”고 자신했다.

▲ △네이버는 AI가 딱딱하고 기계적일 것으로 생각하지만 하이퍼클로바는 사람처럼 맥락을 이해하고 공감하는 대화를 할 수 있다고 설명했다. 비지도학습방법론을 채택해 대규모 학습이 가능해졌다고도 밝혔다.
▲ △네이버는 AI가 딱딱하고 기계적일 것으로 생각하지만 하이퍼클로바는 사람처럼 맥락을 이해하고 공감하는 대화를 할 수 있다고 설명했다. 비지도학습방법론을 채택해 대규모 학습이 가능해졌다고도 밝혔다.

그래서 어디에 쓰일까

네이버는 하이퍼클로바를 이달 6일 검색 서비스에 처음으로 도입했다. 사용자들의 오탈자를 자동수정해주는 등 전보다 ‘똑똑한 교정’이 이루어지고 있다. 이를 시작으로 쇼핑·지도 등 10개 이상의 네이버 서비스에 하이퍼클로바 기술을 실제로 적용해 공개할 예정이다. 중소상공인(SME)·크리에이터·스타트업 등을 지원하는 기술도 구상 중이다. 예를 들어 상품판매 마케팅 문구를 AI가 자동으로 만들어주는 식이다. 가령 수분·보습, 로션을 키워드로 넣으면 ‘수분 가득한 로션’, ‘넌 내게 촉촉 로션’ 등의 문구를 완성해줄 수 있다고 한다. 이외에도 하이퍼클로바는 작문·요약·데이터 생성 등 다양한 역할을 수행할 수 있어 활용처가 폭넓을 것으로 전망된다. 

궁극적인 목표는 AI를 ‘모두의 능력’으로 만드는 것. 일종의 ‘레벨업’ 도구로 쓰이도록 하겠다는 포부다. 네이버에 따르면 하이퍼클로바는 간단한 설명과 예시를 제시하는 소수학습(Few-shot learning) 방식으로 동작시킬 수 있다. 전문가가 아니어도 누구나 손쉽게 AI 서비스를 만들 수 있다고 한다. 앞으로 네이버는 한국어 외의 언어로 언어모델을 확장하고, 영상·음성·이미지 등을 이해하는 ‘멀티모달(Multimodal) AI’로 하이퍼클로바를 발전시켜 나갈 계획이다. 이를 위해 서울대학교·카이스트 등과 손잡고 공동연구센터를 각각 설립, 긴밀한 산학협력을 맺기로 했다.

정석근 대표는 “더 짧은 시간과 더 적은 리소스를 사용해 이전에 우리가 상상만 했던, 또는 우리가 상상하지 못했던 일들마저 가능해지는 새로운 AI의 시대가 열리고 있다”며 “문서 요약·번역·대화뿐 아니라 상식 퀴즈에 제대로 답하거나 말 만해도 코드를 만들어주는 등 기존에 상상하지 못했던 일을 쉽게 해결할 수 있다”고 강조했다.

이어 그는 “SME와 크리에이터를 포함해 AI 기술이 필요한 모두에게 새롭고 차별화된 경험을 제공하겠다”며 “AI 개발자가 아니어도 누구나 기술을 활용해 서비스와 제품을 만들 수 있게 될 것”이라고 말했다.

저작권자 © 블로터 무단전재 및 재배포 금지