▲ 클라우드 데이터센터에서 시스템을 점검 중인 KT 직원들 (사진=KT)
▲ 클라우드 데이터센터에서 시스템을 점검 중인 KT 직원들 (사진=KT)

KT가 '하이퍼스케일 AI 컴퓨팅(이하 HAC)'으로 국내외 클라우드 사업 저변 확대를 노린다. 기존 클라우드 플랫폼의 한계를 극복한 차별점, 글로벌 클라우드 사업자들을 한발 앞선 변화가 시장 내 KT 위상에 변화를 가져올지 주목된다.

KT HAC는 지금보다 진보된 클라우드 컴퓨팅 구현 조건을 갖췄다. 클라우드의 장점은 사용자가 물리적 인프라를 직접 구축하지 않아도 네트워크에서 컴퓨팅 자원을 빌려 쓸 수 있다는 점이다. 이를 통해 설비 구축 시간이 단축되며, 요금도 사용한 기간 중에만 지불하므로 비용 절감 효과도 크다.

하지만 이것이 완전한 '종량제' 클라우드를 의미하진 않는다. KT는 사용자들은 할당받은 자원을 대개 기한 내에 100% 쓰지 못해 유휴자원 낭비에 따른 불필요한 비용을 내고 있다는 분석이다. 이 문제를 해결하기 위해 HAC는 고객이 유휴자원 없이 필요한 만큼의 클라우드 자원을 원하는 시점에 할당 받을 수 있도록 하고, 사용하지 않는 자원은 자동 반납되는 구조로 설계해 클라우드 종량제가 실현되도록 했다. 

김주성 KT 클라우드사업담당은 "이 같은 구조로 이미 글로벌 경쟁사 대비 50% 수준의 비용 절감이 가능하다"며 "장기적으론 이 격차를 70%까지 늘리는 것이 목표"라고 말했다.

▲ 기존 클라우드 GPU 서비스에서는 사용하지 못한 채 비용만 지불하는 유휴자원들이 있었다 (자료=KT)
▲ 기존 클라우드 GPU 서비스에서는 사용하지 못한 채 비용만 지불하는 유휴자원들이 있었다 (자료=KT)

또 아직 아마존웹서비스(AWS)나 마이크로소프트 애저(Azure) 등 글로벌 클라우드 1~2위 사업자도 구현하지 못한 기술로 '대규모 GPU 클러스터링'을 내세웠다. 지금까지 사용자가 클라우드화된 GPU 컴퓨팅 자원을 할당받을 때 한계는 해당 클라우드 서버에 장착된 물리적 GPU 수에 따라 달랐다. KT에 따르면 보통 8GPU가 최대다. HAC에서는 이를 넘어 이론적으론 수백~수천개까지 동시에 할당해 쓸 수 있다. GPU 병렬 수준이 높아지면 연산속도도 빨라지는 만큼 대형 AI 모델 운용에서 유리한 대목이다.

김 담당은 "HAC의 멀티 클러스터링 기술은 AWS와 애저도 곧 도입에 나설 것"이라고 예측했다. AI 인프라가 보편화되고 '초거대 AI' 등 지금보다 높은 연산력을 요구하는 AI 시스템들이 점점 증가하는 추세이기 때문이다.

다만 다수의 GPU를 운용하는 시스템에는 한계도 따른다. 개발자가 직접 각 GPU별로 분할된 연산을 할당하고 성능 최적화까지 담당해야 했기 때문이다. 국내에 클라우드 컴퓨팅 코드를 짤 수 있는 인력은 많지만 멀티 GPU 자원 할당까지 능숙하게 해낼 수 있는 능력은 많지 않다. KT HAC는 이를 자동화함으로써 기업의 인력 확보 부담을 줄였다.

마지막으로 KT가 주목한 영역은 서비스의 '연속성'이다. 클라우드의 장점은 컴퓨팅 자원을 필요에 따라 쉽게 늘리거나 줄일 수 있다는 점이지만, 기존 시스템은 처음 할당된 자원을 변경할 때 기존 자원을 회수하고 재생성하는 과정에서 서비스 중단이 필요하다. 또 기존 데이터 재설치에도 오랜 시간이 소요돼 클라우드의 장점을 온전히 누리기 힘든 측면이 있다. KT HAC는 이 점에 집중해 서비스 중단 시간을 최소화하고 구조 변경 시에도 데이터가 온전히 보전될 수 있도록 했다.

▲ 자료=KT
▲ 자료=KT

KT는 이처럼 △완전한 클라우드 종량제 △멀티 GPU 클러스팅을 통한 대규모 AI 개발환경 대응 △멀티 GPU 환경 구성을 위한 코드 자동화 △서비스 연속성 보장 등 네 가지 장점을 앞세워 클라우드 시장을 개척해 나가겠단 포부다.

김 담당에 따르면 HAC 상용화는 아직 1단계 사업에 해당한다. 2022년 1분기에는 초대규모 GPU 팜(Farm)을 구축하고, 2023년 전용 AI 반도체칩을 개발해 기술 국산화까지 추진하는 것이 목표다. 자체 AI 반도체 개발은 HAC 개발 프로젝트 초기부터 고려된 사항이며, 현재 관련 시장은 글로벌 AI 컴퓨팅 업체인 엔비디아가 90% 가까이 독점하고 있다.

한편 이번 HAC 출시는 KT 단독이 아닌 국내 AI 인프라 솔루션 전문기업 '모레(Moreh)'와의 협업으로 약 1년 6개월간의 개발과 테스트 기간을 거쳐 이뤄졌다. HAC 원천기술을 보유한 모레는 서울대 슈퍼컴퓨터 개발을 진행하던 연구실에서 스타트업으로 시작한 기업이며, 소프트웨어 스택 분야에서 높은 기술력을 지닌 것으로 평가받고 있다.

향후 KT에 남은 숙제는 신규 고객 확보와 해외시장 개척이다. KT는 국내 공공·금융클라우드 시장에서 70% 이상의 점유율을 보유한 사업자지만 새로 개발한 HAC는 기존 KT 클라우드 GPU 서비스에 적용하긴 어렵다. 글로벌 클라우드 선두 사업자들이 하드웨어, 소프트웨어 사슬 전반에 걸쳐 단단하게 형성한 생태계에서 KT는 새로운 기술과 서비스로 승부해 지분을 확보해야 한다.

김 상무는 "2024년쯤 글로벌 진출 계획을 갖고 있다"며 "당장 높은 매출이나 점유율 확보를 기대하기보단 상징성을 만드는 것이 우선이라"고 말했다. 또 "KT HAC의 가성비와 효율을 잠재적 고객사들에게 어필하는 과정이 중요할 것"이라고 덧붙였다.

KT에 클라우드는 '탈통신'과 '디지털 플랫폼 기업'을 완성하기 위한 핵심 퍼즐이기도 하다. KT는 올해 클라우드, IDC(인터넷데이터센터), AI, DX(디지털 전환) 사업 강화에 힘을 쏟고 있으며 관련 매출은 3분기 1612억원으로 전년 동기 대비 29.7% 성장했다. KT는 나아가 현재 39%인 이들 B2B(기업간거래) 사업 비중을 2025년까지 50%로 확대하겠단 계획이다.

저작권자 © 블로터 무단전재 및 재배포 금지