네이버클라우드, GPU 운영 기술로 AI 인프라 경쟁력 확보
네이버클라우드가 인공지능(AI) 인프라 경쟁의 핵심이 그래픽처리장치(GPU) 확보 경쟁에서 운영 효율 싸움으로 전환됐다고 진단했다. GPU 공급난이 어느 정도 해소된 지금, 대규모 GPU 클러스터를 안정적으로 운영하는 기술력이 승부처라는 것이다.
이상준 네이버클라우드 최고정보책임자(CIO)는 이달 27일 세종시에 위치한 네이버 '각 세종' 데이터센터에서 열린 기자간담회에서 "AI 인프라의 경쟁력은 GPU를 얼마나 많이 확보하는가를 넘어 확보한 자원을 얼마나 안정적이고 효율적으로 운영하는지에 달려 있다"고 강조했다.
불과 1년 전만 해도 GPU 부족 사태로 업계가 몸살을 앓았다. GPU 서버를 주문하면 짧게는 3개월, 길게는 1년이 걸렸고, AI 인프라 구축에 필요한 특화 스위치와 케이블, 고성능 스토리지 하나하나가 귀한 대접을 받았다. 하지만 공급이 어느 정도 안정된 지금, 시장의 화두는 '얼마나 많이 확보했느냐'에서 '얼마나 잘 운영하느냐'로 옮겨가고 있다.
2019년 슈퍼팟 상용화...GPU 운영 노하우 축적
네이버클라우드는 2019년 엔비디아의 슈퍼컴퓨팅 인프라 '슈퍼팟'을 세계에서 가장 빠르게 상용화한 기업이다. 초고성능 GPU 클러스터를 직접 설계·운영한 경험을 바탕으로 대규모 GPU 환경에서 발생하는 전력·냉각·네트워크 병목 현상을 해결하는 기술을 내재화했다.
이 CIO는 "데이터센터와 AI 자원, 플랫폼을 하나의 시스템으로 통합 제어할 수 있는 풀스택 역량이 핵심"이라며 "인프라를 통합적으로 설계·운영하는 역량은 글로벌에서도 손꼽힌다"고 말했다.
네이버클라우드가 강조하는 풀스택 AI 인프라는 세 가지 레이어로 구성된다. 우선 데이터센터 레이어에서는 AI 워크로드에 최적화된 전력·냉각 시스템을 자체 설계해 고밀도 GPU 연산 환경을 24시간 안정적으로 가동한다. 이어 AI 자원 레이어에서는 수십만 대 서버 운영 경험을 바탕으로 표준화된 서버 구성과 자동화된 장애 복구 시스템을 구축했다. 마지막 AI 플랫폼 레이어에서는 대규모 GPU 클러스터를 효율적으로 스케줄링하고 모니터링하는 자체 솔루션을 운영한다.
무정지 운영 체계...장애 전파 구조적 차단
네이버는 장애 상황에서도 서비스가 멈추지 않도록 전력·냉각·서버 운용 체계를 완전히 분리하면서도 유기적으로 통합한 이중화 구조를 설계했다. GPU 서버의 고전력 특성에 맞게 무정전전원장치(UPS)와 배전 설비를 재배치해 장애 전파를 구조적으로 차단했다.
모든 서버는 도입 전 단계에서 성능·전력 효율·운용성을 검증해 표준 사양으로 구성되며 GPU 등 고성능 자원은 실시간 상태 감시와 자동 복구 기능을 통해 장애 발생 시에도 안정적인 서비스 연속성을 유지한다. 이러한 운영 체계가 AI 학습과 추론이 동시에 이뤄지는 고밀도 GPU 환경에서도 24시간 무정지 운영을 가능하게 한다.
현대차·삼성·한수원이 고객
네이버클라우드는 내부에 축적한 기술과 운영 역량을 기반으로 서비스형그래픽처리장치(GPUaaS) 모델을 통해 국내 주요 기업에 AI 인프라 서비스를 제공하고 있다. 이미 현대자동차 포티투닷에 대규모 GPU를 납품했고 삼성전자·한국수력원자력·한국은행 등 대기업과 공공기관에서 실적을 쌓았다.
정부가 추진하는 GPU 1만장 사업에서는 약 3000장을 담당하고, 삼성SDS와 컨소시엄을 구성해 공공 부문 AI 인프라 구축에도 참여하고 있다.
이 CIO는 "축적한 AI 인프라 운영 역량을 GPUaaS 모델로 발전시켜 국내 기업들이 손쉽게 AI를 활용할 수 있는 생태계를 만들 것"이라며 "AI 인프라가 특정 기업의 자산을 넘어 산업 전반의 성장 기반이 될 수 있도록 하겠다"고 밝혔다.