엔비디아, AI 기반 서비스 위한 추론 플랫폼 공개

튜링 아키텍처와 테슬라 T4 GPU로 구성

가 +
가 -

| 엔비디아 테슬라 T4 GPU

엔비디아가 추론 가속화 기능을 제공하는 AI 데이터센터 플랫폼을 출시했다. 추론 가속화 기능을 사용하면 AI 기반 서비스에서 응답시간이 빨라져 더 많은 사용자를 응대할 수 있고 빠른 처리 속도로 향상된 서비스 제공이 가능하다.

엔비디아는 9월14일 ‘엔비디아 텐서RT 하이퍼스케일 추론 플랫폼’을 출시한다고 밝혔다. 이 플랫폼은 ‘엔비디아 튜링 아키텍처’와 새로운 추론 소프트웨어를 기반으로 하는 ‘엔비디아 테슬라 T4 GPU’로 구성됐다. 엔비디아 텐서RT 하이퍼스케일 플랫폼은 실시간 추론 소프트웨어와 CPU보다 최대 40배 빠른 속도로 쿼리를 처리하는 테슬라 T4 GPU를 통해 데이터 처리량과 서버 활용도를 극대화한다.

엔드투엔드 애플리케이션을 위해 낮은 지연시간과 빠른 성능을 제공하며, 대규모 데이터센터 내에서 향상된 자연어 상호작용이 가능하다. 또 검색 시 관련 결과를 나열하지 않고 직접 답변을 제공하는 등 새로운 서비스를 할 수 있다.

엔비디아의 가속 컴퓨팅 담당 부사장 겸 총괄인 이안 벅은 “우리 고객들은 모든 제품과 서비스가 AI를 통해 향상되고 진화될 미래를 마주하고 있으며 엔비디아 텐서RT 하이퍼스케일 플랫폼은 이를 보다 효율적이고 빠른 속도로 구현하기 위해 탄생한 것”이라고 설명했다. 엔비디아는 AI 추론 산업이 향후 5년 이내에 200억달러 규모로 성장할 것으로 전망한다.

엔비디아 텐서RT 하이퍼스케일 플랫폼 구성요소

  • 엔비디아 테슬라 T4 GPU: 320개의 튜링 텐서 코어와 2560개의 쿠다(CUDA) 코어를 갖춘 새로운 GPU. FP32부터 FP16까지의 연산성능뿐 아니라, INT8 및 INT4의 다중 정밀도까지 지원해 높은 성능을 제공한다. 대부분의 서버에 쉽게 장착되는 에너지 효율적인 75와트 소형 PCle 폼팩터로 제공된다. FP16에서 65 테라플롭 최고 성능을 내며, INT8에서 130 테라플롭, INT4에서 260 테라플롭의 성능을 구현한다.
  • 엔비디아 텐서RT 5: 추론 옵티마이저 및 런타임 엔진으로, 튜링 텐서 코어를 지원하며 다중 정밀도 워크로드를 위해 신경 네트워크 최적화를 확장한다.
  • 엔비디아 텐서RT 추론 서버: 컨테이너형 마이크로 서비스 소프트웨어로, 데이터센터 구성 시 애플리케이션이 AI 모델을 사용할 수 있도록 돕는다. 엔비디아 GPU 클라우드 컨테이너 레지스트리에서 자유롭게 사용 가능하며, 데이터센터 처리량 및 GPU 활용을 극대화한다. 또한, 널리 이용되고 있는 모든 AI 모델 및 프레임워크를 지원하며, 쿠버네티스 및 도커와 통합된다.

마이크로소프트의 빙 및 AI 제품 담당 부사장 조디 리 바스는 “우리는 고객에게 가장 혁신적인 AI 기반 서비스를 제공하기 위해 노력하고 있으며, 엔비디아 GPU를 실시간 추론 작업에 사용하면 빙의 고급 검색기능이 향상돼 이미지 대상 인식 대기시간을 줄일 수 있다”라며 “엔비디아의 차세대 추론 하드웨어 및 소프트웨어의 조합으로 더 많은 사용자들이 AI 제품과 서비스의 혜택을 받을 수 있게 될 것”이라고 설명했다.

구글 클라우드의 제품 관리자 크리스 클레반은 “AI는 점점 보편화되고 있는 가운데, 추론 기능은 고객이 AI를 성공적으로 구축하는데 필수적인 요소”라며 “구글 클라우드 플랫폼에서 엔비디아의 튜링 테슬라 T4 GPU를 지원하게 돼 기쁘게 생각한다”라고 말했다.

네티즌의견(총 0개)