NVIDIA는 AI 가속기 및 RTX AI PC를 위해 Google의 Gemma LLM을 최적화합니다.

2024/02/22

NVIDIA는 최근 Google의 최첨단 Gemma 모델을 향상함에 따라 AI 주입 RTX GPU를 사용하여 업계 표준 LLM 최적화 개발을 가속화했습니다 .

NVIDIA는 AI 및 RTX GPU를 통해 비용 효율적인 성능을 제공하기 위해 TensorRT-LLM 및 여러 소프트웨어 리소스를 강화합니다.

[ 보도 자료 ]: NVIDIA는 오늘 Google과 협력하여 어디서나 실행할 수 있는 Google의 최첨단 경량 20억 매개변수 및 70억 매개변수 개방형 언어 모델인 Gemma에 대한 모든 NVIDIA AI 플랫폼 전반에 걸쳐 최적화를 시작했습니다. 도메인별 사용 사례에 대한 비용을 절감하고 혁신적인 작업을 가속화합니다.

두 회사의 팀은 NVIDIA에서 실행할 때 대규모 언어 모델 추론을 최적화하기 위한 오픈 소스 라이브러리인 NVIDIA TensorRT-LLM을 사용하여 Gemini 모델을 만드는 데 사용된 것과 동일한 연구 및 기술로 구축된 Gemma의 성능을 가속화하기 위해 긴밀히 협력했습니다. 데이터 센터, 클라우드 및 NVIDIA RTX GPU가 탑재된 PC의 GPU입니다.

이를 통해 개발자는 전 세계적으로 고성능 AI PC에서 사용할 수 있는 1억 개가 넘는 NVIDIA RTX GPU 설치 기반을 목표로 삼을 수 있습니다.

개발자는 또한 H100 Tensor Core GPU를 기반으로 하는 Google Cloud의 A3 인스턴스를 포함하여 클라우드의 NVIDIA GPU에서 Gemma를 실행할 수 있으며, 곧 Google이 배포할 초당 4.8테라바이트의 141GB HBM3e 메모리를 갖춘 NVIDIA의 H200 Tensor Core GPU를 포함합니다. 년도.

엔터프라이즈 개발자는 NeMo 프레임워크를 갖춘 NVIDIA AI Enterprise 및 TensorRT-LLM을 포함한 NVIDIA의 풍부한 도구 생태계를 추가로 활용하여 Gemma를 미세 조정하고 프로덕션 애플리케이션에 최적화된 모델을 배포할 수 있습니다.

Gemma, RTX와 채팅 예정

곧 Gemma에 대한 지원이 추가될 예정입니다 . Chat with RTX는 검색 증강 생성 및 TensorRT-LLM 소프트웨어를 사용하여 사용자에게 로컬 RTX 기반 Windows PC에서 생성적 AI 기능을 제공하는 NVIDIA 기술 데모입니다. Chat with RTX를 사용하면 사용자는 PC의 로컬 파일을 대규모 언어 모델에 쉽게 연결하여 데이터로 챗봇을 개인화할 수 있습니다.

뉴스 출처: NVIDIA 블로그

NVIDIA는 AI 및 RTX GPU를 통해 비용 효율적인 성능을 제공하기 위해 TensorRT-LLM 및 여러 소프트웨어 리소스를 강화합니다.

Gemma, RTX와 채팅 예정

답글 남기기 응답 취소