Intel Gaudi 2 AI 가속기는 최대 70B 매개변수를 사용하여 Llama 2 모델로 텍스트를 생성할 수 있습니다.
Intel의 Gaudi 2 AI 가속기는 NVIDIA 칩에 대한 가장 실행 가능한 대안이며 Hugging Face는 Llama 2를 사용하여 텍스트 생성 기능을 시연했습니다.
최대 700억 개의 매개변수를 갖춘 오픈 소스 Llama 2 LLM을 사용하여 텍스트 생성에서 Intel Gaudi 2 가속기 시연
인텔은 AI 소프트웨어 생태계를 확장함에 따라 LLM(Large Language Models)을 포함하여 가장 널리 사용되는 AI 워크로드를 목표로 삼고 있습니다. 이 작업은 인터페이스 변환기 및 디퓨저 라이브러리 역할을 하는 Habana Optimum 과 Gaudi 2와 같은 Intel Habana Gaudi 프로세서를 사용하여 가능합니다. 이 회사는 이미 NVIDIA의 A100 GPU에 대해 Gaudi 2 프로세서의 AI 기능과 성능을 시연했습니다 . 시장에서 인기 있는 옵션 중 하나이지만 Gaudi 2는 경쟁력 있는 TCO로 더 빠른 성능을 제공하는 데 있어 훌륭한 역할을 합니다.
최신 데모에서 Hugging Face는 동일한 Optimum Habana 파이프라인과 Intel Gaudi 2 AI 가속기를 사용하여 Llama 2(7b, 13b, 70b)로 텍스트를 생성하는 용이성을 보여줍니다. 최종 결과는 Gaudi 2 칩이 단일/다중 프롬프트를 수용할 수 있었을 뿐만 아니라 사용이 매우 쉬웠고 스크립트 내에서 사용자 정의 플러그인도 처리할 수 있었음을 보여줍니다.
GenAI(Generative AI) 혁명이 본격화되면서 Llama 2와 같은 오픈 소스 변환기 모델을 사용한 텍스트 생성이 화제가 되었습니다. AI 애호가와 개발자는 자신의 사용 사례와 애플리케이션을 위해 이러한 모델의 생성 능력을 활용하려고 합니다. 이 기사에서는 Optimum Habana와 사용자 정의 파이프라인 클래스를 사용하여 Llama 2 모델 제품군(7b, 13b 및 70b)으로 텍스트를 생성하는 것이 얼마나 쉬운지 보여줍니다. 단 몇 줄의 코드만으로 모델을 실행할 수 있습니다!
이 사용자 정의 파이프라인 클래스는 뛰어난 유연성과 사용 편의성을 제공하도록 설계되었습니다. 또한 높은 수준의 추상화를 제공하고 전처리 및 후처리를 포함하는 엔드투엔드 텍스트 생성을 수행합니다. 파이프라인을 사용하는 방법에는 여러 가지가 있습니다.
run_pipeline.py
Optimum Habana 저장소에서 스크립트를 실행하거나, 파이프라인 클래스를 자신의 Python 스크립트에 추가하거나, 이를 사용하여 LangChain 클래스를 초기화할 수 있습니다.우리는 단일 또는 다중 프롬프트를 입력으로 받아들이는 Intel Gaudi 2 AI 가속기의 사용자 정의 텍스트 생성 파이프라인을 제시했습니다. 이 파이프라인은 모델 크기와 텍스트 생성 품질에 영향을 미치는 매개변수 측면에서 뛰어난 유연성을 제공합니다. 또한 사용하기 쉽고 스크립트에 연결하기가 매우 쉽고 LangChain과 호환됩니다.
인텔은 앞으로 AI 부문을 가속화하기 위해 최선을 다하고 있습니다. 올해 이 회사는 5nm 프로세스 노드를 활용할 것으로 예상되며 훨씬 저렴한 가격으로 NVIDIA H100보다 빠른 것으로 알려진 Gaudi 3으로 알려진 Gaudi의 세 번째 버전을 출시할 계획입니다. 마찬가지로 회사는 2025년으로 예상되는 차세대 Falcon Shores GPU를 사용하여 완전한 사내 디자인으로 전환할 계획입니다. 또한 소비자 계층을 위해 PyTorch를 사용하는 Llama 2 인터페이스와 같은 AI 기능을 공개하고 있습니다. Arc A 시리즈 GPU .
답글 남기기