인텔, NPU 가속 라이브러리를 오픈 소스 자산으로 만들어 개발자가 AI 애플리케이션 최적화 가능
Intel은 마침내 NPU 가속 라이브러리를 “오픈 소스화”하여 개발자와 애호가가 Intel의 AI 엔진과 가장 잘 작동하도록 애플리케이션을 조정할 수 있도록 했습니다.
인텔의 NPU 라이브러리 오픈 소싱으로 전용 AI 엔진의 미래가 밝아짐
이 소식은 처음에 회사의 새로운 오픈 소스 라이브러리를 공개한 Intel의 기술 전도사 Tony Mongkolsmai로부터 나왔습니다.
이 단계를 통해 NPU 가속 라이브러리는 개발자가 Meteor Lake “Core Ultra” 시리즈 와 같은 CPU 라인업에 존재하는 NPU의 이점을 누릴 수 있도록 도와줍니다 . Python을 기반으로 하며 높은 수준의 인터페이스를 제공하여 개발을 단순화하고 TensorFlow 및 PyTorch와 같은 널리 사용되는 프레임워크를 지원하므로 개발자가 라이브러리의 기능을 활용하여 AI 관련 작업을 보다 효율적으로 만들 수 있습니다.
요청한 개발자는 새로 오픈 소스로 제공되는 Intel NPU 가속 라이브러리를 확인하세요. 방금 MSI Prestige 16 AI Evo 머신(이번에는 Windows이지만 라이브러리는 Linux도 지원함)에서 사용해 보았는데 GitHub 문서를 따르면 TinyLlama를 실행할 수 있었습니다… pic.twitter.com/UPMujuKGGT
— 토니 몽콜스마이(@tonymongkolsmai) 2024년 3월 1일
Tony는 Intel Core Ultra CPU가 탑재된 MSI Prestige 16 AI Evo 노트북에서 NPU 가속 라이브러리를 실행하고 있었습니다. 그는 성능 저하 없이 시스템에서 TinyLlama 및 Gemma-2b-it LLM 모델을 실행할 수 있었으며 이는 Intel의 NPU에 대한 잠재력과 개발자를 위한 엣지 AI 환경을 촉진하는 방법을 나타냅니다. 다음은 Intel 개발 팀이 라이브러리를 설명하는 방법입니다.
Intel NPU 가속 라이브러리는 Intel 신경 처리 장치(NPU)의 성능을 활용하여 호환되는 하드웨어에서 고속 계산을 수행함으로써 애플리케이션의 효율성을 높이도록 설계된 Python 라이브러리입니다.
라이브러리의 성능을 크게 향상시키기 위한 노력의 일환으로 우리는 다음을 포함한 다양한 주요 기능을 구현하기 위한 노력을 기울이고 있습니다.
- 8비트 양자화
- 4비트 양자화 및 GPTQ
- NPU-네이티브 혼합 정밀도 추론
- Float16 지원
- BFloat16(뇌 부동 소수점 형식)
torch.compile
지원하다- LLM MLP 수평 융합 구현
- 정적 모양 추론
- MHA NPU 추론
- NPU/GPU hetero compute
- 종이
NPU 가속 라이브러리의 오픈 소스화를 보는 것은 좋은 일입니다. 이는 궁극적으로 인텔의 전용 AI 엔진에서 실행되는 AI 애플리케이션의 향상된 구현으로 이어질 것이기 때문입니다. Tony 자신이 말했듯이 소비자와 개발자를 위한 많은 것들이 담겨 있기 때문에 앞으로 그러한 엔진에서 어떤 종류의 개발이 진행되는지 보는 것은 흥미로울 것입니다.
뉴스 출처: Tony Mongkolsmai
답글 남기기