AMD, NVIDIA H100보다 최대 60% 빠른 Instinct MI300X AI GPU 가속기 출시

2023/12/06

AMD는 NVIDIA의 H100보다 최대 60% 향상된 성능을 제공하는 자사의 주력 AI GPU 가속기인 MI300X의 공식 출시를 발표했습니다.

AMD는 마침내 AI 부문에서 NVIDIA를 상대할 GPU를 보유하게 되었으며, MI300X는 H100보다 최대 60% 더 빠릅니다.

AMD Instinct MI300 클래스 AI 가속기는 TSMC의 고급 패키징 기술을 활용하는 또 다른 강력한 칩렛이 될 것입니다. 오늘 AMD는 이러한 칩의 출시를 발표했을 뿐만 아니라 훌륭해 보이는 MI300X의 첫 번째 성능 벤치마크를 공유했습니다. AMD는 먼저 일반 사양을 비교 및 CDNA 3 가속기 제공(NVIDIA H100과 비교)으로 사용했습니다.

2.4배 더 커진 메모리 용량
1.6배 더 높은 메모리 대역폭
1.3X FP8 TFLOPS
1.3X FP16 TFLOPS

일반적으로 LLM 커널 TFLOP에서 MI300X는 FlashAttention-2 및 Llama 2 70B에서 최대 20% 더 높은 성능을 제공합니다. 8x MI300X 솔루션과 8X H100 솔루션을 비교하는 플랫폼 관점에서 보면 Llama 2 70B & Bloom 176B에서는 60%의 이득을 얻었습니다. AMD는 훈련 성능에서 MI300X가 경쟁 제품(H100)과 동등하며 추론 워크로드에서 빛을 발하는 동시에 경쟁력 있는 가격/성능을 제공한다고 언급합니다.

AMD Instinct MI300X – CDNA 3 &를 통해 NVIDIA의 AI 패권에 도전합니다. 거대한 기억

AMD Instinct MI300X는 AI 부문 내 NVIDIA의 Hopper와 Intel의 Gaudi 가속기를 대상으로 하기 때문에 가장 주목받을 칩입니다. 이 칩은 CDNA 3 아키텍처로만 설계되었으며 많은 일이 진행되고 있습니다. 이 칩은 5nm와 6nm IP를 혼합하여 호스팅할 예정이며, 모두 결합하여 최대 1,530억 개의 트랜지스터(MI300X)를 제공합니다.

AMD 본능 MI300X & MI300A AI 가속기 세부 정보: CDNA 3 & Zen 4가 고급 패키징으로 함께 모였습니다 Marvel 2 — AMD 본능 MI300X 가속기.

설계부터 메인 인터포저는 4세대 Infinity Fabric 솔루션을 사용하여 인터커넥트 레이어를 수용하는 패시브 다이로 배치됩니다. 인터포저에는 8개의 HBM3 패키지를 포함하는 총 28개의 다이, HBM 패키지 사이에 16개의 더미 다이가 포함되어 있습니다. 4개의 활성 다이가 있고 이러한 활성 다이 각각은 2개의 컴퓨팅 다이를 갖습니다.

CDNA 3 GPU 아키텍처를 기반으로 하는 각 GCD는 2560개 코어에 해당하는 총 40개의 컴퓨팅 유닛을 갖추고 있습니다. 총 8개의 컴퓨팅 다이(GCD)가 있으므로 총 320개의 컴퓨팅 & 20,480개 코어 유닛. 수율을 위해 AMD는 이러한 코어의 일부를 축소할 예정이며 지금부터 한 달 후에 정확한 구성에 대한 자세한 내용을 얻을 수 있을 것입니다.

AMD 본능 MI300X & MI300A AI 가속기 세부 정보: CDNA 3 & Zen 4가 고급 패키징으로 함께 모였습니다. Marvel 4 — CDNA 3이 탑재된 AMD Instinct MI300X Accelerator가 죽습니다.

메모리는 이전 제품인 MI250X(128GB)보다 50% 더 많은 HBM3 용량을 자랑하는 MI300X를 통해 엄청난 업그레이드를 볼 수 있는 또 다른 영역입니다. 192GB의 메모리 풀을 달성하기 위해 AMD는 MI300X에 8개의 HBM3 스택을 장착하고 각 스택은 12-Hi이며 IC당 2GB 또는 스택당 24GB의 용량을 제공하는 16Gb IC를 통합합니다.

메모리는 최대 5.3TB/s의 대역폭과 896GB/s의 Infinity Fabric 대역폭을 제공합니다. 비교를 위해 NVIDIA의 향후 출시될 H200 AI 가속기는 141GB 용량을 제공하고 Intel의 Gaudi 3은 144GB < /span>용량. 대용량 메모리 풀은 대부분 메모리에 바인딩된 LLM에서 매우 중요하며 AMD는 메모리 부서를 선도함으로써 AI 능력을 보여줄 수 있습니다. 비교를 위해:

인스팅트 MI300X – 192GB HBM3
가우디 3 – 144GB HBM3
H200 – 141GB HBM3e
MI300A – 128GB HBM3
MI250X – 128GB HBM2e
H100 – 96GB HBM3
가우디 2 – 96GB HBM2e

232328650_instinct_mi300a_exploded_view_01-custom

232328650_instinct_mi300x_exploded_view_01-custom

전력 소비 측면에서 AMD Instinct MI300X는 Instinct MI250X의 500W보다 50% 증가한 750W, NVIDIA H200보다 50W 더 많은 등급을 받았습니다.

amd-instinct-mi300-ai-accelerators-servers-_2

amd-instinct-mi300-ai-accelerators-servers-_1

하나의 구성선보 최대 8개의 MI300X GPU 가속기와 2개의 AMD EPYC 9004 CPU를 갖춘 G593-ZX1/ZX2 서버. 이러한 시스템에는 최대 8개의 3000W 전원 공급 장치가 장착되어 총 18000W의 전력을 공급합니다.

현재 AMD는 NVIDIA가 이미 2024년 Hopper H100 GPU & Blackwell B100 GPU와 Intel은 향후 출시를 위해 Guadi 3 및 Falcon Shores GPU를 준비하고 있습니다.

한 가지 확실한 점은 현재 AI 고객은 얻을 수 있는 거의 모든 것을 게걸스럽게 먹어치울 것이며 모든 사람이 이를 활용할 것이라는 점입니다. 그러나 AMD는 NVIDIA의 대안이 될 뿐만 아니라 AI 부문의 리더가 되는 것을 목표로 하는 매우 강력한 솔루션을 보유하고 있습니다.

AMD Radeon Instinct 가속기

가속기 이름	AMD 본능 MI400	AMD 본능 MI300	AMD 본능 MI250X	AMD 본능 MI250	AMD 본능 MI210	AMD 본능 MI100	AMD 라데온 본능 MI60	AMD 라데온 인스팅트 MI50	AMD 라데온 본능 MI25	AMD 라데온 본능 MI8	AMD 라데온 본능 MI6
CPU 아키텍처	Zen 5(엑사스케일 APU)	Zen 4(엑사스케일 APU)	해당 없음	해당 없음	해당 없음	해당 없음	해당 없음	해당 없음	해당 없음	해당 없음	해당 없음
GPU 아키텍처	CDNA 4	아쿠아 반자람(CDNA 3)	알데바란(CDNA 2)	알데바란(CDNA 2)	알데바란(CDNA 2)	아크튜러스(CDNA 1)	베가 20	베가 20	베가 10	피지 XT	폴라리스 10
GPU 프로세스 노드	4nm	5nm+6nm	6nm	6nm	6nm	7nm FinFET	7nm FinFET	7nm FinFET	14nm 핀펫	28nm	14nm 핀펫
GPU 칩렛	미정	8 (엠씨엠)	2(MCM) 1(다이당)	2(MCM) 1(다이당)	2(MCM) 1(다이당)	1(모놀리식)	1(모놀리식)	1(모놀리식)	1(모놀리식)	1(모놀리식)	1(모놀리식)
GPU 코어	미정	최대 19,456명	14,080	13,312	6656	7680	4096	3840	4096	4096	2304
GPU 클럭 속도	미정	추후 공지	1700MHz	1700MHz	1700MHz	1500MHz	1800MHz	1725MHz	1500MHz	1000MHz	1237MHz
FP16 컴퓨팅	미정	추후 공지	TOP 383	TOP 362개	탑 181개	185테라플롭	29.5 TFLOP	26.5 TFLOP	24.6 TFLOP	8.2 TFLOP	5.7 TFLOP
FP32 컴퓨팅	미정	추후 공지	95.7 TFLOP	90.5 TFLOP	45.3 TFLOP	23.1 TFLOP	14.7 TFLOP	13.3 TFLOP	12.3 TFLOP	8.2 TFLOP	5.7 TFLOP
FP64 컴퓨팅	미정	추후 공지	47.9 TFLOP	45.3 TFLOP	22.6 TFLOP	11.5 TFLOP	7.4 TFLOP	6.6 TFLOP	768 GFLOP	512 GFLOP	384 GFLOP
VRAM	미정	192GB HBM3	128GB HBM2e	128GB HBM2e	64GB HBM2e	32GB HBM2	32GB HBM2	16GB HBM2	16GB HBM2	4GB HBM1	16GB GDDR5
메모리 시계	미정	5.2Gbps	3.2Gbps	3.2Gbps	3.2Gbps	1200MHz	1000MHz	1000MHz	945MHz	500MHz	1750MHz
메모리 버스	미정	8192비트	8192비트	8192비트	4096비트	4096비트 버스	4096비트 버스	4096비트 버스	2048비트 버스	4096비트 버스	256비트 버스
메모리 대역폭	미정	5.2TB/초	3.2TB/초	3.2TB/초	1.6TB/초	1.23TB/초	1TB/초	1TB/초	484GB/초	512GB/초	224GB/초
폼 팩터	미정	OAM	OAM	OAM	듀얼 슬롯 카드	듀얼 슬롯, 전체 길이	듀얼 슬롯, 전체 길이	듀얼 슬롯, 전체 길이	듀얼 슬롯, 전체 길이	이중 슬롯, 절반 길이	단일 슬롯, 전체 길이
냉각	미정	수동 냉각	수동 냉각	수동 냉각	수동 냉각	수동 냉각	수동 냉각	수동 냉각	수동 냉각	수동 냉각	수동 냉각
TDP(최대)	미정	750W	560W	500W	300W	300W	300W	300W	300W	175W	150W

AMD는 마침내 AI 부문에서 NVIDIA를 상대할 GPU를 보유하게 되었으며, MI300X는 H100보다 최대 60% 더 빠릅니다.

AMD Instinct MI300X – CDNA 3 &를 통해 NVIDIA의 AI 패권에 도전합니다. 거대한 기억

AMD Radeon Instinct 가속기

답글 남기기 응답 취소