AMD Instinct MI300X 및 MI300A AI 가속기 세부 정보: CDNA 3 및 Zen 4가 고급 패키징 놀라운 기술로 함께 모였습니다.

AMD Instinct MI300X 및 MI300A AI 가속기 세부 정보: CDNA 3 및 Zen 4가 고급 패키징 놀라운 기술로 함께 모였습니다.

AMD Instinct MI300X 및 MI300A는 다음 달 출시될 AI 부문에서 가장 기대되는 가속기 중 일부입니다. AMD의 첫 번째 본격적인 AI 걸작을 둘러싼 많은 기대가 있으며 오늘 우리는 이 기술적 경이로움에서 무엇을 기대할 수 있는지에 대한 정보를 제공하려고 생각했습니다.

AMD Instinct MI300X는 GPU 가속 AI 워크로드를 위해 설계되었으며 MI300A는 기술적으로 가장 진보된 APU 패키지로 HPC를 처리합니다.

12월 6일, AMD는 코드명 MI300인 차세대 Instinct 가속기 제품군을 완전히 공개하는 것이 주요 의제 중 하나인 “Advancing AI” 기조연설을 개최할 예정입니다. 이 새로운 GPU 및 CPU 가속 제품군 은 AMD의 1위이자 현재 가장 중요한 전략적 우선순위인 AI 부문의 선두 제품이 될 것입니다. 업계 내 AI 요구 사항. MI300 클래스 AI 가속기는 TSMC의 고급 패키징 기술을 활용하는 또 다른 강력한 칩렛이 될 것이므로 이러한 AI 괴물의 내부에 무엇이 있는지 살펴보겠습니다.

AMD Instinct MI300X – CDNA 3 및 대용량 메모리로 NVIDIA의 AI 패권에 도전

AMD Instinct MI300X는 분명히 AI 부문 내 NVIDIA의 Hopper 및 Intel의 Gaudi 가속기를 대상으로 하기 때문에 가장 강조될 칩입니다. 이 칩은 CDNA 3 아키텍처로만 설계되었으며 많은 일이 진행되고 있습니다. 이 칩은 5nm와 6nm IP를 혼합하여 호스팅할 예정이며, 모두 결합하여 최대 1,530억 개의 트랜지스터(MI300X)를 제공합니다.

AMD Instinct MI300X 및 MI300A AI 가속기 세부 정보: CDNA 3 및 Zen 4가 고급 패키징으로 함께 제공됨 Marvel 2
AMD 본능 MI300X 가속기.

설계부터 메인 인터포저는 차세대 Infinity Fabric 솔루션을 사용하여 인터커넥트 레이어를 수용하는 패시브 다이로 배치됩니다. 인터포저에는 8개의 HBM3 패키지, HBM 패키지 사이에 있는 16개의 더미 다이, 4개의 활성 다이를 포함하는 총 28개의 다이가 포함되어 있으며 각 활성 다이는 2개의 컴퓨팅 다이를 갖습니다.

CDNA 3 GPU 아키텍처를 기반으로 하는 각 GCD는 2560개 코어에 해당하는 총 40개의 컴퓨팅 유닛을 갖추고 있습니다. 총 8개의 컴퓨팅 다이(GCD)가 있으므로 총 320개의 컴퓨팅 및 20,480개의 코어 유닛을 제공합니다. 수율을 위해 AMD는 이러한 코어의 일부를 축소할 예정이며 지금부터 한 달 후에 정확한 구성에 대한 자세한 내용을 얻을 수 있을 것입니다.

AMD Instinct MI300X 및 MI300A AI 가속기 세부 정보: CDNA 3 및 Zen 4가 고급 패키징으로 함께 제공됨 Marvel 4
CDNA 3이 탑재된 AMD Instinct MI300X Accelerator가 죽습니다.

메모리는 이전 제품인 MI250X(128GB)보다 50% 더 많은 HBM3 용량을 자랑하는 MI300X를 통해 엄청난 업그레이드를 볼 수 있는 또 다른 영역입니다. 192GB의 메모리 풀을 달성하기 위해 AMD는 MI300X에 8개의 HBM3 스택을 장착하고 각 스택은 12-Hi이며 IC당 2GB 또는 스택당 24GB의 용량을 제공하는 16Gb IC를 통합합니다. 메모리는 최대 5.2TB/s의 대역폭과 896GB/s의 Infinity Fabric 대역폭을 제공합니다. 비교를 위해 NVIDIA의 곧 출시될 H200 AI 가속기는 141GB 용량을 제공 하고 Intel의 Gaudi 3은 144GB 용량을 제공합니다. 대용량 메모리 풀은 대부분 메모리에 묶여 있는 LLM에서 매우 중요하며 AMD는 메모리 부서를 선도함으로써 확실히 AI 능력을 보여줄 수 있습니다.

232328650_instinct_mi300a_exploded_view_01-custom232328650_instinct_mi300x_exploded_view_01-custom232328650_instinct_mi300a_exploded_view_02-custom232328650_instinct_mi300x_exploded_view_02-custom232328650_instinct_mi300a_cross_section_angle_01-custom232328650_instinct_mi300x_cross_section_angle_01-custom232328650_instinct_mi300a_exploded_view_03-custom232328650_instinct_mi300x_exploded_view_03-custom

전력 소비 측면에서 AMD Instinct MI300X는 Instinct MI250X의 500W보다 50% 증가한 750W, NVIDIA H200보다 50W 더 많은 등급을 받았습니다.

AMD Instinct MI300A – 촘촘하게 패키지된 엑사스케일 APU가 이제 현실이 되었습니다.

우리는 AMD가 마침내 엑사스케일급 APU에 대한 약속을 이행할 때까지 수년 동안 기다려 왔으며 Instinct MI300A 출시가 가까워지면서 그 날이 다가오고 있습니다. MI300A의 패키징은 TCO에 최적화된 메모리 용량 및 Zen 4 코어를 사용한다는 점을 제외하면 MI300X와 매우 유사합니다.

AMD Instinct MI300X 및 MI300A AI 가속기 세부 정보: CDNA 3 및 Zen 4가 고급 패키징으로 함께 제공됨 Marvel 3
AMD 본능 MI300A 가속기.

활성 다이 중 하나에는 2개의 CDNA 3 GCD가 잘라내어 별도의 캐시 및 코어 IP 풀을 제공하는 3개의 Zen 4 CCD로 교체되었습니다. CCD당 8개의 코어와 16개의 스레드가 있으므로 활성 다이에는 총 24개의 코어와 48개의 스레드가 있습니다. 또한 24MB의 L2 캐시(코어당 1MB)와 별도의 캐시 풀(CCD당 32MB)도 있습니다. CDNA 3 GCD에는 L2 캐시도 별도로 있다는 점을 기억해야 합니다.

AMD Instinct MI300X 및 MI300A AI 가속기 세부 정보: CDNA 3 및 Zen 4가 고급 패키징으로 함께 제공됨 Marvel 5
CDNA 3 및 Zen 4 다이가 탑재된 AMD Instinct MI300A 가속기.

AMD Instinct MI300 Accelerator의 주요 기능 중 일부를 요약하면 다음과 같습니다.

  • 최초의 통합 CPU+GPU 패키지
  • 엑사스케일 슈퍼컴퓨터 시장을 노린다
  • AMD MI300A(통합 CPU + GPU)
  • AMD MI300X(GPU 전용)
  • 1,530억 개의 트랜지스터
  • 최대 24개의 Zen 4 코어
  • CDNA 3 GPU 아키텍처
  • 최대 192GB HBM3 메모리
  • 최대 8개의 칩렛 + 8개의 메모리 스택(5nm + 6nm 프로세스)

이 모든 것을 종합하여 AMD는 생태계 지원자 및 파트너와 협력하여 메자닌 커넥터를 통해 메인보드에 연결되는 SXM 설계를 특징으로 하는 8방향 구성의 MI300 AI 가속기를 제공할 것입니다. SXM 보드가 제공되지만 PCI-E 폼 팩터에서 몇 가지 변형이 예상될 수도 있습니다.

amd-instinct-mi300-ai-accelerators-servers-_2amd-instinct-mi300-ai-accelerators-servers-_1amd-instinct-mi300-ai-accelerators-servers-_4amd-instinct-mi300-ai-accelerators-servers-_5amd-instinct-mi300-ai-accelerators-servers-_3

현재 AMD는 NVIDIA가 이미 2024년 Blackwell GPU에 대한 엄청난 수치를 공개하고 Intel이 향후 몇 년 내에 Guadi 3 및 Falcon Shores GPU 출시를 준비하고 있는 등 경쟁사들도 AI 열풍에 본격적으로 나서고 있다는 사실을 알아야 합니다. 한 가지 확실한 점은 현재 AI 고객은 얻을 수 있는 거의 모든 것을 게걸스럽게 먹어치울 것이며 모든 사람이 이를 활용할 것이라는 점입니다. 그러나 AMD는 NVIDIA의 대안이 될 뿐만 아니라 AI 부문의 리더가 되는 것을 목표로 하는 매우 강력한 솔루션을 보유하고 있으며 MI300이 이러한 성공을 달성하는 데 도움이 되기를 바랍니다.

AMD Radeon Instinct 가속기

가속기 이름 AMD 본능 MI400 AMD 본능 MI300 AMD 본능 MI250X AMD 본능 MI250 AMD 본능 MI210 AMD 본능 MI100 AMD 라데온 본능 MI60 AMD 라데온 인스팅트 MI50 AMD 라데온 본능 MI25 AMD 라데온 본능 MI8 AMD 라데온 본능 MI6
CPU 아키텍처 Zen 5(엑사스케일 APU) Zen 4(엑사스케일 APU) 해당 없음 해당 없음 해당 없음 해당 없음 해당 없음 해당 없음 해당 없음 해당 없음 해당 없음
GPU 아키텍처 CDNA 4 아쿠아 반자람(CDNA 3) 알데바란(CDNA 2) 알데바란(CDNA 2) 알데바란(CDNA 2) 아크튜러스(CDNA 1) 베가 20 베가 20 베가 10 피지 XT 폴라리스 10
GPU 프로세스 노드 4nm 5nm+6nm 6nm 6nm 6nm 7nm FinFET 7nm FinFET 7nm FinFET 14nm 핀펫 28nm 14nm 핀펫
GPU 칩렛 미정 8 (엠씨엠) 2(MCM)
1(다이당)
2(MCM)
1(다이당)
2(MCM)
1(다이당)
1(모놀리식) 1(모놀리식) 1(모놀리식) 1(모놀리식) 1(모놀리식) 1(모놀리식)
GPU 코어 미정 최대 19,456명 14,080 13,312 6656 7680 4096 3840 4096 4096 2304
GPU 클럭 속도 미정 추후 공지 1700MHz 1700MHz 1700MHz 1500MHz 1800MHz 1725MHz 1500MHz 1000MHz 1237MHz
FP16 컴퓨팅 미정 추후 공지 TOP 383 TOP 362개 탑 181개 185테라플롭 29.5 TFLOP 26.5 TFLOP 24.6 TFLOP 8.2 TFLOP 5.7 TFLOP
FP32 컴퓨팅 미정 추후 공지 95.7 TFLOP 90.5 TFLOP 45.3 TFLOP 23.1 TFLOP 14.7 TFLOP 13.3 TFLOP 12.3 TFLOP 8.2 TFLOP 5.7 TFLOP
FP64 컴퓨팅 미정 추후 공지 47.9 TFLOP 45.3 TFLOP 22.6 TFLOP 11.5 TFLOP 7.4 TFLOP 6.6 TFLOP 768 GFLOP 512 GFLOP 384 GFLOP
VRAM 미정 192GB HBM3 128GB HBM2e 128GB HBM2e 64GB HBM2e 32GB HBM2 32GB HBM2 16GB HBM2 16GB HBM2 4GB HBM1 16GB GDDR5
메모리 시계 미정 5.2Gbps 3.2Gbps 3.2Gbps 3.2Gbps 1200MHz 1000MHz 1000MHz 945MHz 500MHz 1750MHz
메모리 버스 미정 8192비트 8192비트 8192비트 4096비트 4096비트 버스 4096비트 버스 4096비트 버스 2048비트 버스 4096비트 버스 256비트 버스
메모리 대역폭 미정 5.2TB/초 3.2TB/초 3.2TB/초 1.6TB/초 1.23TB/초 1TB/초 1TB/초 484GB/초 512GB/초 224GB/초
폼 팩터 미정 OAM OAM OAM 듀얼 슬롯 카드 듀얼 슬롯, 전체 길이 듀얼 슬롯, 전체 길이 듀얼 슬롯, 전체 길이 듀얼 슬롯, 전체 길이 이중 슬롯, 절반 길이 단일 슬롯, 전체 길이
냉각 미정 수동 냉각 수동 냉각 수동 냉각 수동 냉각 수동 냉각 수동 냉각 수동 냉각 수동 냉각 수동 냉각 수동 냉각
TDP(최대) 미정 750W 560W 500W 300W 300W 300W 300W 300W 175W 150W

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다