RTX 40: 인상적인 사양(사실일 경우)
먼저 Ada Lovelace AD102 GPU에는 최대 12개의 GPC(그래픽 처리 클러스터)가 있습니다. 이는 7개의 GPC만 있는 GA102(현재 범위에서 가장 큰 것)보다 70% 더 많습니다. 각 GPU는 기존 칩의 구성과 일치하는 6개의 TPC와 2개의 SM으로 구성됩니다. 각 SM(스트리밍 멀티프로세서)에는 GA102 GPU에도 해당하는 4개의 하위 코어가 포함됩니다. 실제 변경 사항은 FP32 및 INT32 코어 구성입니다. 각 서브 코어는 128개의 FP32 블록으로 구성되지만 결합된 FP32 + INT32 블록은 최대 192개입니다. 이는 FP32 블록이 IN32 블록과 동일한 서브 코어를 공유하지 않기 때문입니다. 128개의 FP32 코어는 64개의 INT32 코어와 분리되어 있습니다.
Kopte7kimi의 RTX 40 GPU 개략도 이미지 중 하나입니다.
캐시는 기존 Ampere GPU에 비해 NVIDIA가 총력을 기울인 또 다른 영역이어야 합니다. Ada Lovelace GPU는 SM당 192KB의 L1 캐시를 포함하며 이는 Ampere보다 50% 더 많습니다. 이것은 최고급 AD102 GPU에 총 4.5MB의 L1 캐시를 추가합니다. L2 캐시는 여러 누출에서 정기적으로 언급되는 96MB로 증가됩니다. 이는 6MB의 L2 캐시만 있는 Ampere GPU보다 거의 16배 더 많습니다. 캐시는 GPU에서 공유됩니다.
누출이 정확하면 AD102의 경우 L2 캐시가 96MB로 기하급수적으로 증가합니다. ROP의 관점에서, 우리는 이 아키텍처에 두 배 더 많은 블록을 갖게 될 것입니다. 정확히는 GPC당 32개이며, RTX 3090의 경우 112개에 비해 가능한 RTX 4090의 경우 총 384개의 ROP를 제공합니다… .
GPU 특성 비교. AD102는 RTX 40 라인업의 정점이 될 것입니다.
그러나 이러한 기술 데이터의 난교 후에 우리는 어떤 이점을 기대할 수 있습니까?
물론 아직 정확한 생각을 하기에는 이르지만 이러한 요소들이 확인된다면 테크니컬 시트는 암페어와 비교했을 때 엄청난 차이를 보여줄 것이다. 요약하자면:
- X2 GPC(암페어 대비)
- 50% 더 많은 코어(암페어와 비교)
- 50% 더 많은 L1 캐시(Ampere와 비교)
- 16x L2 캐시(암페어와 비교)
- X2 ROP(암페어와 비교)
- 4세대 Tensor 코어 및 3세대 RT 코어
그러나 실제 성능 측면에서 무엇을 기대할 수 있습니까?
이것은 중요한 데이터 조각인 작동 주파수를 놓치기 때문에 매우 어렵습니다.
조금 생각해보면 FP32의 전력을 현재 GA102의 두 배 이상인 90TFLOPS로 설계할 수 있습니다. 그러나 TFLOPS를 사용하면 놀라움이 생길 수도 있습니다. 원시 성능에 대한 아이디어를 제공하면 “일상적인”사용에서 결과에 대한 편향된 판단을 허용하지 않습니다. RTX 30에 비해 x2 x2.2의 발표가 유출… 그러나 더 결정하려면 조금 더 기다려야 합니다.
답글 남기기