다음 RTX 40은 RTX 30보다 2배 빠릅니까?

이것은 다음 Nvidia 카드에 대한 오늘의 소문입니다. 이러한 새로운 누출은 Kopte7kimi 에서 제공되며 친환경 차세대 아키텍처 블록 다이어그램에 대해 설명합니다. AD102 “Ada Lovelace” GPU 블록 다이어그램 이미지를 통해 다음 RTX 40의 성능을 예측할 수 있습니다.

RTX 40: 인상적인 사양(사실일 경우)

먼저 Ada Lovelace AD102 GPU에는 최대 12개의 GPC(그래픽 처리 클러스터)가 있습니다. 이는 7개의 GPC만 있는 GA102(현재 범위에서 가장 큰 것)보다 70% 더 많습니다. 각 GPU는 기존 칩의 구성과 일치하는 6개의 TPC와 2개의 SM으로 구성됩니다. 각 SM(스트리밍 멀티프로세서)에는 GA102 GPU에도 해당하는 4개의 하위 코어가 포함됩니다. 실제 변경 사항은 FP32 및 INT32 코어 구성입니다. 각 서브 코어는 128개의 FP32 블록으로 구성되지만 결합된 FP32 + INT32 블록은 최대 192개입니다. 이는 FP32 블록이 IN32 블록과 동일한 서브 코어를 공유하지 않기 때문입니다. 128개의 FP32 코어는 64개의 INT32 코어와 분리되어 있습니다.

Kopte7kimi의 RTX 40 GPU 개략도 이미지 중 하나입니다.

캐시는 기존 Ampere GPU에 비해 NVIDIA가 총력을 기울인 또 다른 영역이어야 합니다. Ada Lovelace GPU는 SM당 192KB의 L1 캐시를 포함하며 이는 Ampere보다 50% 더 많습니다. 이것은 최고급 AD102 GPU에 총 4.5MB의 L1 캐시를 추가합니다. L2 캐시는 여러 누출에서 정기적으로 언급되는 96MB로 증가됩니다. 이는 6MB의 L2 캐시만 있는 Ampere GPU보다 거의 16배 더 많습니다. 캐시는 GPU에서 공유됩니다.

누출이 정확하면 AD102의 경우 L2 캐시가 96MB로 기하급수적으로 증가합니다. ROP의 관점에서, 우리는 이 아키텍처에 두 배 더 많은 블록을 갖게 될 것입니다. 정확히는 GPC당 32개이며, RTX 3090의 경우 112개에 비해 가능한 RTX 4090의 경우 총 384개의 ROP를 제공합니다… .

GPU 특성 비교. AD102는 RTX 40 라인업의 정점이 될 것입니다.

그러나 이러한 기술 데이터의 난교 후에 우리는 어떤 이점을 기대할 수 있습니까?

물론 아직 정확한 생각을 하기에는 이르지만 이러한 요소들이 확인된다면 테크니컬 시트는 암페어와 비교했을 때 엄청난 차이를 보여줄 것이다. 요약하자면:

X2 GPC(암페어 대비)
50% 더 많은 코어(암페어와 비교)
50% 더 많은 L1 캐시(Ampere와 비교)
16x L2 캐시(암페어와 비교)
X2 ROP(암페어와 비교)
4세대 Tensor 코어 및 3세대 RT 코어

그러나 실제 성능 측면에서 무엇을 기대할 수 있습니까?

이것은 중요한 데이터 조각인 작동 주파수를 놓치기 때문에 매우 어렵습니다.

조금 생각해보면 FP32의 전력을 현재 GA102의 두 배 이상인 90TFLOPS로 설계할 수 있습니다. 그러나 TFLOPS를 사용하면 놀라움이 생길 수도 있습니다. 원시 성능에 대한 아이디어를 제공하면 “일상적인”사용에서 결과에 대한 편향된 판단을 허용하지 않습니다. RTX 30에 비해 x2 x2.2의 발표가 유출… 그러나 더 결정하려면 조금 더 기다려야 합니다.

RTX 40: 인상적인 사양(사실일 경우)

그러나 이러한 기술 데이터의 난교 후에 우리는 어떤 이점을 기대할 수 있습니까?

답글 남기기 응답 취소