Architettura GP104-200 (Pascal-G)
GP104 è stato il primo chip grafico di Nvidia ad essere costruito con il processo 16nm FinFET Plus di TSMC. E' basato sull'architettura Pascal-G (adattamento desktop "GeForce" della famiglia Pascal) ed integra 7.2mld di transistor su una superficie di 314mm2.
Nella versione completa (GP104-400) che equipaggia la GTX 1080 questo chip integra 2560 CUDA Core, organizzati in 20 Streaming Multiprocessor a loro volta raggruppati in 4 Graphics Processing Cluster. Il numero di ROP è pari 64, l'iMC a 256-bit mentre la cache L2 è da 2MB. Nella declinazione GP104-200 che troviamo sulla GTX 1070 il numero dei CUDA Core scende a 1920 (15 SM). Nvidia ha svelato di aver disattivato un'intera unità GPC su tutti i chip GP104-200 prodotti, questo significa che il divario con il GP104-400 va ben oltre le unità 5 SM in meno e la frequenza di clock inferiore, ma si estende anche sul fronte del triangle rate e del fillrate. La GTX 1070 è infatti limitata ad un massimo di 3 triangoli per ciclo di clock (contro i 4 della GTX 1080) ed opera attivamente su 48 pixel per clock (contro i 64 della GTX 1080). La GTX 1070 ha tutte le 64 ROP funzionanti (condizione necessaria per poter continuare ad utilizzare un bus a 256-bit) ma si comporta come una soluzione non completa considerato che ogni singola GPC può lavorare su 16 pixel per ciclo di clock. A tutto ciò aggiungiamo che la GTX 1070 adotta memorie GDDR5 normale contro le più veloci GDDR5X della GTX 1080, con un'importante ripercussione sulla bandwidth a disposizione. In conclusione la GTX 1070 è una scheda molto meno potente della GTX 1080 (il divario è superiore a quello esistente tra la GTX 970 e la GTX 980 della precedente generazione, nDA).
GTX 1080 F.E. | GTX 1070 F.E. | |
uArch | Pascal-GeForce | Pascal-GeForce |
GPU | GP104-400 | GP104-200 |
Node | 16nm FinFET | 16nm FinFET |
Die Size |
314mm2 | 314mm2 |
CUDA Core | 2560 | 1920 |
TMU | 160 | 120 |
ROP | 64 | 64 |
Triangle rate | 4/clk | 3/clk |
Clock GPU (Base/Boost) | 1607/1733MHz | 1506/1683MHz |
Fill rate | 111 Gpixel/sec | 80 Gpixel/sec |
Memory | GDDR5X | GDDR5 |
Bus Memory | 256-bit | 256-bit |
Clock Memory | 10GHz | 8GHz |
Memory Bandwidth |
320GB/sec | 256 GB/sec |
VRAM | 8GB | 8GB |
FP64 | 1/32 | 1/32 |
TDP | 180W | 150W |
Transistor | 7.2Mld | 7,2Mld |
Power | 8pin | 8pin |
Confrontato con Maxwell 2.0, Pascal-G non presenta nulla di realmente nuovo. Il rapporto delle unità funzionali per clock a livello di CCs, TMUs, ROPs e motore geometrico è lo stesso. Quello che cambia è il supporto all' Async Compute in hardware e una nuova tecniche di rendering, oltre all'aggiornamento del sistema DVFS proprietario che giunge alla versione 3.0.
Anche sul fronte del supporto DX12 non ci sono grosse novità rispetto a Maxwell 2.0 (a parte il supporto ad un nuovo livello di Conservative Rasterization).