Quando abbiamo recensito la RX 470 Strix ci siamo trovati di fronte ad una scheda più veloce della R9 380X di circa il 25%. Sulla carta quello che separa le due soluzioni è soprattutto la frequenza di clock, molto più alta sulla RX 470 grazie all'utilizzo del nuovo processo produttivo a 14nm, abbinata ad un enorme quantitativo di cache L2 (2MB vs. 512KB). A questo vanno aggiunte piccole differenze a livelli di micro-architettura (GCN4 vs. GCN3) ed un miglioramento sulla tecnica di DCC (delta color compression). Per il resto le due schede sono praticamente uguali visto che il numero delle unità funzionali della declinazione PRO di Polaris 10 è esattamente lo stesso di Tonga XT (2048 SPs, 128 TMUs, 32 ROPs ed un MC a 4 canali da 64-bit).
Nella realtà le due architetture sono più simili di quanto si possa pensare e a nostro avviso un confronto diretto tra Polaris 10 e Tonga è interessante specialmente se consideriamo che la stessa AMD nelle slide di presentazione di Polaris 10 ha volutamente omesso di farlo, preferendo mostrare le differenze (ed i miglioramenti) rispetto ad Hawaii: un chip basato su architettura GCN2, che non ha il front-end aggiornato di Tonga (HWS e fix per la tessellation) e che non supporta la tecnica DCC.
...nella versione full (XTX) Tonga dispone di un controller ampio 384-bit e di una cache L2 da 768KB...
Nell'articolo di oggi proveremo a fare una comparativa "ad armi pari" tra Polaris 10 PRO e Tonga XT. Le due schede video (RX 470 e R9 380X) sono state preparate impostando la stessa frequenza di clock sulla GPU (1000MHz) e sulle memorie video (6000MHz effettivi), cercando di ridurre al minimo l'intervento dei sistemi AVFS e DVFS settando al massimo sia il valore di PT sia la velocità di rotazione delle ventole di raffreddamento.
Il nostro obiettivo è quello di misurare l'effettivo guadagno dovuto all'aumento della cache L2 e contemporaneamente valutare se ci sono stati miglioramenti anche sul fronte della tessellation e delle DX12.
|
R9 380X @1000/6000 MHz | RX 470 @1000/6000 MHz |
GPU | Tonga XT (a.k.a Antigua XT) | Polaris 10 PRO |
Processo produttivo | 28nm | 14nm |
Architettura | GCN3 | GCN4 |
N. Transistor | 5.0 Mld | 5.7Mld |
Die Size | 366mm^2 | 232mm^2 |
SPs / TMUs / ROPs | 2048 / 128 / 32 | 2048 / 128 / 32 |
Motore geometrico | 4 tria/clk | 4 tria/clk |
Cache L2 | 512KB | 2MB |
Base/Boost Clock | 1000MHz (settati manualmente) | 1000MHz (settati manualmente) |
Quantitativo e tipo di VRAM | 4GB GDDR5 | 4GB GDDR5 |
Frequenza memorie | 6000MHz (settati manualmente) | 6000MHz (settati manualmente) |
Interfaccia memorie | 256-bit | 256-bit |
Piattaforma e metodologia di test
I test sulle schede grafiche sono eseguiti applicando scrupolosamente sempre le stesse condizioni di prova al fine di garantire una perfetta comparabilità degli stessi e la ripetibilità, quale requisito essenziale di qualunque test. Nella pratica scegliamo le sequenze che meglio si adattano alle nostre condizioni di prova, preferendo i titoli che contengono al loro interno un sistema di benchmark grazie al quale è facile escludere eventuali errori umani nelle misurazioni.
I test sono ripetuti per tre volte e nel momento in cui la varianza fra un risultato e l'altro dovesse risultare troppo elevata, il test viene ulteriormente ripetuto fino a scartare le cause che hanno determinato il risultato non conforme. Il sistema utilizzato include solo i componenti strettamente necessari mentre il sistema operativo è installato di fresco ed i software sono limitati ai giochi utilizzati per le prove con i rispettivi tool di benchmark.
La configurazione di prova include i seguenti componenti:
Sistema di prova |
|
Scheda madre | EVGA X79 Dark LGA 2011 |
Processore | Intel Core i7-3960X @4.2GHz |
Memorie | 16GB DDR3 @1866MHz |
Hard disk |
|
Alimentatore | Enermax MaxRevo 1350W |
Sistema operativo | Windows 10 64-bit |
Entrambe le schede video sono state testate con i driver Crimson 16.8.2.
Test (giochi, benchmark e tessellation)
- Giochi DX12 e DX11
- Benchmark sintetici (DX12 e DX11)
- Tessellation
Considerazioni
A parità di clock la RX 470 è più veloce della R9 380X del 4%. In queste condizioni possiamo attribuire il guadagno prestazionale della RX 470 esclusivamente all'aumento della cache L2, visto che negli altri ambiti (DX12 e Tessellation) non abbiamo riscontrato miglioramenti.
Aumento percentuale della RX 470 rispetto alla RX 380X | |||
@1000/6000 MHz | Complessivo (1080p) | DX11/DX12 | Tessellation |
+4% | 0% | 0% |
Il confronto tra due schede simili come specifiche tecniche (ma non del tutto uguali) e diverse come processo produttivo offre sempre degli interessanti spunti di osservazione. Tonga nasce per sfruttare i 28nm e per funzionare a 1000MHz (il clock utilizzato nella nostra prova), mentre Polari 10 PRO è costruito a 14nm ed è studiato per operare a frequenze molto più elevate. Sottoposta a pesante downlock l'architettura Polaris perde alcuni equilibri. La stessa cache L2 maggiorata ne risente, ma in generale è tutto il back-end a soffrire visto che è progettato per lavorare in abbinamento a memorie più veloci (abbiamo sottolineato questo aspetto anche nelle nostre recensioni delle RX 480 con memorie da 8GHz vs. 7GHz).
La linea che separa l'architettura GCN3 di Tonga dalla GCN4 di Polaris è molto (ma molto) sottile, inesistente se consideriamo il supporto alle DX12 e i miglioramenti al motore geometrico, per questo nelle slide di presentazione della nuova architettura AMD ha preferito riportare il confronto con la vecchia architettura GCN2 (Hawaii).
Ovviamente le nostre considerazioni non tengono conto dell'ovvio discorso dei consumi (tutto a favore di Polaris 10) e delle nuove funzionalità di codifica video e supporto I/O introdotto con la nuova generazione a 14nm. Ma questa è un'altra storia...