Pagine

Un tempo la sfida tra Intel ed AMD era incentrata principalmente tra le soluzioni desktop di fascia alta. Ad ogni nuova architettura i due produttori proponevano come proprio cavallo di battaglia  costosissime CPU in grado di far segnare nuovi record prestazionali, incuranti del fattore consumo e di altri parametri. Negli ultimi anni le cose sono cambiate - la rivoluzione Mobile ha imposto nuove strade e canoni da seguire - e la sfida si è spostata altrove.

Le parole d'ordine sono diventate integrazione ed efficienza e l'obiettivo dei due produttori adesso è quello di realizzare chip sempre più piccoli in grado di offrire una grande flessibilità d'utilizzo abbinata a consumi estremamente bassi.

Non è un caso che in questo momento Intel utilizzi il più sofisticato processo produttivo a 22 nanometri solo per costruire CPU con GPU integrata (la versione Enthusiast dei processori Ivy Bridge, IVB-E, arriverà in seguito, ndr) e che AMD abbia in roadmap e a listino un nutrito numero di APU (Accelerated Processing Unit) per coprire tutte le fasce mainstream e low-end.

 

 

Questo nuovo trend prosegue con la presentazione odierna che vede il debutto della declinazione desktop delle APU "Trinity" di AMD, dopo che la versione mobile è stata annunciata diversi mesi fa. E' un lancio che il produttore americano ha rinviato più volte perchè ha preferito privilegiare la produzione per i sistemi notebook allo scopo di conquistare importanti quote di mercato in un settore che in questo momento vede ancora Intel in netto vantaggio.

Trinity è l'evoluzione di Llano che, insieme a Brazos, è stata la prima APU che ha permesso ad AMD di mostrare le potenzialità dell'integrazione di CPU e GPU iniziata sotto il nome del progetto Fusion. Da questo punto di vista la filosofia AMD è diversa da quella Intel. La casa di Sunnyvale ha strutturato un'integrazione che privilegia le prestazioni delle iGPU, con una CPU relegata ad un ruolo da "onesto comprimario",  mentre il colosso chip-maker di Santa Clara punta su una buona CPU e su una iGPU "di supporto" (anche se in questo senso le cose sono destinate a cambiare in un prossimo-futuro, vedi architettura "Haswell").

Come noto Trinity abbina una CPU realizzata con uno o due moduli Piletriver ed una iGPU dal design VLIW4, al posto della combinazione CPU "Stars" più iGPU "VLIW5" di Llano. Il processo produttivo è il SOI a 32nm di GlobalFoundries, lo stesso di Llano, ma il numero dei transistor integrati è salito da 1,178 a 1,303 miliardi e la superficie del die da 228mm^2 a 246mm^2. Trinity quindi è più grande di Llano ed AMD sostiene di essere riuscita ad incrementare le performance del 25% sul fronte CPU e del 37% su quello GPU lasciando i consumi invariati.

 

overview

 

La versione desktop si differenzia da quella mobile per il TDP, le frequenze di clock più elevate e per l'utilizzo del socket FM2. Questi i modelli annunciati oggi da AMD:

 

apu
 

 Il socket FM2 utilizza 904 pin contro i 905 sulla versione FM1 dell'APU Llano, con una disposizione leggermente diversa che non permette la compatibilità tra le due APU. L'adozione di un nuovo package è stata necessaria per via della nuova gestione del controllo delle tensioni presente nell'APU Trinity. La buona notizia è che il socket FM2, insieme ai chipset che lo supportano, accompagnerà anche le future APU mainstrem a 28nm conosciute con il nome in codice Kaveri e basate su CPU "Steamroller" e iGPU "GCN". 

A proposito di chipset, o meglio di FCH (Fusion Control Hub), tre sono quelli da abbinare alle soluzioni desktop della APU Trinity: A55, A75 ed A85X. I primi due già li conosciamo perchè utilizzati anche sul socket FM1, mentre il terzo è nuovo ed è destinato alle versioni più performanti A10-series in quanto supporta la tecnologia CrossFire di multi-GPU discrete.

 

fch2

 

Di seguito il diagramma della piattaforma AMD "Virgo" basata su APU "Trinity" ed FCH "A85X":

 

A85-Architecture


 Architettura: CPU "Piledriver", iGPU "Devastator"

Le nuove APU A-Series per desktop sono disponibili in configurazioni con uno o due moduli x86 “Piledriver” a 32nm (due o quattro cluster/thread). L'architettura deriva da quella “Bulldozer” utilizzata da AMD per le CPU di fascia più alta della serie FX. Nello stesso die il produttore ha integrato una GPU della serie Radeon HD 7000 con supporto per le API DirectX 11, insieme ad un controller delle memorie, un controller PCI Express ed un Northbridge. A seconda dei modelli il TDP di queste soluzioni varia da 65W a 100W.

 

diagram

 

Le frequenze di funzionamento dei componenti interni alla APU sono regolate mediante la tecnologia AMD Turbo Core 3.0 che, nel rispetto del TDP e in base alle richieste dell'applicazione attiva, incrementa o diminuisce ora quelle dei core x86, ora quelle della iGPU. 

Il memory controller di Trinity supporta moduli DDR3 fino a 1866MHz. L'architettura del core Piledriver, vista ad alto livello, non differisce molto da quella di Bulldozer dalla quale deriva ma rispetto ad essa prevede diverse ottimizzazioni che la rendono più veloce e più efficiente. 

Come per Bulldozer, invece di due core completamente indipendenti ognuno dotato di risorse dedicate, un modulo Piledriver comprende due core x86 che condividono parte delle risorse, in particolare la FPU, la cache L2 e le unità per il recupero e la decodifica delle istruzioni (instruction retirement, registri di load/store).

Alle due ALU indipendenti, dotate ognuna della propria cache L1 dati, del proprio scheduler e delle proprie unità di calcolo, è affiancata una singola unità per i calcoli Floating Point che può gestire le istruzioni di uno dei due thread alla volta, condividendo la cache dati delle due ALU. L'ottimizzazione raggiunta in termini di occupazione di spazio e di banda dati dovrebbe ampiamente ripagare lo scotto prestazionale che comunque bisogna pagare quando si condividono delle risorse hardware.

 

pile1

 

Rispetto a Bulldozer, AMD ha apportato delle ottimizzazioni al front end utilizzando un design più aggressivo. Lo stesso concetto è stato applicato alla logica flip-flop per garantire una sensibile riduzione dei consumi.

AMD afferma che altri miglioramenti sono stati apportati alle unità di calcolo floating point ed integer, a quelle di branch prediction e prefetch. Il blocco di branch prediction include una nuova unità che tiene conto della storia e lavora in parallelo con l'unità già presente in Bulldozer (e sulla quale ha priorità), mentre il blocco di prefetch di Piledriver segna i dati di prefetch non usati come quelli meno recenti al contrario di Bulldozer, evitando che vengano ricaricati inutilmente.

In Piledriver sono state poi aggiunte le nuove istruzioni FMA3 (in Bulldozer era stato integrato il supporto per le FMA4) ed F16C, in aggiunta a quelle AVX, AVX 1.1 ed AES, per allinearsi all'ISA di Haswell.

 

improv

 

Trinity dispone di un bus a 256-bit bidirezionale per ogni memory channel, denominato RMB (Radeon Memory Bus), per l'accesso diretto ai controller DRAM da parte della iGPU e utilizza la seconda versione dell' IOMMU (Input/Output Memory Management) per supportare la condivisione sicura ed efficiente della memoria virtuale x86 della CPU.

 

rmb

 

Abbiamo raccolto le specifiche tecniche nella seguente tabella:

Specifiche APU AMD Trinity
AMDTrinity AMD Llano Intel Sandy Bridge Intel Ivy Bridge
Socket FM2 FM1 LGA 1155 LGA 1155
Transistor 1,303 miliardi 1,178 miliardi 995 milioni 1,4 miliardi
Processo produttivo 32nm SOI 32nm SOI 32nm 22nm
Dimensioni die 246mm2 228mm2 216mm2 160mm2
Cache L1 128 KB per core 128 KB per core 64 KB per core 64 KB per core
Cache L2 2MB per modulo 1MB per core 256 KB per core 256 KB per core
Cache L3 N/A N/A 8 MB 8 MB
Core / Thread 4/4 4/4 4/8 4/8
Turbo Si Si Si Si
FPU 128-bit 128-bit 128-bit 128-bit
Controller memorie - DDR3-1866
- Dual-channel
- DDR3-1866
- Dual-channel
- DDR3-1333
- Dual-channel
- DDR3-1600
- Dual-channel
Controller grafico - Radeon series
- DirectX 11
- UVD3
- Radeon series
- DirectX 11
- UVD3
- Intel HD Graphics
- DirectX 10.1
- Quick Sync
- Intel HD Graphics
- DirectX 11
- Quick Sync
Controller PCI Express 16 linee 16 linee 16 linee 16 linee
Risparmio energetico - Più stati low-power
- PCIe core power gating
- PCIe speed power policy
- GPU e video decode (UVD3) power gating
- AMD Turbo Core 3.0
- Più stati low-power
- PCIe core power gating
- PCIe speed power policy
- GPU e video decode (UVD3) power gating
- AMD Turbo Core (ove previsto)
- Più stati low-power
- CPU core power gating 
- GPU power gating
- Turbo Boost (ove previsto)
- Più stati low-power
- CPU core power gating 
- GPU power gating
- Turbo Boost (ove previsto)
TDP 65W e 100W 65W e 100W 65W e 95W 65W e 77W

 

La GPU integrata riveste ancora una volta il ruolo principale nelle APU AMD ed occupa gran parte dell'intero die di Trinity. Conosciuto con il nome in codice di "Devastator" il chip grafico continua a supportare le API DirectX11 insieme alla funzione di tesselation ed è compatibile con le ultime tecniche di filtraggio (MLAA, FXAA)

Dal punto di vista del design i tratta di una GPU che deriva dall'architettura Cayman (ALU di tipo VLIW4) utilizzata da AMD sulle schede video discrete Radeon HD 6900-series. Ovviamente è stata depotenziata come numero di Stream Processor, TMUs e ROPs ed ha visto sul front-end la rimozione del dual-graphic engine in favore di un'unità singola per i calcoli geometrici e sul back-end il netto taglio del controller delle memorie.

Nella variante più potente l'iGPU "Devastator" integra 384 Stream Processors organizzati in 6 SIMDs. E' la prima volta che vediamo un design VLIW4 realizzato con il procesos produttivo a 32 nanometri  di GlobalFoundries (Cayman era realizzato con tecnologia a 40nm di TSMC) e questo ha consentito ad AMD di aumentare l'efficienza di funzionamento rispetto ai 400 Stream Processors VLIW5 (organizzati in 5 SIMDs) presenti dell'iGPU "Sumo" di Llano, a parità di processo produttivo.

 

GPUdiagram

(Diagramma a blocchi delle iGPU "Devastator")

Sotto il profilo della decodifica video, AMD ha integrato in Trinity un completo blocco UVD3/VCE simile a quello visto nelle GPU discrete che permette di accelerare la codifica e decodifica dei flussi video in alta definizione nei formati H.264, VC1, DivX e XviD.

 

uvd

 


 Turbo Core 3.0

La tecnologia Turbo Core basata sul sistema DVFS (Dynamic Voltage and Frequency Scaling) giunge con Trinity alla terza versione con una novità. Questa tecnologia cerca di bilanciare le prestazioni con il  TDP di CPU e GPU in maniera completamente dinamica (usando un algoritmo basato sulla trasformata veloce per il calcolo del modello termico che, secondo AMD, restituisce una stima con errore massimo dell'1%). Il Turbo Core 2.0 di Llano (per i modelli che lo prevedono) era applicato solo ai core x86 mentre la iGPU non non andava mai oltre la frequenza base. Nelle APU Trinity, invece, se i core della CPU sono sottoutilizzati, il TDP non sfruttato può andare a beneficio della GPU che così può funzionare ad una frequenza superiore a quella nominale massima.

 

Turbo core 3

 

Dual Graphics 

Al pari di Llano anche Trinity supporta la funzione "dual-graphics" che consente di utilizzare la GPU integrata in parallelo con una GPU discreta per aumentare le prestazioni nel rendering 3D. Questi gli abbinamenti consentiti e gli output da seguire.

 

dg

 

La configurazione è semplice: basta selezionare il "primary video device" da BIOS ed abilitare in Windows l'AMD Dual-Graphics tramite il "Visione Engine Controller Center".

 

vdv engine

  

Eyefinity

Eyefinity è la tecnologia proprietaria AMD che consente di gestire in maniera semplice e veloce le configurazioni multi-monitor. Con Trinity questa tecnologia sbarca anche sulle APU.

 

 eyefinity

 

Trinity è in grado di pilotare fino a 4 display full-HD contemporaneamente grazie alle 4 uscite video (VGA, DVI, HDMI e DisplayPort 1.2) presenti sulle schede madri compatibili.

 

Overdrive

Il tool AMD OverDrive, giunto alla release 4.2.0, adesso è compatibile con le piattaforme "Virgo" munite di FCH A85X ed abilita la modifica ed il monitong di principali parametri di funzionamento dell'APU Trinity per facilitare l'overclock direttamente da Windows,  soprattuto dei modelli K-serie dotati di moltiplicatore di frequenza sbloccato verso l'alto.

overdrive

 

 


 

AMD A10-5800K e A8-5600K

I modelli che abbiamo oggi a disposizione sul nostro banco di prova sono due. L'A10-5800K rappresenta il top di gamma attuale della famiglia Trinity mentre l'A8-5600K, pur conservando una architettura quad-core per la CPU, prevede lo stesso TDP di 100W ed una iGPU meno potente (per frequenze di funzionamento e numero di stream processor).

 

 

Dal punto di vista esterno, le due APU non differiscono in alcun modo dai modelli precedenti e nemmeno dalle CPU della famiglia Bulldozer. Il numero di pin è quasi lo stesso ed i caratteri distintivi rimangono (ad esempio il triangolino indicante il verso di inserimento o la parte centrale posizionato esattamente sotto il die e sprovvista di pin).

 

 

Sull'involucro delle APU è stampigliato il numero di modello: AD560KWDA44HJ per l'A8, AD580KWDA44HJ per l'A10.

 

 

Le caratteristiche di queste due APU prevedono un'architettura quad-core con frequenze pari a 3,8GHz (default) e 4,2GHz (Turbo) per l'A10-5800K e pari a 3,6GHz (default) e 3,9GHz (Turbo) per l'A8-5600K, 4MB di cache L2 e iGPU Radeon HD 7660D o Radeon HD 7560D rispettivamente.

Entrambi i modelli dispongono di moltiplicatore sbloccato sia verso l'alto che verso il basso, dunque facilmente overcloccabili da bios o da applicazioni Windows.

 


 

Sistemi di prova

Per eseguire i test sulle CPU abbiamo rispettato le seguenti regole:

  • Sulla scheda sono stati installati solo i componenti necessari: CPU, Memoria, Scheda video e Hard disk.
  • L'hard disk è stato formattato, sono stati poi installati il sistema operativo, i drivers per le periferiche e, quando necessario, sono state installate patch e aggiornamenti.
  • Ogni test è stato ripetuto per tre volte e, se i risultati di qualche test si mostrano troppo lontani dalla media (elevata varianza), il test stesso è stato di nuovo ripetuto, scartando il risultato non corretto.
  • Alla fine di ogni sessione di prova l'hard disk è stato formattato.

In merito ai sistemi di prova, ci siamo serviti di differenti piattaforme a seconda del tipo di CPU. Ciò è stato necessario per ottenere un sistema funzionante per ogni tipo di Socket che le CPU utilizzate per la nostra comparazione utilizzano. Ovviamente si è cercato di realizzare i sistemi con componenti simili, quando possibile, uguali.

Sistema di prova
Sistema Socket FM2
Scheda madre MSI AMD A85X
Processori
  • AMD A10-5800K (3,8/4,2GHz, 4MB L2, Radeon HD 7660D, quad core)
  • AMD A8-5600K (3,6/3,9GHz, 4MB L2, Radeon HD 7560D, quad core)
Memoria 4GB DDR3  2000 (2 x 2GB) @ 1866MHz
Sistema Socket AM3+
Scheda madre ASUS Crosshair V Formula AMD 990FX
Processori AMD FX-8150 (3,6GHz, Turbo 4,2GHz, 8MB L2, 8MB L3, eight core)
Memoria 4GB DDR3  2000 (2 x 2GB) @ 1866MHz
Sistema Socket FM1
Scheda madre ASRock A75 Pro4 con FHX A75 socket FM1
Processori
  • AMD A8-3850 (2,9GHz, 4MB L2, Radeon HD 6550D, quad core)
  • AMD A6-3650 (2,6GHz, 4MB L2, Radeon HD 6530D, quad core)
  • AMD A4-3400 (2,7GHz, 1MB L2, Radeon HD 6410D, dual core)
Memoria 4GB DDR3 2000 (2 x 2GB) @ 1333MHz
Scheda video Intel GMA HD 3000 integrata
Sistema Socket AM3
Scheda madre ASUS Crosshair IV Formula AMD 890FX
Processori
  • Phenom II X4 980BE (3,7GHz, 2MB L2, 6MB L3, quad core)
  • Phenom II X4 975BE (3,6GHz, 2MB L2, 6MB L3, quad core)
  • Phenom II X6 1090T (2,8GHz, 3MB L2, 6MB L3, Turbo, six core)
Memoria 2GB DDR3 1600 OCZ (1GB x 2)  @ 9/9/9/24 - 1333MHz
Sistema Socket AM2+
Scheda madre Gigabyte GA-MA790GP AMD 790FX
Processori
  • Phenom II X4 940 (3,0GHz, 2MB L2, 6MB L3, quad core)
  • Phenom II X4 920 (2,8GHz, 2MB L2, 6MB L3, quad core)
  • Phenom X4 9950 BE (2,6GHz, 2MB L2, 2MB L3, quad core)
  • Phenom X4 9850 BE (2,5GHz, 2MB L2, 2MB L3, quad core)
Memoria 2GB DDR2 1066 Corsair (1GB x 2) @ 5/7/7/24 - 1066MHz
Sistema Socket LGA 2011
Scheda madre Intel DX79SI Siler X79 Express
Processori Intel Core i7-3960X (3,3GHz, Turbo 3,9GHz, 1,5MB L2, 15MB L3, six core)
Memoria 8GB DDR3  2000 (4 x 2GB) @ 1600MHz
Sistema Socket 1155 LGA (Ivy Bridge)
Scheda madre Intel DZ77GA-70K (Gasper)
Processori Core i7-2700K - Turbo Mode ON
Memoria 4GB DDR3 2000 (2 x 2GB) @ 1333MHz
Scheda video Intel GMA HD 3000 integrata
Sistema Socket 1155 LGA (Sandy Bridge)
Scheda madre ASUS P8Z68
Processori
  • Core i5-2500K - Turbo Mode ON
  • Core i7-2600K - Turbo Mode ON
Memoria 4GB DDR3 2000 (2 x 2GB) @ 1333MHz
Scheda video Intel GMA HD 3000 integrata
Sistema Socket 1156 LGA (Lynnfield)
Scheda madre Intel DP55KG Extreme
Processori
  • Core i7 879 - HyperThreading ON, Turbo Mode ON
  • Core i5 750 - Turbo Mode ON
Memoria 2GB DDR3 1333 (2 x 1GB)
Sistema Socket 1156 LGA (Clarkdale)
Scheda madre Intel DH55TC
Processori Core i5 661 - Turbo Mode ON
Memoria 2GB DDR3 1333 (2 x 1GB)
Scheda video Intel GMA HD
Sistema Socket 1366 LGA
Scheda madre ASUS P6T Intel X58
Processori
  • Core i7 940 - HyperThreading ON, Turbo Mode OFF
  • Core i7 920 - HyperThreading ON, Turbo Mode OFF
Memoria 3GB DDR3 1066 (3 x 1GB)
Opzioni Comuni
Hard Disk Maxtor 160GB 7200RPM Serial ATA
Scheda video Radeon HD4850 512MB
Scheda audio Integrata
Media DVD Rom 8x
Alimentatore Corsair 620W
Sistema operativo Windows 7 64-bit

I test eseguiti sono descritti qui di seguito:

Benchmark sintetici

  • Fritz Chess Benchmark: questo è un tool che misura la potenza del processore di sistema utilizzando il motore per la creazione di giochi di scacchi "Fritz 9 engine". Il risultato del test è espresso in nodi per secondo medi. Il software è fortemente ottimizzato per girare in ambienti multicore ed è capace di attivare fino ad 8 thread contemporaneamente.

  • ScienceMark 2.0: grazie a ScienceMark è possibile misurare le prestazioni del sistema in ambiente di calcolo spinto. Inoltre il software misura le prestazioni della memoria di sistema e della cache integrata nella CPU.

  • SiSoft SANDRA 2010: questa suite di benchmark sintetici ci offre un quadro specifico delle prestazioni di ogni componente disponibile all'interno della piattaforma di test come memorie, CPU, disco fisso e così via.

Grafica 3D

  • 3DMark06 (versione 1.1.0 Professional): ci permette di valutare le prestazioni grafiche 3D offerte dal sistema. Nel suo computo sono inclusi, in particolare, la CPU, la memoria di sistema ed il controller grafico.

  • World In Conflict (RTS): si tratta di uno strategico in tempo reale, che unisce a questo tipo di giochi una visuale simile a quella degli sparatutto in prima persona e che fa degli effetti particellari e della fisica le sue armi migliori.

  • Crysis: uno dei più indicativi titoli 3D DirectX 10 per effetti grafici e per l´utilizzo della fisica.

Utilizzo generico

  • PovRay (versione 3.6): il tool Persistence of Vision Raytracer (PovRay) permette di creare grafica tridimensionale di elevata qualità. Al suo interno troviamo una scena standard creata proprio per effettuare benchmark sulla CPU che sfrutta la maggior parte delle feature disponibili con questo software. Per rendere ripetibili i nostri test utilizziamo sempre le impostazioni di default del file .ini.

  • Cinebench (versione 10 e versione 11): suite di test multi-piattaforma basato sul software di animazione CINEMA 4D ampiamente utilizzato da studi e case di produzione per la creazione di contenuti 3D. Grazie ad esso possiamo valutare le performance del sottosistema CPU seppure l'influenza di chipset, memorie e scheda grafica installate nel sistema non può essere trascurata. Il software esegue un test di rendering capace di sollecitare uno o tutti i core del processore disponibili.

  • 7-Zip (versione 9.15 beta): con questo noto software di compressione dati eseguiamo due diversi benchmark. Il primo viene realizzato utilizzando il tool integrato che restituisce una indicazione sui MIPS (million instructions per second) che il sistema è in grado di offrire (potete confrontare i risultati ottenuti con quelli ufficiali e con quelli del vostro sistema). Il secondo invece prende in considerazione una situazione reale nella quale viene richiesto al sistema di comprimere in formato 7z una cartella da 5,36GB contenente 4.379 file di diversa dimensione e tipologia (immagini, testo, html, video, foto, applicazioni) e 536 sottocartelle e poi di decomprimere la stessa. L'operazione di compressione ha una forte dipendenza dalla memoria cache della CPU e dalla memoria RAM installata nel sistema. Quella di estrazione dipende molto, invece, dalla capacità della CPU di gestire le operazioni su interi. In tutti i casi, il software sfrutta abbastanza bene tutte le risorse (core) di CPU a disposizione.

  • Auto Gordian Knot (versione 2.55): software utile per effettuare backup di DVD o comunque operazioni di transcodifica video nei formati DivX ed XviD. Per le nostre prove utilizziamo il codec XviD che il tool installa di default ed eseguiamo il ripping di un completo DVD (Codice Swordfish) che per l'occasione abbiamo memorizzato su un disco fisso e lo "comprimiamo" in modo da farlo entrare su due CD.

  • Handbrake (versione 0.9.4): un software di transcodifica video open-source multipiattaforma e multithreaded con il quale effettuiamo una conversione video di un intero DVD (Codice Swordfish) in formato adatto per i dispositivi Apple iPod, iPhone e iPad.

  • DaCapo (versione 9.12): questa suite di benchmark permette di valutare il comportamento del sistema quando si utilizzano tool di sviluppo per Java. Esso include tutta una serie di applicazioni reali open source fra cui Tomcat, FOP, Eclipse, Batik, Xalan e altri. Nel nostro caso riportiamo il tempo complessivo necessario all'esecuzione di tutti i test.

 


 

Unità di calcolo, cache e memoria

Analizziamo le prestazioni per singolo core attraverso benchmark specifici non in grado di sfruttare ambienti multi-threaded. Questi benchmark servono non per individuare un indice di prestazioni generiche - visto che ad oggi tutti i software (o almeno la maggior parte) è ottimizzata per lavorare su CPU multi-core - bensì per comprendere meglio le peculiarità di una architettura rispetto ad un'altra ed i casi in cui una maggiore frequenza di funzionamento oppure una differente dotazione di cache possa influire sulle prestazioni.

Science Mark, con i suoi algoritmi Molecular Dynamics e Primordia risulta essere un ottimo indicatore di come vanno le cose considerando un singolo core delle CPU in esame.

 

Le prestazioni single-core delle nuove APU basate su Trinity, stando a quanto riportano i due benchmark di Science Mark, risultano essere notevolmente peggiorate rispetto a quelle di Llano. I tempi impiegati dal modello A8-3850 nell'esecuzione di Primordia e Molecular Dynamics sono inferiori a quelli necessari sia al modello A8-5600K che a quello A10-5800K. E questo nonostante le frequenze di funzionamento siano nettamente in favore di queste ultime che tra l'altro dispongono anche di tecnologia Turbo.

 

Prendendo invece la CPU nel suo complesso, e dunque le prestazioni "raw" derivanti da tutti i core, la situazione migliora: questa volta i numeri dell'A10-5800K sono ben superiori rispetto a quelli dell'A8-3850, e risultano essere mediamente vicini a quelli di una Core i3-2100. Il modello A8-5600K sono leggermente inferiori.

 

Il problema principale in termini di performance pare sia legato più ai calcoli sulle unità multimediali che fanno uso del blocco Floating Point condiviso fra i due core di ogni modulo. Se in precedenza l'A8-3850 era battuto, con questa serie di benchmark le nuove APU tornano un gradino al di sotto di esso. Il Core i3-2100 e così il più vecchio Core i5-750 sono comunque nettamente battuti.

 

Un ulteriore ed importante aspetto da valutare riguarda quello del canale di comunicazione fra i core. Stando a quanto rilevato dai benchmark specifici del SiSoft SANDRA, la banda dati è simile a quella delle APU di precedente generazione mentre la latenza è notevolmente superiore, mettendo ancor più in risalto alcune delle problematiche che hanno fatto parte della storia di AMD negli ultimi anni.

 

La banda dati misurata sul controller delle memorie denota valori leggermente migliori di quelli delle APU di precedente generazione. Quel che preoccupa, però, è che la banda sia inferiore a quella delle CPU di casa Intel nonostante i moduli utilizzati siano impostati ad una frequenza di funzionamento di ben 1866MHz, più elevata dei 1333MHz del Core i7-2600K (e di tutti i modelli Sandy Bridge provati) e anche dei 1600MHz del Core i7-3770K Ivy Bridge.

 

I numeri di Science Mark circa le memorie, denotano addirittura una situazione peggiorativa rispetto a quella già vista con il SiSoft SANDRA.

Viste queste premesse, analizziamo le prestazioni che queste due CPU riescono a fornire quando sfruttate a dovere con applicazioni multi-core.

 

Fritz Chess è un engine di simulazione del gioco degli scacchi capace di sfruttare al massimo ambienti multi-threaded. Come si nota dai risultati le elevate frequenze di funzionamento e la tecnologia Turbo Core non riescono a supplire alle mancanze in termini di IPC e di gestione della cache / comunicazioni intercore: le prestazioni sono inferiori a quelle di una APU A8-3850 anche se, nonostante tutto, riescono a restare al di sopra di quelle di un Core i3-2100 dual-core.

 

Vanno molto meglio le cose con  gli algoritmi di crittografia, denotando ancora una volta un comportamento tipico dell'architettura di AMD di ultima generazione. In questo caso le nuove APU risultano davvero eccezionali riuscendo ad insidiare addirittura il top di gamma della famiglia Intel Ivy Bridge.

 

Ottimo anche il comportamento del modulo di accelerazione AES che permette alle APU A10-5800K e A8-5600K di raggiungere una banda di 1,8GB/s e 1,7GB/s rispettivamente. Il confronto con le APU di precedente generazione non regge perché queste ultime non avevano alcun sistema di supporto specifico a tali istruzioni.

 

 


 

Llano vs Trinity: a parità di clock

Prima di addentrarci nei test specifici veri e propri, vogliamo cercare di comprendere più da vicino l'efficienza dell'architettura Trinity attraverso un confronto con Llano a parità di clock. Le due architetture condividono anche la medesima dotazione di cache e l'architettura quad-core.

I tempi necessari all'esecuzione di pesanti algoritmi di calcolo per nulla ottimizzati per architetture multi-core mette pesantemente in luce le basse prestazioni di Trinity. Il vantaggio di Llano alla stessa frequenza di funzionamento è abissale!

 

Lo stesso accade anche quando utilizziamo la APU per una operazione di rendering con PovRay 3.6 (anche questa applicazione single-threaded).

 

Purtroppo le cose non vanno molto meglio nemmeno con software come Cinebench 10. A parità di clock, Llano riesce a fornire prestazioni più elevate sia in modalità single-CPU che multiple-CPU.

 

Con TrueCrypt (algoritmo Serpent, non accelerato) il commento è ancora lo stesso.

 

E ancora con Handbraje siamo a riportare il vantaggio di Llano quando Trinity funziona alla stessa frequenza.


 

Rendering e compressione

I software di rendering sfruttano sia le risorse grafiche che quelle di CPU, pertanto risultano un ottimo metodo di misurazione delle loro prestazioni. Prendiamo in considerazione, nel nostro batch di prove, PovRay e Cinebench 10.

 

Il tempo di rendering impiegato con PovRay (versione 3.6, single-threaded) è molto interessante ma soprattutto decisamente migliore di quello delle APU Llano tanto che il modello A10-5800K riesce a completare l'operazione in un tempo inferiore a quello del fratello maggiore FX-8150 basato su Bulldozer.

 

Cinebench 10 mostra una situazione quantomeno singolare: prendendo a riferimento i modelli A8-3850 e A10-5800K le prestazioni multiple CPU del nuovo arrivato sono migliori di circa il 7%. Quelle single CPU, invece, mostrano un incremento superiore al 25%, andando a scontrarsi con quanto avevamo notato ed affermato sinora

 

I risultati ottenuti con Cinebench 11 mettono in luce che AMD sta sempre aggirandosi sugli stessi lidi: le nuove APU offrono prestazioni vicine a quelle dei modelli di precedente generazione non permettendo così di osservare alcun avanzamento sostanziale di posizioni.

 

Con 7-zip ci troviamo ancora una volta di fronte ad un miglioramento delle performance rispetto alle APU di prima generazione. Il vantaggio accumulato non permette comunque ai modelli Trinity top di gamma di guadagnare posizioni pur riuscendo a mantenersi a debita distanza da Core i3-2100 e Core i5-750.

Per testare le potenzialità del core grafico integrato quando utilizzato con applicazioni non legate alla grafica 3D ma che invece sfruttano le API OpenCL, abbiamo utilizzato WinZip che dalla versione 16.5 integra proprio il supporto a tale standard.

 

winzip

 

La rilevazione è stata effettuando misurando i tempi di compressione ed estrazione della nostra cartella di test da circa 5GB.

 

Come si può notare dal grafico i tempi di estrazione restano all'incirca gli stessi (anzi rileviamo un paio di secondi "di troppo"), mentre quelli di compressione subiscono una bella limata, pari esattamente a 30 secondi (uno sconto del 22% circa).

 


 

Codifica video

I software di codifica video permettono di stressare notevolmente i sottosistemi CPU e memorie, dunque niente di meglio per valutare le performance dei diversi processori.

 

La riduzione dei tempi di transcodifica video con il software Mainconcept e codec H.264, rispetto alle APU Llano, è molto interessante e tale da porre i nuovi processori "Trinity based" mediamente alla pari con le rivali Intel Core i3 Sandy Bridge e non troppo distanti da mostri sacri come l'FX-8150 e ed il Core i5-2500K.

 

Buono il vantaggio accumulato rispetto a Llano nelle operazioni di transcodifica con Auto Gordian Knot. Questa volta le nuove APU riescono a raggiungere quasi i tempi delle CPU FX-8150 e Core i7-2600K.

 

Le prestazioni ottenute con il software Handbrake confermano quello che abbiamo visto sinora, ovvero una buona risposta delle nuove APU basate su Trinity seppure non ancora del tutto convincente. A migliorare la situazione ci pensa una versione ottimizzata OpenCL di questo software la quale sfrutta sia la potenza dei quattro core x86 che quella della iGPU. I risultati sono sì migliorativi ma, ancora una volta, non di certo eclatanti.

 


 

Produttività e sviluppo software

Le CPU sono utilizzate non solo per codificare video in diversi formati o comprimere dati ma anche con applicazioni di produttività come quelle del pacchetto Office o editor di immagini e così via.

 

Il test di produttività del PCMark Vantage fornisce una buona indicazione di quel che accade con simili scenari: l nuove APU riescono a conquistare una buona posizione mettendosi giusto al di sotto del Core i5-2500K.

 

Il comportamento con applicativi di sviluppo software è invece solo leggermente migliore di quello offerto dalle APU Llano.

 


 

Prestazioni del core grafico

AMD continua a porre fortemente l'accento sulle prestazioni della iGPU predsente in Trinity e lo fa a ragione. Basta guardare i numeri che abbiamo ottenuto da essa per rendersene conto specie se li si confronta con quelli dio altre GPU integrate ma anche modelli discreti entry level e dal computo globale non si escludono le feature supportate.

 

Nonostante la pesantezza di Stalker COP, eseguito con le impostazioni di qualità al massimo ma senza filtri di AA, è ben digerito dal core grafico integrato nella APU A10-5800K che surclassa anche una scheda grafica discreta come la GeForce GT 430. Bene anche il modello A10-5600K seppure salendo alla risoluzione di 1680x1050 la giocabilità viene meno. Il distacco rispetto alle APU Llano è sensibile mentre per tutti gli altri chip grafici integrati non c'è nulla da fare!

 

Il più leggero The Last Remnant (impostazioni qualità al massimo, no AA, DX9) non costituisce problema alcuno per queste nuove APU che ancora una volta riescono a fare quanto o di più di una GT 430.

 

Imbattibili in Far Cry 2 (impostazioni qualità al massimo, no AA, DX10), titolo con il quale le due APU A10-5800K ed A8-5600K non temono rivali, nemmeno fra le VGA discrete entry level come GeForce GT 430 e Radeon HD 6570.

 

Ottimo il comportamento con Devil May Cry (impostazioni qualità al massimo, no AA, DX10) ove si nota che un netto miglioramento rispetto alle APU Llano tale da permettere il sorpasso della VGA discreta GeForce GT 430 (ma non della Radeon HD 6570).

 

Alien vs. Predator (impostazioni qualità medie, no AA, DX11), nonostante le sue richieste, può essere giocato anche con queste APU, a patto d non spingere troppo sulla risoluzione. La GeForce GT 430 non riesce a stare assolutamente al passo mentre la Radeon hd 6570 è non troppo distante.

 

Anche se Lost Planet 2 (impostazioni qualità al massimo, no AA, DX11) è impossibile da gestire se non si riducono livello di qualità e risoluzione di schermo, è vero che queste nuove APU riescono a stupire battendo sonoramente anche la Radeon HD 6570 o, nel caso del modello A8-5600K, fornendo prestazioni simili.

 


 

Consumi

Uno dei campi di sfida più importanti del nostro secolo sembra essere quello della riduzione dei consumi o meglio dell'incremento dell'efficienza energetica. Appare dunque scontato tenerne conto nelle nostre valutazioni. Seguono le misurazioni effettuate sull'assorbimento dell'intero sistema sfruttando il solo core grafico integrato (senza VGA esterna), in quattro diversi scenari.

 

In modalità IDLE (solo desktop 2D attivo) i consumi sono stati migliorati, non solo grazie alle APU ma anche al nuovo chipset ed alle schede madri di recente adozione. Un sistema con APU A8-5600K riesce così a consumare, quando il sistema non sta facendo nulla se non mostrare il desktop e tenere accese le sue funzioni vitali, meno di 50W.

 

Avviando WPRIME che mette sotto torchio i core x86 delle CPU, la barra dei consumi si alza e questa volta le nuove APU vanno anche oltre i consumi di un Core i7-3770K (miracoli del processo produttivo a 22nm di Intel per quest'ultimo). Ciononostante, l'A10-5800K si ferma 10W al di sotto del modello A8-3850.

 

Se invece è il core grafico ad essere messo maggiormente stimolato, le nuove APU consumano anche più di quelle di precedente generazione. Situazione attesa vista la maggiore complessità del modulo iGPU.

 

Infine, se tutte le parti della APU sono messe sotto pressione, il sistema con l'A10-5800K raggiunge un assorbimento complessivo di ben 170W, superiore anche a quello del Core i7-3770K e dell'A8-3850.

 


 

Analisi efficienza Turbo Core 3.0

Le nuove APU AMD basate su Trinity dispongono di tecnologia Turbo Core 3.0 che abbraccia sia il modulo CPU che quello iGPU. Queste tecniche per incrementare le prestazioni senza dover prevedere i consumi massimi in maniera statica sono sempre state al centro dell'attenzione degli appassionati con un rapporto di amore / odio.

Per provarne l'efficacia l'abbiamo disattivata attraverso l'utility AMD OverDrive (AOD) che permette di eseguire l'operazione con la semplice spunta di un check. In aggiunta abbiamo impostato la frequenza di funzionamento della iGPU al valore fisso di 633MHz per evitare il boost verso gli 800MHz.

 

 

 

Come c'era da aspettarsi, la tecnologia Turbo offre degli incrementi prestazionali tangibili un po' in tutti i casi ma visibili soprattutto con applicazioni single-threaded.

tc-3dm11

Buono il vantaggio che si ottiene con i benchmark 3D ad opera della tecnologia Turbo.

 


 

Overclock e temperature

Se le prime APU sono arrivate quasi completamente sprovviste di supporto all'overclock, introdotto poi solo in un secondo momento da AMD con i primi modelli serie "K", la nuova generazione di processori A-Series basati su Trinity include sin da subito modelli che strizzano l'occhio agli overclockers. In particolare l'A10-5800K e l'A8-5600K che abbiamo sul nostro banco di prova dispongono entrambi di moltiplicatore sbloccato grazie al quale abbiamo potuto apportare modifiche alle loro frequenze di funzionamento passando sia attraverso il BIOS che attraveso l'AMD OverDrive. Le prove sono state effettuate disattivando il Turbo Core, agendo sulla tensione della CPU e su quella dell'NB che influisce sulla tensione della iGPU.

Seguono i risultati ottenuti con il modello A8-5600K che ha raggiunto la frequenza di 4,6GHz applicando una tensione massima di 1,65V.

 

Il modello A10-5600K ha raggiunto la frequenza di 4,7GHz applicando ancora una tensione massima di 1,65V.

 

Le temperature operative di queste APU, nonostante il processo produttivo non sia dei più avanzati oggi disponibili, restano comunque entro limiti molto accettabili. Utilizzando il dissipatore stock di casa AMD i valori registrati (TA = 21°C) sono state pari a 32°C in IDLE (Windows Desktop dopo un'ora di funzionamento) e 44°C a seguito di una sessione di benchmark con Cinebench 11.5.

 

 

 


 

Conclusioni

Tirare oggi le conclusioni di questo articolo riporta alla mente le considerazioni fatte all'epoca di Bulldozer e Llano. Tutto sommato ci troviamo di fronte ad una architettura molto interessante per le potenzialità che sulla carta essa potrebbe esprimere ma il punto centrale resta sempre lo stesso: AMD non riesce (o non vuole) spingere sulle prestazioni dei core x86 tanto che più di un avanzamento rispetto a Llano, Trinity da questo punto di vista è un passo indietro.

Le rilevazioni fatte impostando la frequenza di Trinity agli stessi valori di quelle del modello A8-3850 "Llano" non sono un esperimento puramente teorico ma dimostrano che l'architettura in sé non offre vantaggi intrinsechi. Come dire che forse sarebbe stato meglio ottimizzare Llano per cercare di tirar fuori da esso maggiori frequenze di funzionamento e dunque prestazioni superiori. Detto ciò, prese alle loro frequenze di funzionamento di default, mediamente le APU Trinity riescono a fornire un discreto vantaggio rispetto a Llano in quasi tutte le applicazioni testate.

Trinity va comunque considerata anche nella sua veste di traghettatrice: dalla più tradizionale architettura x86 si passa ad una a risorse condivise ed i passaggi si sa, non sono mai gratuiti. Questo scotto prestazionale pagato da AMD potrebbe essere sufficiente a creare le basi per una ripartenza delle future soluzioni, più ottimizzate, realizzate con processi produttivi più avanzati e dunque capaci di offrire un'efficienza superiore.

Non possiamo limitarci però a parlare di core x86 quando questi sono divisi a metà con una potente GPU integrata. Fiore all'occhiello di tutta l'offerta AMD, questa si basa su un'architettura molto efficiente e potente capace in taluni casi di far meglio anche di VA discrete di fascia bassa. Una situazione che finora avevamo solo sfiorato mentre oggi registriamo effettivamente un sorpasso.

Le differenze con le GPU integrate della rivale Intel si consumano non solo nelle prestazioni decisamente superiori, ma anche in un'offerta di feature da VGA di "serie A". Supporto per DirectX 11, OpenCL, Eyefinity per pilotare fino a 4 display contemporaneamente (utili più nella gestione di applicazioni desktop che con giochi 3D), supporto dual VGA e driver unificati sono esattamente le stesse feature di una Radeon HD 7970!

Oltre alle ottimizzazioni ed ai miglioramenti lato hardware, AMD sta portando avanti accordi con software house per agire anche sui prodotti software. Tale lavoro sta portando all'inclusione di versioni ottimizzate OpenCL di strumenti più o meno noti, pratica sicuramente da premiare ma che oggi non offre i vantaggi attesi sulla carta. Probabilmente possono sussistere condizioni ideali di applicazione (ad esempio con Handbrake non tutte le transcodifiche sono ottimizzate allo stesso modo) che regalano maggiori soddisfazioni ma l'utente è alla ricerca di qualcosa che in maniera trasparente gli offra prestazioni superiori.

Dal punto di vista dei consumi siamo mediamente su livelli superiori a quelli di Llano, cosa che viste le maggiori prestazioni sia del modulo x86 che di quello VGA è accettabile. Le temperature restano invece su valori molto interessanti anche utilizzando un dissipatore di fascia media. Interessante anche l'overclock raggiunto con dissipatore ad aria che ha portato le APU a funzionare stabilmente fino alla frequenza di 4,7GHz.

I prezzi di vendita consigliati al pubblico sono pari, per i modelli da noi provati, a 122 dollari (A10-5800K) e 101 dollari (A8-5600K). A nostro avviso si tratta, nonostante tutto, di ottimi prezzi per avere un prodotto che offre prestazioni sufficienti in tutti i campi e potrebbe essere utilizzato nella realizzazione di sistemi a basso costo (ma non per questo a basse prestazioni), sistemi HTPC (grazie al modulo UVD integrato con supporto per la decodifica video), piccole postazioni tutto-fare in grado di supportare l'utente anche nelle ore di svago con videogame di vecchia e nuova generazione.

 

cheatsheet

Dino Fratelli e Michele Carasia