Arhitectura nvidia Kepler

Da vina - ca de obicei la elaborarea de noi standarde tehnologice - randamentele scăzute ale cristalelor produse prin utilizarea procesului de 28 nm, care este dificil de a oferi fără îmbunătățiri semnificative arhitecturale și, ca o consecință, crește performanța per watt. Suferit de acest lucru și principalul rival NVIDIA, compania AMD, care a trebuit să fie reabilitat după procesoare nu prea de succes desktop de debut FX. Cu toate acestea, spre deosebire de NVIDIA, un concurent din Sunnyvale a reușit încă să se înregistreze în istorie ca o companie, a lansat primul produs grafic folosind tehnologia procesului de 28-nm.

concurență cu AMD

Schița Radeon HD 7970 AMD

NVIDIA GeForce GTX 580

NVIDIA pentru a oferi pe piață

De ce «Kepler»?

NVIDIA a adoptat o strategie pentru a da numele marilor oameni de știință și inventatori de tehnologii și a produselor lor. De exemplu, procesoare grafice profesionale paralele capabile de a înlocui clusterului atunci când marile calcule de capacitate sunt numite secolul XX om de știință ingenioasă Nikola Tesla. Cred că toată lumea este conștientă de originea numelui arhitecturii Fermi. În sine pentru o companie publică, a cărui stare este NVIDIA, este mai mult ca un marketing și responsabilitate ideologică.

Apropo, și arhitectura viitorului dezvoltat de NVIDIA și care, conform programului prezentat de NVIDIA Corporation, transferat într-un viitor incert, va purta și numele cercetătorului - fizician britanic și matematician James Clerk Maxwell.

Dispozitiv NVIDIA Kepler GK104 cip

Potrivit NVIDIA Kepler ar fi arhitectura și soluție GTX 680 - cea mai eficientă energetic din faptul că societatea a produs vreodată, care, cu toate acestea, nu este surprinzător.

Dimensiunea cristalului este de 294 mm 2. Pentru comparație, o arhitectură cip Flagship Fermi GF110 - 520 mm 2 în timp ce AMD Radeon HD 7970- 365 mm2, care este de aproximativ 24% mai mare. Când acest cristal va potrivi 3,54 3,5 miliarde de tranzistori produse prin procesul de 28 nm prin TSMC, în timp ce numărul celor ale numerelor întregi Radeon 4.31 miliarde.

Kepler GK104 cip este echipat cu interfață PCI Express 3.0, care oferă teoretic dublu lățime de bandă în comparație cu cea de a doua versiune. Ea poartă, de asemenea: unitatea de control al fluxului (GigaThread motorului), cache-al doilea nivel, precum și 8 multiprocesor de streaming SMX, care sunt combinate în perechi în blocuri GPC (Graphics Processing Cluster). Fiecare unitate cuprinde GPC rasterizare. În general, fiecare GPC reprezentând 8 transportoare raster (POR) și un controler de memorie.

Compara NVIDIA GPU: GT200 (Tesla), GF110 (Fermi) și GK104 (Kepler)

Interfața de memorie pentru necunoscut, cele mai multe de marketing, motivele care a fost redus de la 384 biți la 256. Dar, în aceeași frecvență ar putea crește cu aproape jumătate, la 6 GHz, și pentru a compensa această lățime de bandă, comparativ cu GF110. Frecvența de bază a crescut cu 30%, iar nivelul maxim de putere este redusă la 195 W, m. E. 20%. performanțe de vârf teoretică pentru operațiuni cu virgulă mobilă a crescut de aproape 2 ori - până la 3090 Gflops (noi spunem încă câteva cuvinte de mai jos). Dar poate cea mai semnificativă îmbunătățire în noul cip - este de a crește numărul de nuclee CUDA de 3 ori! NVIDIA a fost criticat pentru o restante mare de AMD pe acest indicator.

SMX dispozitiv de streaming multiprocesor

SMX de streaming multiprocesor

Acum, o privire mai atentă la multiprocesor de streaming SMX. În primul rând, punctul culminant este de două ori mai eficient în comparație cu utilizate în Fermi, unitatea de procesare a geometriei - PolyMorph motorului 2.0. Desigur, prezenta cache de instrucțiuni, texturile cache unificat cache și 64 KB cache primul nivel. Scheduler 4 (Warp Scheduler) și 8 de control blocuri (Unitatea de expediere) interacționează prin intermediul fișierului registru cu 192 sâmburi Cuda 32 blocuri de încărcare / descărcare LD / date ST 32 și SFU-unități care îndeplinesc funcții matematice specifice. Numărul de SFU în SMX a crescut de 8 ori în comparație GF110 (Fermi)! Streaming multiprocesor 16 include, de asemenea, blocuri de textură, care este de două ori numărul dat în Fermi.

Comparația Fermi Kepler și unități de calcul

In general, cipul poate spune că mărimea SMX (în masă - «polimorfă») a crescut semnificativ în comparație cu Fermi, în timp ce numărul total de multiprocesoarele flux redus la jumătate. În principal din cauza unei creșteri cantitative a numărului de unități de execuție, performanța teoretică a cip este crescut de până la două ori.

performanță GK104

Pentru a studia cipul GK104 de performanță, să aruncăm o privire la cele mai interesante rezultatele testelor efectuate cu site-ul colegi www.brightsideofnews.com.

CPU - Intel Core i7-3960X

Plăci de bază - Gigabyte GA-X79-UD7 (PCIe 3.0)

RAM - 16 GB cu patru canale Kingston HyperX 1600MHz

Subsistemul disc - SSD Patriot Pyro 120GB și 600GB HDD Velociraptor

Unitatea de alimentare cu energie - Thermaltake Toughpower XT Aur 1475 W

In 3DMark 11 de referință GTX 680 excelează pierde ușor GTX dual-GPU 590 numai Fermi și modurile Extreme Perfomance și până la 20% mai mare decât HD 7970, permițând acestuia abordare numai în modul Extreme.

rezultate ceva mai bună în calculele de GK104 dublă precizie arată atunci când se lucrează la OpenCL.

Criptografia - în mod evident, nu este un punct forte Kepler.

Cu toate acestea, rezultatele au OpenCL dramatic diferite: da în tocare, GTX 680 este mai mare de 4 ori mai mare decât de criptare pilot AMD.

AMD Radeon HD 7970 surclasează concurența cu 36%, în redarea unică precizie, și mai mult de 6 ori în redarea cu un pat dublu.

Kepler, exemplul GTX 680 este semnificativ inferior în această componentă nu numai Fermi, dar soluțiile AMD clasa de jos. Este demn de reamintit faptul că acceleratorii grafice profesionale, cel mai probabil, va avea aceeași arhitectură ca și GTX 680. Se speră că profesioniștii NVIDIA din magazin o surpriză plăcută în formă, probabil, de orice unități speciale activate în acceleratoare serie profesională.

Noile tehnologii de netezire și de sincronizare pe verticală

Nu am putut ignora noi algoritmi de imagine netezirea prezentate în arhitectura NVIDIA Kepler. Netezirea FXAA (F ASAT Aprox Imate A NTI-A asigura legătura) 3, așa cum se vede în comparație cu MSAA 4, oferă o calitate mult mai realistă a imaginii, și de asemenea, funcționează la NVIDIA asigurat cu 60% mai repede decât acesta din urmă.

TXAA algoritm este de mare interes în ceea ce privește calitatea raportului / performanta.

NVIDIA este că poziționarea ca o calitate mai mare decât oricare dintre algoritmii MSAA și mai puțin consumatoare de resurse.