CPU-Architektur erklärt

Technologie der Intel-Core-Prozessoren Sandy- und Ivy-Bridge

Moderne x86-Prozessoren bieten eine hohe Leistung bei minimaler Leistungsaufnahme. Wir erklären, mit welchen Tricks Intel diesen Spagat bei den Core-Prozessoren der Sandy- und Ivy-Bridge-Generation schafft.

Sandy Bridge und Ivy Bridge: Wir erklären die Architektur der aktuellen Intel-Core-Prozessoren.

© Hersteller/Archiv

Sandy Bridge und Ivy Bridge: Wir erklären die Architektur der aktuellen Intel-Core-Prozessoren.

Bei der Entwicklung neuer Prozessoren folgt Intel seit 2007 der Tick-Tock-Strategie: Ein neuer Fertigungsprozess mit kleineren Strukturen (Tick) und eine neue Prozessorarchitektur (Tock) wechseln sich ab. Der 2008 eingeführte 45-Nanometer-Core-i7 (Nehalem) war die letzte neue Architektur, gefolgt von einem Wechsel auf 32 Nanometer mit Westmere im vergangenen Jahr.

Mit der 32-Nanometer-CPU Sandy Bridge war 2011 wieder eine neue Architektur an der Reihe. In einigen Teilen ist die Sandy-Bridge-Architektur eine Weiterentwicklung von Nehalem, andere Elemente erinnern an den Pentium 4, wieder andere sind komplett neu.

Die wichtigste Neuerung war die integrierte Grafikeinheit. Der Vorgänger Westmere bestand noch aus zwei über QPI verbundenen Chips auf einem gemeinsamen Prozessorgehäuse: dem eigentlichen 32-nm-Core und einem 45-nm-Chip, der den Speichercontroller und die Grafikeinheit enthält.

Sandy Bridge: CPU mit Kreisverkehr

hardware, intel, prozessor

© Hersteller/Archiv

Bei Sandy Bridge ist die Grafik mit auf dem Die integriert. Die Kommunikation der verschiedenen Einheiten läuft über einen Ring-Bus.

Bei Sandy Bridge bilden die Prozessorkerne und die GPU eine Einheit. Der Speichercontroller und der Displaycontroller sind bei Sandy Bridge Bestandteile des so genannten System Agents. Die Verbindung zwischen den bis zu vier Kernen, dem segmentierten Last-Level-Cache und dem System Agent stellt ein Bus her, der aus vier Ringen (Request, Snoop, Acknowledge und Data) besteht und mit Core-Taktfrequenz operiert.

Der Ring-Bus erlaubt nicht nur einen schnelleren Datenaustausch zwischen den Kernen und der GPU, sondern ein leichteres Redesign als die bisher übliche Crossbar-Verbindung, etwa für das Hinzufügen zusätzlicher Kerne. Einen ähnlichen ringförmigen Bus hat Intel bereits bei den Server-Prozessoren Nehalem-EX und Westmere-EX sowie beim Grafikchip Larrabee eingesetzt, der allerdings nie Serienreife erlangte. Auch beim in der Sony PS3 eingesetzten Cell-Prozessor kommunizieren die einzelnen Kerne über ein Ring-Interface.

Der Last-Level-Cache, aus Sicht der CPU-Kerne ein Level-3-Cache, ist bei Sandy Bridge je nach Modell bis zu 8 MByte groß. Im Gegensatz zu Nehalem oder Westmere arbeitet er mit der vollen Taktfrequenz der Prozessorkerne. Die einzelnen Segmente des LLC sind den einzelnen Kernen zugeordnet, können aber von allen CPU-Cores und der GPU adressiert werden.

Cleverer Cache und Advanced Vector Extensions

hardware, intel, prozessor

© Hersteller/Archiv

Die Grafikeinheit ist bei Sandy Bridge nun auf den 32-nm-Die gewandert und profitiert mit vom Last-Level-Cache.

Der Ring-Bus bringt mehr Flexibilität für Intel, er allein macht den Prozessor aber nicht schneller. Dafür sind andere Architekturmerkmale bei Sandy Bridge verantwortlich. Eine Neuheit ist der Uop-Cache. Alle Intel-P6-Prozessoren seit dem Pentium Pro verarbeiten intern keine komplexen IA-32-Instruktionen, sondern einfache dekodierte Micro-Operations (Uops), die auf die verschiedenen Ausführungseinheiten verteilt werden und dort auch außer der Reihe verarbeitet werden können (out-of-order-execution).

Das Problem dabei ist, das Dekodieren so schnell zu erledigen, dass die Pipeline des Prozessors immer gefüllt bleibt, auch für moderne Prozessoren keine leichte Aufgabe. Daher hat Intel bei Sandy Bridge einen eigenen Cache für Uops implementiert. Intel geht dabei von einer Trefferrate von 80 Prozent aus, da bei Sandy Bridge zusätzlich auch noch die Sprungvorhersage verbessert wurde. Das Frontend mit den leistungshungrigen Decoder-Einheiten kann also die längste Zeit in Schlaf versetzt werden.

Der Uop-Cache erinnert auf den ersten Blick an den Trace-Cache des Pentium 4, der ebenfalls als Zwischenspeicher für decodierte Uops gedient hat. Allerdings hat der Trace-Cache bei der Netburst-Architektur den herkömmlichen L1-Instruktions-Cache komplett ersetzt. Bei einem Cache-Miss musste ein unterdimensioniertes Frontend die IA32-Instruktionen decodieren.

hardware, intel, prozessor

© Hersteller/Archiv

Neue Fixed-Function-Units steigern die Performance bei 3D-Operationen und beim Media-Transcoding.

Das brachte den Pentium 4 mit seiner langen Pipeline gehörig aus dem Tritt. Sandy Bridge verfügt dagegen über ein leistungsfähiges Frontend und zusätzlich über den extrem schnellen Uop-Cache, kombiniert also die Vorteile von P6- undNetburst-Architektur.

Eine weitere wichtige Neuerung für eine höhere Performance sind die Advanced Vector Extensions des SSE-Befehlssatzes. Sie sind vor allem für fließkommaintensive Applikationen wie Multimedia-Programme bestimmt und erweitern die Vektor-Register von 128 auf 256 Bit.

Dabei bleiben die AVX-fähigen Prozessoren kompatibel zu den bisherigen Befehlssätzen wie SSE4, die älteren SSE-Befehle werden einfach in den unteren 128 Bit der neuen Register ausgeführt. Sandy Bridge kann fast alle 256-Bit-AVX-Befehle in eine Uop dekodieren und ausführen. Das bringt bei angepassten Programmen fast eine Verdoppelung der Performance.

Um die Ausführungseinheiten auch mit genug Futter zu versorgen, mussten die Ingenieure bei Intel das Speicher-Subsystem verbessern. Sandy Bridge verfügt ebenso wie Nehalem und Westmere über drei Load-Store-Ports. Allerdings sind nun zwei davon symmetrisch ausgeführt. Damit kann die Speichereinheit nun drei statt nur zwei Datenzugriffe pro Takt bewältigen und so die Speicherbandbreite deutlich erhöhen. Den Zugriff auf den Hauptspeicher übernimmt ein DDR3-Controller mit zwei Speicherkanälen.

Intel Ivy Bridge: Viel Tick und etwas Tock

hardware, intel, prozessor

© Hersteller/Archiv

E ine schematische Darstellung eines herkömmlichen Planar-Transistors (links) und eines Tri-Gate-Transistors (rechts). Die Elektronen fließen hier über alle drei Seiten des Transistor-Gates.

Mit Ivy Bridge stand wieder ein Die-Shrink, also ein Tick an. Der Prozessor wird nun in einem 22-Nanometer-Prozess gefertigt und besteht zudem aus so genannten Tri-Gate-Transistoren. Bei diesen Tri-Gate-Transistoren werden die Gates über dreidimensionale Finnen aus Siliziumsubstrat gelegt, die Elektronen fließen über alle drei Seiten dieser Finnen statt wie bisher plan durch das Gate (Planar-Transistor).

Das erleichtert erst einmal den Bau kleinerer Transistoren, bringt aber auch Vorteile bei Performance und Leistungsaufnahme. Zudem können auf einem Transistor mehrere Finnen nebeneinander angeordnet werden, um die Performance zu verbessern.

Dabei ist es möglich, je nach Anwendungszweck Transistoren mit unterschiedlich vielen Finnen einzusetzen. Im Gegensatz zu AMD kommt Intel auch beim 22-Nanometer-Prozess noch ohne den kostspieligen Silicon-on-Insulator-Prozess aus, bei dem die Transistoren durch eine extrem dünne Isolationsschicht vom Silizium-Wafer getrennt sind, um Leckströme zu vermeiden.

Bei den 22-Nanometer-Tri-Gate-Transistoren sind diese trotz der herkömmlichen CMOS-Technologie gegenüber den 32-Nanometer-Planar-Transistoren um 50 Prozent reduziert, was die Leistungsaufnahme der aus diesen Transistoren aufgebauten Prozessoren drastisch verringert.

Tri-Gate erhöht durch höhere Ströme die Schaltgeschwindigkeit bei niedriger Spannung um 37 Prozent gegenüber den bisherigem 32-Nanometer-Transistoren, was gerade bei Low-Voltage-CPUs eine dramatische Leistungsverbesserung bringen kann. Allerdings ist die bei Ivy Bridge noch nicht im erwarteten Umfang spürbar, da dafür auch Architekturänderungen notwendig sind, die erst 2013 mit Haswell kommen, dem Core-Prozessor der vierten Generation.

Schnellere Grafik bei Ivy Bridge

hardware, intel, prozessor

© Hersteller/Archiv

Bei Sandy Bridge hat Intel erstmals eine leistungsfähige GPU mit auf der CPU integriert. Das ist vor allem für Ultrabooks wichtig.

Die Core-Prozessoren der Ivy-Bridge-Generation sind Sockel-kompatibel zu Sandy Bridge und laufen prinzipiell auch mit den Intel-Chipsätzen der Serie 6. Mit dem Ivy-Bridge-Nachfolger Haswell führt Intel wieder neue Sockel-Formate für Desktop- und Notebook-Prozessoren ein.

Da Intel durch die feineren Strukturen nun 1,4 statt 1,16 Milliarden Transistoren auf dem Die unterbringen kann, haben die Entwickler nicht nur den Level-3-Cache auf bis zu 12 MByte vergrößert, sondern auch noch einige Verbesserungen an der Architektur vorgenommen. Zu diesen zählen neue AVX-Befehle, vor allem aber Erweiterungen bei der integrierten Grafikeinheit.

Die in Ivy Bridge integrierte GPU verfügt über mehr Fixed-Function-Units als die im Sandy Bridge. Sie sind nötig geworden, da die GPU nun DirectX 11 sowie OpenGL 3.1 unterstützt und damit auch Funktionen wie Tesselation, also das Glätten eines Polygonmodells, und Displacement-Mapping, bei dem eine Textur mit Höheninformation versehen wird. Durch die Kombination beider Techniken können in 3D-Games in Echtzeit lebensecht erscheinende 3D-Modelle erzeugt werden.

Wie schon beim Vorgänger gibt es auch bei der Ivy-Bridge-Familie zwei unterschiedliche GPUs. In den Core-i3- undCore-i5-Desktop-CPUs steckt die HD 2500 mit wie bisher sechs Ausführungseinheiten, in den Core-5-K- und den Core-i7-CPUs sowie in allen Mobilprozessoren ist die HD4000 mit nun 16 statt 12 Ausführungseinheiten integriert.

Neu bei Ivy Bridge ist, dass nun die GPU einen eigenen 265 KByte großen Level-3-Cache bekommen hat, um so den Verkehr auf dem Ring-Bus zu begrenzen und so die 3D-Performance der neuen GPU weiter zu erhöhen. Die Caches in der GPU sind notwendig, da der direkte Zugriff auf den Arbeitsspeicher bei einer im Prozessor integrierten Grafik deutlich langsamer vonstatten geht, als bei einer diskreten Grafikkarte mit eigenem Speichercontroller und GDDR5 als Grafikspeicher.

Hier ist eine Speicherbandbreite von etwa 250 GByte/s möglich, beim DDR3-Arbeitsspeicher nur etwa 34 GByte/s. Die neuen GPUs unterstützen nun auch OpenCL-1.1. Bei Sandy Bridge müssen OpenCL-Befehle noch durch die für diese Aufgabe langsameren CPU-Kerne abgearbeitet werden.

Weiteres Feintuning haben die Intel-Entwickler bei Quick-Sync-Video investiert, die in der GPU integrierte Video-Encoding und Decoding-Funktion für H.264/MPEG-4 AVC, VC-1 und MPEG-2. Daher kann ein Ivy-Bridge-Prozessor mit entsprechender Software wie etwa Cyberlinks MediaEspresso Videos noch schneller umwandeln als eine Sandy-Bridge-CPU.

Turbo mit Nachbrenner

hardware, intel, prozessor

© Hersteller/Archiv

Beim Turbo-Boost-Modus wird die Thermal Design Power kurzfristig überschritten, um die Taktfrequenz zu erhöhen. Die maximale Frequenz hängt dabei von der Zahl der aktiven Kerne ab.

Intel hat bei Sandy Bridge und Ivy Bridge die Turbo-Boost-Technik zur dynamischen Übertaktung aller einzelnen Prozessorkerne jeweils noch weiter verfeinert.

So ist die GPU nun voll mit in das Jonglieren mit den Taktraten einbezogen. Beim Übertakten einzelner Kerne geht Sandy Bridge aggressiver vor als seine Vorgänger. Turbo Boost verbesserte bisher primär die Performance von Single-Threaded-Applikationen, bei Sandy Bridge beschleunigt diese Technik nun auch Programme die mehrere Threads nutzen.

Dabei wird die Thermal Design Power (TDP) bis zu 25 Sekunden überschritten, um in diesem Zeitraum alle Kerne mit höherer Taktrate zu fahren. Das erfolgt aber nur, wenn die CPU vorher in einem Sleep- oder Low-Power-Modus war und so eine Art thermales Guthaben aufgebaut wurde. Bei steigender Prozessortemperatur wird die Taktrate wieder gesenkt. Dieses kurzfristige Übertakten kann etwa das Starten von Programmen beschleunigen.

Haswell: Die Prozessor-Plattform für 2013

hardware, intel, prozessor

© Hersteller/Archiv

Mit der kommenden Haswell-CPU legt Intel bei der Grafikperformance noch ordentlich zu. Die GT3-Grafik der Spitzenmodelle verfügt dann über 40 Ausführungseinheiten.

Bei Haswell führt Intel wieder eine neue Prozessorarchitektur ein, als Fertigungsprozess wird die 22-Nanometer-Technologie von Ivy Bridge fortgeführt.

Intel hält bei Haswell am Ringbus fest, spendiert dem Prozessor aber eine zusätzliche vierte Integer-Einheit und vor allem eine verbesserte Sprungvorhersage und eine verdoppelte Bandbreite bei Zugriffen auf den Level-2-Cache. Zudem haben die Intel-Ingenieure Leistung und Funktionsumfang der integrierten Grafikeinheit noch einmal erhöht: Sie unterstützt nun DirectX 11.1, OpenGL 4.0 und vor allem auch OpenCL 1.2.

Bei Haswell gibt es nun drei verschiedene GPUs, die in verschiedenen Prozessormodellen eingesetzt werden: GT1, GT2 und GT3. Dabei sind GT1 und GT2 die Nachfolger der in Ivy Bridge integrierten HD 2500 und HD4000 mit etwas gesteigerter Leistung. Bei der GT3-Grafik wurde ein Großteil der Funktionseinheiten der GT2-Grafik verdoppelt. Damit werden DX11-Games auch in Full-HD flüssig spielbar sein. Werden die zusätzlichen Shader nicht benötigt, dann schaltet sie der Prozessor einfach ab.

Ein weiterer Bereich der Architekturverbesserungen bei Haswell betrifft die Leistungsaufnahme: Die CPU hat einen zusätzlichen Powermanagement-Modus namens Active Idle (S0ix), der die Leistungsaufnahme beim Nichtstun fast auf das Niveau von S3 absenkt, die CPU aber trotzdem ohne lange Aufwachzeit sofort bereit ist. Allerdings klappt das nur, wenn gleichzeitig Displays mit Auto-Refresh eingesetzt werden, die das Bild auch ohne ein Signal des Videoprozessors stabil halten.

Mehr zum Thema

Nach Haswell könnte ein 22-nm-Atom mit dem Codenamen Silvermont kommen.
Nach Haswell

Intel arbeitet Berichten zufolge an einer neuen Atom-CPU mit dem Codenamen "Silvermont". Die 22-Nanometer-CPU ist als "SoC" (System-on-a-Chip)…
Alle Infos und der Test: Haswell ist die vierte Generation der Core-CPUs von Intel.
Intels 4. Prozessor-Generation

Wir haben alle Infos zu Haswell, Intels vierter Prozessor-Generation. Dazu gibt es in unserem Ratgeber auch einen Testbericht zur Intel-CPU.
AMD vs. Intel: Was ist besser?
AMD vs. Intel

Mit dem FX-9370 will AMD im High-End-CPU-Segment wieder Fuß fassen. Wir lassen ihn im CPU-Vergleichsduell gegen Intels Hexacore-CPU Core i7-3930K…
Externe Festplatte im Eigenbau
How to

Sie haben eine interne Festplatte, aber keinen Platz in Ihrem PC? Machen Sei doch einfach eine externe HDD daraus!
Moore's Law könnte im Jahr 2020 nicht mehr aufgehen.
Moore's Law am Ende?

Nach Moore's Law verdoppelt sich die Rechenleistung von Prozessoren etwa alle 18 Monate. 2020 sollen jedoch physikalische und finanzielle Grenzen…