Neue Prozessorarchitekturen
Der Ring-Bus
- Sandy Bridge & Bulldozer
- Der Ring-Bus
- Intels Sandy Bridge
Cleverer Cache und Advanced Vector Extensions
Der Ring-Bus bringt mehr Flexibilität für Intel, er allein macht den Prozessor aber nicht schneller. Dafür sind andere Architekturmerkmale bei Sandy Bridge verantwortlich. Eine Neuheit ist der µop-Cache.
Alle Intel-P6-Prozessoren seit dem Pentium Pro verarbeiten intern keine komplexen IA-32-Instruktionen, sondern einfache dekodierte Micro-Operations (µops), die auf die verschiedenen Ausführungseinheiten verteilt werden und dort auch außer der Reihe verarbeitet werden können (out-of-order-execution).
Das Problem dabei ist, das Dekodieren so schnell zu erledigen, dass die Pipeline des Prozessors immer gefüllt bleibt - auch für moderne Prozessoren keine leichte Aufgabe. Daher hat Intel bei Sandy Bridge einen eigenen Cache für µops implementiert. Intel geht dabei von einer Trefferrate von 80 Prozent aus, da bei Sandy Bridge zusätzlich auch noch die Sprungvorhersage verbessert wurde.
Das Frontend mit den leistungshungrigen Decoder-Einheiten kann also die längste Zeit in Schlaf versetzt werden. Der µop-Cache erinnert auf den ersten Blick an den Trace-Cache des Pentium 4, der ebenfalls als Zwischenspeicher für decodierte µops gedient hat.
Allerdings hat der Trace-Cache bei der Netburst-Architektur den herkömmlichen L1-Instruktions-Cache komplett ersetzt. Bei einem Cache-Miss musste ein unterdimensioniertes Frontend die IA32-Instruktionen decodieren. Das brachte den Pentium 4 gehörig aus dem Tritt.
Sandy Bridge verfügt dagegen über ein leistungsfähiges Frontend und zusätzlich über den extrem schnellen µop-Cache, kombiniert also die Vorteile der P6- und der Netburst-Architektur.
Eine weitere wichtige Neuerung für eine höhere Performance sind die Advanced Vector Extensions. Sie erweitern die Vektor-Register von 128 auf 256 Bit. Dabei bleiben die AVX-Prozessoren kompatibel zu den bisherigen Befehlssätzen wie SSE4.
Sandy Bridge kann fast alle 256-Bit-AVX-Befehle in eine µop dekodieren und ausführen. Das bringt bei entsprechend angepassten Programmen fast eine Verdoppelung der Performance.
Um die Ausführungseinheiten auch mit genug Futter zu versorgen, mussten die Intel-Ingenieure das Speicher-Subsystem verbessern. Sandy Bridge verfügt ebenso wie Nehalem und Westmere über drei Load-Store-Ports. Allerdings sind nun zwei davon symmetrisch ausgeführt.
Damit kann die Speichereinheit jetzt drei statt nur zwei Datenzugriffe pro Takt bewältigen. Den Zugriff auf den Hauptspeicher übernimmt wie bei Westmere ein DDR3-Controller mit zwei Speicherkanälen.
Turbo mit Nachbrenner
Intel hat die Turbo-Boost-Technik zur dynamischen Übertaktung einzelner Prozessorkerne bei Sandy Bridge weiter verfeinert. So ist die GPU nun voll in das Jonglieren mit den Taktraten einbezogen. Arrendale, die Westmere-Mobilvariante, verfügte zwar auch schon über einen Grafik-Turbo, er war aber durch die räumliche Trennung von CPU-Kernen und GPU eingeschränkt.
Beim Übertakten einzelner Kerne geht Sandy Bridge aggressiver vor als seine Vorgänger, offenbar hat Intel den 32-Nanometer-Prozess sehr gut im Griff. Turbo Boost verbesserte bisher primär die Performance von Single-Threaded-Applikationen, bei Sandy Bridge wird diese Technik nun auch Multithreaded-Software kurzfristig beschleunigen, etwa beim Programmstart.
Dabei wird die Thermal Design Power bis zu 25 Sekunden überschritten, um alle Kerne mit höherer Taktrate zu fahren. Das erfolgt aber nur, wenn die CPU vorher in einem Sleep- oder Low-Power-Modus war und so eine Art thermales Guthaben aufgebaut wurde.