
c IBM
von Isabella Pridat
Zeitlicher Ablauf zum Vergleich – POWER9
Der POWER9 Chip (14nm, Globalfoundries) wurde im Sommer 2016 angekündigt und mit der AC922, für AI und Deep Learning, folgte im Dezember 2017 die erste IBM Maschine mit diesem Prozessor. Mit dem POWER9 Chip arbeiten seit 2017 u.a. die Supercomputer SUMMIT und SIERRA.
Im Frühjahr 2018 folgte die Ankündigung der sechs Power9 Scale-Out Server, im Herbst 2018 die der beiden Scale-up Enterprise Server – verfügbar wurden letztere Anfang 2019. Die bisher letzten “Solutions“ Server mit POWER9 Prozessoren wurden im November 2020 verfügbar.

Abbildung 1 zeigt eine Gruppe von IBM POWER10 7nm Prozessoren. Diese Wafer wird in einzelne Chips geschnitten, die als die individuellen „Gehirne“ der IBM Power Systems Server eingesetzt werden. Jeder einzelne Chip erzielt bis zur 3fachen Kapazität und Energieeffizienz gegenüber der letzten Generation. Ferner ermöglicht jeder Chip eine bis zu 20 Mal schnellere Schlussfolgerung im KI-Bereich, z.B. bei Machine Learning Inferencing.

Abbildung 2 zeigt IBM POWER10 7nm Prozessoren auf einer Silicon Wafer. Der Chip ist der erste kommerzielle 7nm Prozessor und seine Entwicklung bescherte IBM viele Patente. Das deutsche IBM Forschungs- und Entwicklungszentrum bei Stuttgart spielte bei der 5-jährigen Entwicklung des Prozessors eine wesentliche Rolle: Dazu gehörte die Gesamtverantwortung für die Prozessorverifikation und -validierung sowie den Logikentwurf verschiedener Prozessoreinheiten wie beispielsweise die Speicherverschlüsselung. Das Team war auch für den physikalischen Entwurf von Schaltungseinheiten und die Arrays verantwortlich. Der gesamte Design-Ansatz zielte darauf ab, Verschlüsselung, Leistung und einfache Integration in bestehende IT-Infrastrukturen zu gewährleisten.
Highlights von POWER10
Der POWER10 Chip soll gegenüber POWER9 ungefähr die 3fache Performance und einen 2,6fachen Effizienzzuwachs erzielen sowie eine Verbesserung der Workload-Kapazität und OpenShift-Container-Dichte des Prozessors um bis zu Faktor 31.

Abbildung 3
Memory Inception: Der neue Chip unterstützt Multi-Petabyte-Memory-Cluster und befähigt Programme, auf Speicher anderer Systeme, wie auf die eigenen Speicher zuzugreifen – das nennt IBM Inception Memory. William Starke, IBM, präzisiert: „Bei der Verwendung kurzer Verkabelung erfolgt dieser Zugriff mit einer zusätzlichen Latenz von nur
50 bis 100 Nanosekunden.“ Zum Vergleich: Bei Verwendung von RDMA geht es um Microsekunde(n). Die Architektur der „Distributed Memory Disaggregation“ ersehen Sie aus Abbildung 4.

Abbildung 4: Distributed Memory Aggregation and Sharing
Dank des Memory Clustering z.B. mit dem PowerAXON-Interface hat jeder Chip Zugriff auf die Speicher anderer Chips sowie auch auf die Speicher entfernter Prozessoren. Bei kurzer Anbindung der entfernten Systeme geschieht der Zugriff im Nanosekunden-Bereich. Zum Vergleich: NVIDIA NVlink erreicht Zugriffe im Millisekunde(n) Bereich.
IBM POWER ist seit langem technologischer Vorreiter bei der Unterstützung einer breiten Palette flexibler Implementierungen für hybride Cloud- und On-Premises-Workloads als Kombination von Hardware- und Softwarefunktionen. IBM POWER10 erhöht dies durch Pooling oder Clustering des physischen Speichers auf IBM POWER10-basierten Systemen in einer Vielzahl von Konfigurationen. Im Rahmen der neuen Technologie, Memory Inception, aufgrund derer jedes der IBM POWER10-basierten Systeme in einem Cluster auf den Speicher des jeweils anderen zugreifen und diesen gemeinsam nutzen kann, entstehen Speichercluster von mehreren Terra- oder Petabyte.
SMT4 und SMT8: Neben dem in Abbildung 4 gezeigten POWER10 Chip mit 15 SMT8 (Simultaneous Multi-Threading) Kernen gibt es auch Varianten mit SMT4.
Memory Encryption: Der POWER10 Prozessor ermöglicht neue hardware-unterstützte Sicherheitsfunktionen, einschließlich transparenter Speicherverschlüsselung (Memory encryption) zur Unterstützung der End-to-End-Sicherheit. Der IBM POWER10-Prozessor wurde entwickelt, um eine deutlich schnellere Verschlüsselungsleistung, einschließlich einer Vervierfachung der Anzahl der AES-Verschlüsselungs-Engines im Vergleich zu IBM POWER9 für die Standards von heute und zukünftige kryptographische Standards wie quantensichere Kryptographie und vollständig homomorphe Verschlüsselung (fully homomorphic encryption) zu erreichen. Auch neue Verbesserungen der Containersicherheit sind zu erwarten

Abbildung 5: POWER10 Prozessor Chip mit SMT8. Dieser 16 Kernel Chip (15 genutzt) hat einen I/O Durchsatz
von bis zu 1 Terabyte/Sekunde.
Neue Prozessorkernarchitekturen im IBM POWER10-Prozessor mit eingebettetem Matrix Math Accelerator, der extrapoliert wird, um – verglichen mit der IBM POWER9-Prozessor – 10x, 15x und 20x schnellere KI-Inferenzen (Schlußfolgerungen) für FP32-, BFloat16- und INT8-Berechnungen pro Socket zu liefern, KI in Geschäftsanwendungen zu integrieren und bessere Einblicke in die prozessierten Daten zu ermöglichen.
siehe Abb. 6

Abbildung 6 Im Vergleich zu POWER9 erzielt der neue Chip um ein Vielfaches schnellere KI-Inferenzen, z.B. für datenintensive ML-Methoden
IBM Research ist dabei eine Partnerschaft mit Samsung Electronics Co. Ltd. eingegagen, die seit mehr als einem Jahrzehnt im Bereich Forschung und Entwicklung läuft. Dazu zählte auch die Präsentation der ersten 7-nm-Testchips der Halbleiterindustrie durch die IBM Research Alliance.

Abbildung 7 IBM bietet wieder ein Single Chip Module (SCM) an – das hat sich bewährt. Für das Dual Chip Module hat IBM 2 POWER10 Prozessor Chips dort zusammengefasst, wo sonst nur ein POWER9 Prozessor Platz fand. Das bringt Vorteile für höchst anspruchsvolle Cloud Konfigurationen.

Abbildung 8

Abbildung 9 Das Open Memory Interface (OMI) ermöglicht eine Arbeitsspeichergröße von bis zu 4 Terabyte pro CPU-Socket.
Container: Um den neuen Sicherheitsaspekten im Zusammenhang mit der höheren Dichte von Containern Rechnung zu tragen, wurde IBM POWER10 darüber hinaus so konzipiert, dass er neue hardwareverstärkte Schutz- und Isolationsfunktionen für Container bietet, die gemeinsam mit dem IBM POWER10-Firmware Team entwickelt wurden. Sollte ein Container kompromittiert werden, ist der POWER10-Prozessor so ausgelegt, dass er verhindert, dass andere Container in derselben virtuellen Maschine (VM) von demselben Einbruch betroffen sind.
Ferner bietet IBM POWER10 den Benutzern eine dynamische Ausführungsregisterkontrolle, d.h. die Benutzer können Anwendungen entwerfen, die widerstandsfähiger gegen Angriffe bei minimalen Leistungsverlusten sind.
KI: Sowohl für Cloud-Nutzer, als auch für Anbieter, bietet Memory Inception das Potenzial, Kosten- und Energieeinsparungen zu erzielen, da Cloud-Anbieter mehr Kapazität mit weniger Servern anbieten können, während Cloud-Benutzer weniger Ressourcen zur Deckung ihres IT-Bedarfs mieten müssen.
Da KI in transaktionalen und analytischen Arbeitsabläufen zunehmend mehr in Geschäftsanwendungen eingebettet wird, wird die Nutzung von KI-Schlußfolgerungen (Inferenzierung) zu einem zentralen Bestandteil von Unternehmensanwendungen. IBM POWER10 bietet erweiterte In-Core KI-Inferencing-Fähigkeiten, ohne dass spezielle Hardware erforderlich ist.
Mit dem eingebetteten Matrix Math Accelerator soll der IBM POWER10-Prozessor 10x, 15x und 20x schnellere KI-Inferenz für FP32-, BFloat16- bzw. INT8-Berechnungen erreichen, um die Leistung für KI-Inferenz-Workloads in Unternehmen im Vergleich zu IBM POWER9 zu verbessern und Unternehmen dabei zu helfen, die von ihnen trainierten KI-Modelle in die Praxis umzusetzen. Mit dem breiten Portfolio an KI-Software von IBM soll IBM POWER10 dazu beitragen, KI-Arbeitslasten in typische Unternehmensanwendungen zu integrieren, um aus Daten aussagekräftigere Erkenntnisse zu gewinnen.
Mit für Red Hat OpenShift kooptimierter Hardware, werden IBM POWER10-basierte Server die Zukunft der Hybrid-Cloud liefern. Samsung Electronics wird den IBM POWER10-Prozessor herstellen und dabei die branchenführende Halbleiterfertigungstechnologie von Samsung mit den CPU-Designs von IBM kombinieren.


