Die Erweiterung des HLRS-Supercomputers durch neue HPE Apollo-Systeme mit Grafikprozessoreinheiten von NVIDIA ermöglicht sowohl Anwendungen aus dem Bereich des Deep-Learning als auch neue Arten von hybriden Rechenabläufen, die Höchstleistungsrechnen mit Big Data-Methoden kombinieren.
Der 2020 am HLRS in Betrieb genommene Supercomputer Hawk, ein Hewlett Packard Enterprise (HPE) Apollo-System, war schon in seiner ersten Ausbauphase einer der leistungsfähigsten Höchstleistungsrechner in Europa. In der aktuellen TOP500-Liste, die die schnellsten HPC-Systeme der Welt anhand der im sogenannten High-Performance Linpack (HPL) Benchmark erzielten Ergebnisse aufführt, liegt Hawk auf Rang 30.
Nach der Vertragsunterzeichnung mit HPE hat das HLRS seinen Supercomputer um 24 HPE Apollo 6500 Gen10 Plus Systeme mit 192 NVIDIA A100 GPUs, die sich auf die NVIDIA Ampere-Architektur basieren, ausgebaut. Die Erweiterung durch 120 Petaflops an KI-Rechenleistung ermöglicht es den HLRS-Nutzern, Anwendungen aus dem Bereich des Deep-Learning, der Hochleistungsdatenanalyse und der KI auf ein und demselben System durchzuführen, das sie schon vorher für ihre höchst anspruchsvollen, rechenintensiven Simulationen nutzten.
Durch diesen Systemausbau stehen den HLRS-Nutzern dreimal so viele NVIDIA-Prozessoren zur Verfügung, als ihnen vorher mit dem Cray CS-Storm-Rechner geboten wurden, der am HLRS für KI-Anwendungen genutzt wurde. Die Gesamt-Rechenleistung, die der HLRS-Nutzergemeinde für KI-Aufgaben verfügbar ist, wurde somit deutlich erweitert, was die Durchführung signifikant größerer Deep-Learning-Projekte ermöglicht.
Abbildung 1: Der Supercomputer Hawk wird erweitert.
„Unsere Mission am HLRS war es schon immer, sich optimal an den Bedürfnissen unserer Nutzer auszurichten, die primär aus dem Bereich der Computergestützten Ingenieurwissenschaften kommen,“ erklärt Professor Dr.-Ing. Michael M. Resch, Leiter des HLRS. „Viele Jahre lang hat das bedeutet, dass unser Flaggschiff-Rechner auf zentralen Prozessoreinheiten, auf CPUs, aufgebaut sein muss, da diese die Codes der höchst rechenintensiven Simulationen optimal nutzen. In letzter Zeit beobachten wir ein stetig wachsendes Interesse an Deep Learning und an Künstlicher Intelligenz (KI). Diese Anwendungen werden jedoch wesentlich effektiver von Grafikprozessoren bedient. Indem wir nun diesen zweiten Prozessortyp der Architektur unseres Hawk-Rechners hinzufügen, können wir fortan Forschern aus Wissenschaft und Industrie weiterhin bestmöglich dienen, die an vorderster Forschungsfront arbeiten.“
Zwei Ansätze für computergestützte Forschung: Simulation und Deep Learning
Die bisher am HLRS betriebenen Supercomputer – Hawk und zuvor auch Hazel Hen – sind Rechner, die auf einer reinen CPU-Architektur basieren. Das liegt darin begründet, dass CPUs die optimale Architektur für viele Codes aus der Numerischen Strömungsmechanik (Computational Fluid Dynamics, CFD), der Molkulardynamik, der Klimamodellierung und anderen Wissenschaftsbereichen bieten - Themengebiete, die die intensivste Nutzergemeinde des HLRS repräsentieren. Da die Ergebnisse von Simulationen häufig in der realen Welt Anwendung finden (z. B. als Ersatz von Auto-Crashtests), müssen Simulationsalgorithmen so akkurat wie möglich sein. Sie basieren daher auf grundlegenden wissenschaftlichen Prinzipien. Solche Verfahren benötigen
Zwei Ansätze für computergestützte Forschung Simulation und Deep Learning
Die bisher am HLRS betriebenen Supercomputer – Hawk und zuvor auch Hazel Hen – sind Rechner, die auf einer reinen CPU-Architektur basieren. Das liegt darin begründet, dass CPUs die optimale Architektur für viele Codes aus der Numerischen Strömungsmechanik (Computational Fluid Dynamics, CFD), der Molkulardynamik, der Klimamodellierung und anderen Wissenschaftsbereichen bieten - Themengebiete, die die intensivste Nutzergemeinde des HLRS repräsentieren. Da die Ergebnisse von Simulationen häufig in der realen Welt Anwendung finden (z. B. als Ersatz von Auto-Crashtests), müssen Simulationsalgorithmen so akkurat wie möglich sein. Sie basieren daher auf grundlegenden wissenschaftlichen Prinzipien. Solche Verfahren benötigen jedoch eine große Anzahl von Rechenkernen und haben lange Rechenlaufzeiten, sie erzeugen riesige Datenmengen, und für einen effizienten Ablauf erfordern sie spezielle Programmierkenntnisse.
In letzter Zeit haben Wissenschaftler jedoch damit begonnen, auszutesten, wie Deep Learning, Hochleistungs-Datenanalyse und Künstliche Intelligenz diese Art von Forschung beschleunigen und auch vereinfachen könnte. Im Gegensatz zur Simulation, bei der ein komplexes System in einem auf wissenschaftlichen Prinzipien basierenden „top-down“-Ansatz modelliert wird, nutzen diese neuen Verfahren eine „bottom-up“-Methode. In diesem Falle identifizieren die Deep Learning-Algortihmen in einer riesigen Fülle von Daten gewisse Muster und kreieren daraus ein Rechenmodell, das das Verhalten der echten Daten weitestgehend nachbildet. Das „trainierte“ Modell kann daraufhin dafür genutzt werden, Vorhersagen zu treffen, wie andere Systeme – die ähnlich dem sind, welches vom Original-Datensatz genutzt wurde – sich verhalten werden. Auch wenn diese Modelle nicht so präzise sind wie die, die auf First-Principle-Simulationen basieren, bieten sie oftmals Näherungen an, die für einen nützlichen Einsatz in der Praxis völlig ausreichend sind; sie können weitaus rechenintensivere Vorgehensweisen ergänzen oder manchmal gar ersetzen.
Aufgrund von technischen Faktoren laufen diese Deep-Learning-Anwendungen auf CPU-Prozessoren nicht sonderlich effizient, auf den Grafikprozessorseinheiten (Graphic Processing Units, GPUs) tun sie dies jedoch durchaus. GPUs wurden ursprünglich dafür entwickelt, auf Bildschirmen actiongeladene Videospiele reaktionsschnell und flüssig darstellen zu können. Darüber hinaus sind sie jedoch auch in der Lage, große Datenmatrizen zu analysieren, die für Algorithmen erforderlich sind, die neuronale Netze nutzen. Während CPUs auch stärker für unterschiedliche Rechenläufe geeignet sind, sind GPUs dafür prädestiniert, solche sich wiederholenden Aufgaben parallel abzuarbeiten. Für die Bereiche Deep Learning und KI könnte das heißen, dass simultan hunderte bzw. abertausende von Parametern aus Millionen riesiger Datzensätze verglichen werden, um darin verborgene wichtige Unterschiede zu identifizieren und in der Folge ein Modell schaffen zu können, welches diese Unterschiede beschreibt.
Hybridmethoden kombinieren Höchstleistungsrechnen mit KI
Auch wenn immer wieder spekuliert wird, dass KI möglicherweise das Hochleistungsrechnen ersetzen könnte, so ist es aktuell tatsächlich so, dass einige der derzeit interessantesten Forschungsvorhaben diese beiden Technologien kombinieren.
Für die Durchführung von Deep Learning-Algorithmen ist es unabdingbar, dass riesige Datenmengen zur Durchforstung nach Informationen vorhanden sind. Die Generierung eben dieser Daten ist eine Aufgabe, für die CPU-basierte HPC-Systeme wie Hawk perfekt sind. Modelle, die schließlich mithilfe von Deep Learning-Methoden auf GPU-basierten Systemen erstellt werden, können Forscher im nächsten Schritt dabei unterstützen, diese riesigen Datensätze effizienter und erfolgreicher zu durchsuchen. So können die daraus resultierenden KI-Algorithmen beispielsweise Schlüsselparameter in großen, mehrdimensionalen Datensätzen erkennen und Hypothesen generieren, dank derer die geplanten Simulationen gezielter durchgeführt werden können. Auch könnten sie äquivalente Modelle als Ersatz für komplexe Funktionen errechnen, für die in der Regel Supercomputer herangezogen werden müssten. In neuen Forschungsvorhaben werden diese Ansätze aktuell bereits iterativ integriert.
Abbildung 2: Verschiedene Interaktionsmuster zwischen KI und Simulation: a) Datengenerierung für KI-Training durch Simulationen; b) Entdeckung von Simulationsparametern durch KI; c) Generierung vorläufiger Lösungen durch KI; d) Den passenden Weg finden durch KI; e) Ersetzen von Simulationsiterationen durch KI; f) Ersetzen bestimmter Funktionen bzw. Gleichungen durch KI.
Schon 2019 vollzog man am HLRS den ersten großen Schritt in die Welt des Deep Learnings und der Künstlichen Intelligenz, als man den NVIDIA GPU-basierte Cray CS-Storm-Rechner installierte. Dieses Systems wurde von den HLRS-Nutzern sehr gut angenommen, bis zur Erweiterung war es annähernd bis zur maximalen Kapazität ausgelastet.
Auch wenn das Cray CS-Storm-System für herkömmliche Projekte aus dem Bereich des Maschinellen Lernens und des Deep Learning sehr gut geeignet war, hat man am HLRS die Erfahrung gemacht, dass die Nutzung von zwei separaten Rechnersystemen für Forschungsarbeiten, die hybride Arbeitsabläufe involvieren, eher hinderlich ist. Hawk und das Cray CS-Storm-System nutzten voneinander getrennte Dateisysteme, was bedeutet, dass die Daten vom einen auf den anderen Rechner übertragen werden mussten, wenn ein KI-Algorithmus oder die Ergebnisse eines KI-Modells genutzt oder zur Beschleunigung einer Simulation angewandt werden sollen. Solch eine Datenübertragung ist nicht nur zeitaufwändig und erfordert eine Unterbrechung des Workflows, sie bedeutet auch, dass Nutzer dazu befähigt sein müssen, zwei sehr unterschiedliche Systeme programmieren zu können.
„Die Erweiterung des Hawk-Rechners durch NVIDIA GPUs ermöglicht es, dass hybride Arbeitsabläufe, die das Höchstleistungsrechnen und Künstliche Intelligenz kombinieren, wesentlich effektiver vonstatten gehen,“ erklärt Dennis Hoppe, der die KI-Aktivitäten am HLRS leitet. „Zeitverluste, die durch den Datentransfer zwischen verschiedenen Computersystemen entstehen, weil es notwendig ist, dass verschiedene Teile der Arbeitsabläufe in getrennten Phasen ablaufen müssen, werden praktisch eliminiert. Benutzer können für ihre Arbeiten auf ein und derselben Prozessorplattform verbleiben, KI-Algorithmen ausführen und die Ergebnisse umgehend in ihre weiteren Berechnungen integrieren.“
HLRS Nutzern steht zudem der NVIDIA NGC Katalog™ mit seiner für GPUs optimierten Software für Tiefes Lernen, Maschinelles Lernen und Höchstleistungsrechnen zur Verfügung — Lösungen, die allesamt zur schnelleren Umsetzung des „Development-to-Deployment“-Workflows beitragen. Darüber hinaus profitieren Anwender von der Kombination der neuen GPUs mit der HDR NVIDIA® Mellanox® InfiniBand-Architektur. Diese neue Generation der Netzwerkkommunikation trägt dank softwaredefinierter Vernetzung und Beschleunigern für netzwerkinternes Computing dazu bei, dass auch für die anspruchsvollsten wissenschaftlichen Workloads Rechenleistung auf höchstem Niveau ermöglicht wird. Hoppe ist zuversichtlich, dass die neuen NVIDIA A100 GPUs künftig auch dazu genutzt werden könnten, den Ablauf bestimmter Versionen von traditionellen Simulationsanwendungen zu optimieren.
Beispiele von Forschungsprojekten, die HPC und KI kombinieren
Verschiedene Wissenschaftler aus der HLRS-Nutzergemeinde haben Projekte in Angriff genommen, die auf HPC-Systemen durchgeführte Simulationen mit Deep Learning-Anwendungen kombinieren. Die nachfolgenden Beispiele sollen den potenziellen Nutzen des neuen Ansatzes belegen:
Deep Learning beschleunigt die Digitalisierung von Blechmaterialien für die Produktion
Vor der Fertigung eines Tiefziehwerkzeugs, das Blech in eine PKW-Seitenwand umformt, müssen Ingenieure umfassend verstehen, wie sich das Blechmaterial unter den physikalischen Belastungen während des Herstellungsprozesses verhält. Die Anwendung physischer Modelle zur Konstruktion von Umformwerkzeugen und die experimentelle Feinabstimmung der Parameter von Pressenlinien sind sehr kosten- und zeitaufwändig, weshalb die Simulation des Umformprozesses mit HPC seit vielen Jahren dazu beiträgt, diesen Entwicklungsprozess zu beschleunigen. Dr. Celalettin Karadogan und seine Kollegen am Institut für Umformtechnik der Universität Stuttgart forschen an Möglichkeiten, die Umformsimulation realistischer und für produzierende Unternehmen einfacher zugänglich zu machen. Unter Berücksichtigung des realistischen Materialverhaltens haben die Forscher begonnen, HPC zu nutzen, um bis zu 2 Milliarden Simulationen des Werkstoffverhaltens zu erstellen. Im nächsten Schritt werden sie mittels dieser Daten ein neuronales Netz dahingehend trainieren, um das typische Verhalten diverser Metallarten definieren und evaluieren zu können. Das daraus resultierende vereinfachte Modell hat das Potential als wertvolles Werkzeug von Blech-Produzenten oder -Nutzern auf herkömmlichen Desktop-Computern angewandt zu werden, um schnell und effizient die Generierung von Materialmodellen für die Umformsimulation zu ermöglichen.
Vereinfachung der Modellierung von skalenübergreifenden Explosionen
Ludger Pähler, der an der Fakultät für Maschinenwesen von Professor Dr. Nikolaus Adams am Institut für Aerodynamik und Strömungsmechanik der Technischen Universität München forscht, widmet sich Studien zu sog. DDT-Kriterien (Deflagration Detonation Transition), einem Vorgang, bei dem ein Verbrennungsprozess sich plötzlich zu einer heftigen Explosion wandelt am Beispiel von reaktiven Stoß-Blasen Interaktionen. Dieses Phänomen, welches auch für das Verständnis von Supernova-Erscheinungen und Trägheitsfusion relevant ist, war einer der Faktoren der im August 2020 erfolgten Explosion in einem Warenhaus in Beirut (Libanon), die ganze Teile der Stadt verwüstete. Pähler kombiniert in seinen Programmen Statistiken mit Maschinellem Lernen, um daraus schlussfolgern zu können, welche Auswirkungen verschiedene Parameter bei der Simulation eines Übergangs von der Deflagration zur Detonation auf das Endergebnis haben. Die Arbeit, die sich auf hochdimensionale Datensätze stützt und extreme Inferenzen erfordert, erbrachte bereits Hunderttausende von DDT-Beispielmodellen. Um die Untersuchung rechnerisch jedoch überhaupt handhabbar zu machen, verwendet Ludger Pähler eine Methode namens Reinforcement Learning, um innerhalb der komplexen Reaktionen bedeutungsvolle Vorgänge identifizieren zu können, die gezielt untersucht werden sollen. Diese Vorgehensweise macht die Inferenzroutine intelligenter und rechnerisch nachvollziehbar, und sie reduziert den Rechenaufwand für die Analyse der gesamten Reaktion drastisch. Die neue Hawk-Architektur, so hofft Pähler, sollte es möglich machen, das Reinforcement Learning-Modell effizient anpassen zu können, um das aus neuen Simulationen gewonnene Feedback direkt wieder in das Rechenmodell einfließen lassen zu können — und zwar in einer Art und Weise, die das Modell selbst in die Lage versetzt, selbständig die Qualität der Probenahmen bewerten und darauf reagieren zu können.
Reduzierung der benötigten Rechenkapazitäten für Strömungsmechaniksimulationen
Simulation ist unabdingbar für moderne strömungsmechanische Forschung in Themengebieten wie Aerodynamik und Verbrennung. Typischerweise teilen Forscher hier ein Gebiet oder eine Struktur, die sie untersuchen, in ein Gitternetz auf und berechnen im nächsten Schritt kleinskalige Interaktionen innerhalb jeder einzelnen „Box“. Bei der Direkten Numerischen Simulation (DNS) versetzen Supercomputer wie Hawk die Forscher in die Lage, kleinskalige turbulente Schwankungen numerisch in Raum und Zeit aufgelöst darzustellen. Da neben der hohen räumlichen Auflösung eine instationäre Betrachtungsweise für die detaillierte Beschreibung der physikalischen Vorgänge erforderlich ist, gilt die DNS als die genaueste Methode, Strömungen zu berechnen. Sie stellt allerdings auch höchste Anforderungen an das numerische Verfahren sowie an die verfügbare Rechenleistung – Rechenleistung, wie sie Unternehmen oder Ingenieure in der freien Wirtschaft nicht zur Verfügung steht, obwohl diese Nutzerschaft von dieser Art der Informationsgewinnung enorm profitieren würde. Dr. Andrea Beck und ihre Kollegen/innen am Institut für Aerodynamik und Gasdynamik der Universität Stuttgart nutzen Hawk für hochgenaue DNS-Simulationen. Die gewonnen Daten werden daraufhin zum Trainieren neuronaler Netze verwendet. Andrea Beck's Ziel ist es, eine Simulationsmethode zu weiterzuentwickeln, die weniger Rechenpower benötigt: die Large-Eddy Simulation. Die Ergebnisse könnten dazu führen, dass anspruchsvolle Analysen von Turbulenzen und Strömungen auch mit weniger leistungsfähigen Computing-Ressourcen möglich werden.
— Christopher Williams