Im Januar 2024 kündigte das führende Private-Equity-Unternehmen Blackstone an, ein 25-Milliarden-KI-Datenimperium aufzubauen. Einige Monate später folgten OpenAI und Microsoft mit dem Vorschlag, Stargate zu bauen, einen 100-Milliarden KI-Supercomputer, der das Unternehmen an die Spitze der KI-Revolution bringen wird.
Natürlich ist das keine Überraschung. Mit der rasanten Beschleunigung, die der KI-Sektor in den letzten Jahren erlebt hat, sind Industriegiganten auf der ganzen Welt in rasender Eile, Plätze in der ersten Reihe zu bekommen. Experten prognostizieren bereits, dass der globale KI-Markt um 2030 ein massives Volumen von 826,70Milliarden erreichen wird, mit einer jährlichen Wachstumsrate von 28,46%.
Von Neumanns Architektur, das Designmodell, auf dem die meisten allgemeinen Computer arbeiten (bestehend aus CPU, Arbeitsspeicher, I/O-Geräten und Systembus), ist von Natur aus begrenzt, obwohl es Einfachheit und systemübergreifende Kompatibilität bietet. Der einzelne Systembus dieser Architektur schränkt die Geschwindigkeit ein, mit der Daten zwischen Speicher und CPU übertragen werden können, wodurch CPUs für KI- und Machine Learning-Zwecke nicht optimal sind.
Hier kommen die Graphics Processing Units (GPUs) ins Spiel: Durch die Integration von Parallelität als Verarbeitungstechnik bieten GPUs verbesserte Leistung und unabhängige Befehlsausführung durch ihre Multi-Cores. Mit dem Aufkommen der KI-Technologie ist die Nachfrage nach GPUs jedoch in die Höhe gestiegen, was die Lieferketten belastet und die Bemühungen vieler Forscher und Start-ups zu einem gravierenden Engpass führt. Das gilt vor allem, da das weltweite Angebot an GPUs von nur einem großen Hersteller stammt: Nvidia.
Während Hyperskalierer wie AWS, Google Cloud Platform und andere leicht von Nvidia aus auf A100s und H100s zugreifen können, welche anderen tragfähigen Alternativen können Unternehmen, Forschern und Startups dabei helfen, sich an den KI-Zug zu binden, anstatt auf unbestimmte Zeit auf der Nvidia-Warteliste festzustecken?
Feldprogrammierbare Gate Arrays
FPGAs sind reprogrammierbare integrierte Schaltungen, die für spezifische Aufgaben und Anwendungsanforderungen konfiguriert werden können. Sie bieten Flexibilität, können an unterschiedliche Anforderungen angepasst werden und sind kostengünstig. Da FPGAs in der parallelen Verarbeitung effizient sind, eignen sie sich gut für KI/maschinelles Lernen und weisen in realen Anwendungen eine deutlich niedrige Latenz auf.
Eine interessante Implementierung von FPGAs zeigt der Tesla D1 Dojo Chip, den das Unternehmen in 2021 veröffentlicht hat, um Computer Vision Modelle für selbstfahrende Autos zu trainieren. Ein paar Nachteile von FPGAs sind jedoch das hohe Engineering-Know-how, das für die Architektur der Hardware erforderlich ist, was sich in teuren Anschaffungskosten niederschlagen kann.
AMD GPUs
Im 2023 signalisierten Unternehmen wie Meta, Oracle und Microsoft ihr Interesse an AMD GPUs als kostengünstigere Lösung und eine Möglichkeit, eine potenzielle Anbieterbindung mit dominantem Nvidia zu vermeiden. Die Instinct MI300-Serie von AMD gilt beispielsweise als praktikable Alternative für wissenschaftliche Computing- und KI-Anwendungen. Seine Graphics Core Next (GCN)-Architektur, die Modularität und Unterstützung offener Standards betont, sowie sein günstigerer Preis machen es zu einer vielversprechenden Alternative zu Nvidia GPUs.
Tensorverarbeitungseinheiten
TPUs sind anwendungsspezifische integrierte Schaltungen (ASICs), die für maschinelles Lernen programmiert sind. TPUs sind eine Idee von Google und basieren auf einer domänenspezifischen Architektur, um neuronale Netzwerke wie Tensoroperationen auszuführen. Sie haben auch den Vorteil der Energieeffizienz und optimierten Leistung, was sie zu einer erschwinglichen Alternative für Skalierung und Kostenmanagement macht.
Es ist jedoch zu beachten, dass das TPU-Ökosystem immer noch im Entstehen ist und die aktuelle Verfügbarkeit auf die Google Cloud Platform beschränkt ist.
Dezentrale Marktplätze
Dezentrale Marktplätze versuchen auch, den eingeschränkten GPU-Versorgungszug auf ihre eigene Weise zu mildern. Indem diese Marktplätze von inaktiven GPU-Ressourcen aus alten Rechenzentren, akademischen Einrichtungen und sogar Einzelpersonen profitieren, stellen sie Forschern, Startups und anderen Institutionen genügend GPU-Ressourcen zur Verfügung, um ihre Projekte durchzuführen. Beispiele sind Render Network, FluxEdge, Bittensor und andere.
Viele dieser Marktplätze bieten Consumer-GPUs an, die den Anforderungen kleiner bis mittlerer KI/ML-Unternehmen ausreichend gerecht werden und so den Druck auf professionelle High-End-GPUs reduzieren. Einige Marktplätze bieten auch zusätzliche Optionen für Kunden, die auch industrietaugliche GPUs wünschen.
CPUs
CPUs gelten aufgrund ihres begrenzten Durchsatzes und des von Neumann Engpässes oft als Underdogs für KI-Zwecke. Es gibt jedoch laufende Bemühungen, herauszufinden, wie KI-effizientere Algorithmen auf CPUs ausgeführt werden können. Dazu gehören die Zuweisung bestimmter Workloads zur CPU, wie einfache NLP-Modelle und Algorithmen, die komplexe statistische Berechnungen durchführen.
Auch wenn es sich hierbei nicht um eine universelle Lösung handelt, ist sie perfekt für Algorithmen, die schwer parallel laufen können, wie wiederkehrende neuronale Netze oder Empfehlungssysteme für Training und Inferenz.
Abrundung
Die Knappheit an GPUs für KI-Zwecke wird vielleicht nicht in absehbarer Zeit verschwinden, aber es gibt gute Nachrichten. Die laufenden Innovationen in der KI-Chiptechnologie zeugen von einer spannenden Zukunft voller Möglichkeiten, die eines Tages dafür sorgen wird, dass das GPU-Problem in den Hintergrund tritt. Im KI-Sektor muss noch viel Potenzial genutzt werden, und wir stehen vielleicht gerade am Abgrund der bedeutendsten technologischen Revolution, die der Menschheit bekannt ist.