BIG TECH

Warum OpenAIs neuer 'Jalapeño' ASIC-Chip der größte Albtraum für Nvidia ist

OpenAI und Broadcom haben Jalapeño entwickelt, einen maßgeschneiderten ASIC-Inferenz-Chip, der in einer Rekordzeit von 9 Monaten gebaut wurde, um Serverkosten um 50 % zu senken.

Veröffentlicht am 28.6.2026

Für Sam Altman ist es keine tragfähige Unternehmensstrategie mehr, Nvidia eine Bruttomarge von 75 % für das Ausführen von ChatGPT zu zahlen. Am 24. Juni 2026 beendeten OpenAI und Broadcom die Spekulationen und stellten Jalapeño vor, einen maßgeschneiderten ASIC-Chip, der ausschließlich für LLM-Inferenz-Workloads optimiert ist. Dieser gezielte Schlag gegen das Monopol von Nvidia wurde in einer Rekordzeit von neun Monaten entwickelt und per Tape-Out fertiggestellt.

What Is OpenAI’s Custom Chip Jalapeño?

Der Jalapeño-Chip von OpenAI ist ein maßgeschneiderter, anwendungsspezifischer integrierter Schaltkreis (ASIC), der speziell für die Inferenz großer Sprachmodelle (LLM) entwickelt wurde. Der gemeinsam mit Broadcom entwickelte Chip optimiert die Speicherbandbreite und die Tensormathematik, um Modelle wie ChatGPT doppelt so schnell wie handelsübliche Standard-Siliziumchips auszuführen.

In den vergangenen drei Jahren ging die Branche von einer einfachen Prämisse aus: Wer Frontier-Modelle ausführen will, muss Nvidia H100 oder Blackwell GPUs kaufen. Diese Hardware-Abhängigkeit stellt einen massiven Engpass dar.

Während universelle Grafikprozessoren (GPUs) aufgrund ihrer parallelen Verarbeitungsleistung beim Training des maschinellen Lernens hervorragend abschneiden, arbeiten sie beim Ausführen bereits trainierter Modelle äußerst ineffizient. Inferenz ist ein speichergebundenes Problem, kein rechengebundenes. Wenn ein Benutzer eine Frage stellt, verbraucht der Server die meiste Energie damit, Modellgewichte von den Speicherchips zu den Prozessorkernen zu transferieren.

Jalapeño verzichtet auf Grafik-Rendering-Komponenten sowie den typischen Rechen-Overhead standardmäßiger GPUs. Stattdessen positioniert der Chip massive HBM-Speicherpakete (High Bandwidth Memory) direkt neben einem spezialisierten Logic-Die für Matrixmultiplikationen. Labor-Prototypen führen in San Francisco bereits aktive Workloads aus und testen konkret das GPT-5.3-Codex-Spark-Modell von OpenAI.

Who Manufactured the OpenAI Jalapeño Chip?

Broadcom hat das Logic-Die und die Hochgeschwindigkeits-I/O-Systeme für den Jalapeño-Chip mitentwickelt, der im 3nm-Verfahren von TSMC gefertigt wird. Der Elektronikhersteller Celestica übernimmt die Montage der Serverplatinen und der flüssigkeitsgekühlten Rack-Infrastruktur.

Die Neuentwicklung eines Chips dauert üblicherweise zwei bis drei Jahre. OpenAI verkürzte diesen Zeitrahmen durch eine Partnerschaft mit Broadcom und nutzte die XPU-Plattform des Chip-Konzerns für maßgeschneidertes Design. Broadcom fungiert als verdeckter Architekt des Custom-Silicon-Trends und hat bereits die TPU-Serie von Google sowie die MTIA-v2-Chips von Meta mitentwickelt. Durch die Lizenzierung der bewährten Broadcom-Patente für Hochgeschwindigkeitsnetzwerke und Speicherschnittstellen schloss OpenAI den Prozess vom Design bis zum Tape-Out in nur neun Monaten ab.

Silizium allein ist jedoch ohne ein passendes Gehäusesystem nutzlos. An dieser Stelle kommt Celestica in die Lieferkette. Als primärer Systemintegrator des Projekts entwirft und montiert Celestica die maßgeschneiderten Server-Blades und die flüssigkeitsgekühlte Stromversorgungsinfrastruktur, die für den Betrieb von Jalapeño im großen Maßstab erforderlich sind. Diese Serversysteme sind so konzipiert, dass sie direkt in bestehende Rechenzentrumsinfrastrukturen integriert werden können, einschließlich der Cloud-Cluster von Microsoft.

Can OpenAI’s Custom Chip Replace Nvidia GPUs?

Der Jalapeño-Chip kann Nvidia GPUs beim Training großer KI-Modelle nicht ersetzen, da er ausschließlich für die LLM-Inferenz konzipiert ist. OpenAI wird weiterhin die Blackwell-Architektur von Nvidia für das Training seiner Frontier-Modelle nutzen, während der aktive Chat-Traffic der Endnutzer auf die Jalapeño-Hardware verlagert wird, um die Betriebseffizienz zu optimieren.

Dass maßgeschneiderte Chips Nvidia sofort ersetzen können, ist ein weit verbreiteter Irrtum. In der Realität ist der Hardware-Stack zweigeteilt. Das Training eines Modells wie GPT-5 erfordert Tausende miteinander verbundener Prozessoren, die über Monate hinweg laufen und gewaltige Mengen an Gradientendaten austauschen. Die proprietäre NVLink-Verbindungstechnologie von Nvidia und das CUDA-Software-Ökosystem bleiben beim Modelltraining unangefochten.

Sobald ein Modell trainiert ist, muss es jedoch millionenfach täglich für Anwender ausgeführt werden. Hier treffen die massiven Investitionen in Frontier-Modelle auf die Realität: Die Inferenz auf universellen GPUs zu betreiben, verbrennt viel Geld. Durch den Einsatz maßgeschneiderter ASICs für die Inferenz kann OpenAI den täglichen Nutzerverkehr von teuren Nvidia-Prozessoren verlagern und diese Kapazitäten für Trainingsschleifen freigeben.

Ein direkter Vergleich der Hardwarespezifikationen zeigt die Unterschiede zwischen Jalapeño und marktüblichen Lösungen:

SpezifikationOpenAI Jalapeño ASIC (2026)Nvidia Blackwell B200 (Handelsüblich)Google TPU v5p (Maßgeschneidert)
Haupt-WorkloadDedizierte LLM-InferenzAllgemeines Training & InferenzAllgemeines Training & Inferenz
ArchitekturMaßgeschneiderter ASIC (Broadcom XPU)Universelle GPUMaßgeschneiderter ASIC
FertigungsprozessTSMC 3nmTSMC 4NTSMC 4nm
Speicherkonfiguration192 GB HBM4192 GB HBM3e96 GB HBM2e
Geplanter EinsatzMicrosoft Azure / Ende 2026Public Cloud / 2025Google Cloud
Software-StackEigene OpenAI-LaufzeitumgebungNvidia CUDAGoogle JAX / XLA

How Much Does the Jalapeño Chip Reduce OpenAI’s Server Costs?

OpenAI prognostiziert, dass der großflächige Einsatz des Jalapeño-ASIC-Chips die Inferenzkosten um rund 50 % senken wird. Durch die Optimierung der Übertragungsgeschwindigkeiten zwischen Speicher und Prozessorkern sowie eine geringere Wärmeabgabe reduziert der Chip die Strom- und Hardware-Abschreibungskosten pro ChatGPT-Anfrage erheblich.

Die Rechenkosten bestimmen maßgeblich das Rennen um die Hardware-Infrastruktur. Im Jahr 2024 schätzte die Branche die Kosten für eine einzelne ChatGPT-Anfrage auf rund 0,003 US-Dollar, wobei Hardware-Abschreibung und Stromverbrauch den größten Teil dieses Betrags ausmachten. Skaliert auf Hunderte Millionen täglich aktive Nutzer übersteigt die Infrastrukturrechnung von OpenAI problemlos mehrere Milliarden US-Dollar pro Jahr.

Jalapeño adressiert diese Margenkrise direkt. Da der Chip ausschließlich für die Ausführung der spezifischen Matrixoperationen von Transformer-Architekturen ausgelegt ist, verbraucht er wesentlich weniger Strom als eine universelle GPU. Die Hochgeschwindigkeits-Ethernet-Technologie von Broadcom ermöglicht es OpenAI, diese Chips in Racks mit hoher Dichte zu gruppieren, ohne dass die für große Rechenzentren typischen Netzwerk-Latenzengpässe auftreten. Der Einsatz dieser Systeme soll Ende 2026 beginnen und mit Clustern im Gigawatt-Bereich in den Rechenzentren von Microsoft Azure starten.

Key Takeaways

  • OpenAI und Broadcom haben den Jalapeño-Chip in neun Monaten entwickelt und dabei interne Modelle von OpenAI genutzt, um das Layout-Design zu beschleunigen.
  • Jalapeño ist ein maßgeschneiderter ASIC-Chip, der ausschließlich für die LLM-Inferenz entwickelt wurde und sich nicht für das Training von Frontier-Modellen eignet.
  • Celestica fungiert als primärer Systemintegrator und montiert die Serverplatinen sowie die flüssigkeitsgekühlten Rack-Systeme.
  • Der Chip wird auf dem 3nm-Prozessknoten von TSMC gefertigt und verfügt über 192 GB HBM4-Speicher.
  • Der Einsatz soll Ende 2026 in den Microsoft Azure Rechenzentren beginnen, um die Serverbetriebskosten von OpenAI um 50 % zu senken.

FAQ

What is OpenAI’s custom chip Jalapeño?

Der Jalapeño-Chip von OpenAI ist ein maßgeschneiderter, anwendungsspezifischer integrierter Schaltkreis (ASIC) zur Optimierung der Inferenz großer Sprachmodelle (LLM). Die gemeinsam mit Broadcom entwickelte Hardware verzichtet auf den Grafik-Overhead standardmäßiger GPUs. Sie konzentriert sich vollständig auf Speicherbandbreite sowie Matrixmultiplikationen, um schnellere und kostengünstigere ChatGPT-Abfragen zu ermöglichen.

Who manufactured the OpenAI Jalapeño chip?

Die Logik- und Speicherschnittstellen des Jalapeño-Chips wurden von OpenAI und Broadcom gemeinsam entworfen, während die eigentliche Fertigung an die 3nm-Halbleiter-Foundry von TSMC ausgelagert wurde. Die physischen Serverplatinen sowie die dazugehörigen flüssigkeitsgekühlten Rack-Systeme werden vom Elektronikhersteller Celestica gefertigt und vollständig in die Infrastruktur integriert.

Can OpenAI’s custom chip replace Nvidia GPUs?

Nein, der Jalapeño-Chip ist kein Trainingsprozessor und kann Nvidia-Grafikprozessoren beim Training großer KI-Modelle nicht ersetzen. OpenAI wird für das Modelltraining weiterhin die Blackwell-GPU-Architektur von Nvidia nutzen, während der aktive Chat-Traffic auf Jalapeño verlagert wird, um die laufenden Kosten für die Inferenz zu senken.

How much does the Jalapeño chip reduce OpenAI’s server costs?

OpenAI erwartet, dass der Jalapeño-ASIC die Betriebskosten für das Ausführen seiner Modelle um etwa 50 % senken wird. Dies erreicht der Chip durch eine hohe Energieeffizienz sowie optimierte Speicher-Layouts, die in Kombination mit schnellen Netzwerkverbindungen eine dichte Gruppierung der Server ermöglichen.

When will OpenAI deploy the Jalapeño chip?

Die ersten großflächigen Einsätze des Jalapeño-Chips im Gigawatt-Maßstab sollen planmäßig Ende 2026 anlaufen. Diese neue Hardware wird direkt in die globalen Rechenzentren von Microsoft Azure integriert, um die notwendige Rechenleistung für alle Verbraucherdienste und die kommerziellen API-Angebote von OpenAI zuverlässig bereitzustellen.

How does the Jalapeño design process differ from traditional chip manufacturing?

Der gemeinsame Designprozess von OpenAI und Broadcom wurde in neun Monaten abgeschlossen, was nur einen Bruchteil des üblichen zweijährigen Entwicklungszyklus für Halbleiter darstellt. Diese Beschleunigung gelang durch den Einsatz der eigenen KI-Modelle von OpenAI, um das Logik-Layout zu optimieren und die Signalwege vor der Fertigung zu verifizieren.

Sources

Weiterlesen

Empfohlene Berichte