Payer à Nvidia une marge brute de 75 % pour le privilège de faire tourner ChatGPT n’est plus une stratégie d’entreprise viable pour Sam Altman. Le 24 juin 2026, OpenAI et Broadcom ont mis fin aux spéculations en présentant Jalapeño, une puce ASIC conçue sur mesure et optimisée exclusivement pour les charges de travail d’inférence de LLM. Cette attaque ciblée contre le monopole de Nvidia a été conçue, testée et finalisée (tape-out) en un temps record de neuf mois.
- What Is OpenAI’s Custom Chip Jalapeño?
- Who Manufactured the OpenAI Jalapeño Chip?
- Can OpenAI’s Custom Chip Replace Nvidia GPUs?
- How Much Does the Jalapeño Chip Reduce OpenAI’s Server Costs?
What Is OpenAI’s Custom Chip Jalapeño?
La puce Jalapeño d’OpenAI est un circuit intégré spécifique (ASIC) conçu spécifiquement pour gérer l’inférence des grands modèles de langage (LLM). Co-développée avec Broadcom, la puce optimise la bande passante mémoire et les mathématiques tensorielles pour exécuter des modèles comme ChatGPT à une vitesse deux fois supérieure à celle du silicium standard du marché.
Depuis trois ans, l’industrie technologique repose sur une hypothèse simple : pour exécuter des modèles frontières, il faut acheter des GPU Nvidia H100 ou Blackwell. Cette dépendance matérielle constitue un goulot d’étranglement majeur. Si les processeurs graphiques (GPU) à usage général excellent dans la phase d’entraînement du machine learning grâce à leurs capacités de traitement parallèle brut, ils s’avèrent inefficaces pour faire tourner des modèles déjà entraînés. L’inférence est un problème limité par la mémoire, et non par le calcul. Lorsqu’un utilisateur pose une question, le serveur dépense la majeure partie de son énergie à déplacer les poids des puces mémoire vers les cœurs de calcul.
Jalapeño élimine les composants de rendu graphique, les circuits d’affichage et la surcharge de calcul générale qui occupent les GPU classiques. À la place, elle intègre des modules massifs de mémoire à haute bande passante (HBM) directement adjacents à une matrice logique spécialisée dans la multiplication matricielle. Des prototypes de laboratoire exécutent déjà des charges de travail actives à San Francisco, testant spécifiquement le modèle GPT-5.3-Codex-Spark de OpenAI.
Who Manufactured the OpenAI Jalapeño Chip?
Broadcom a co-conçu la matrice logique et les systèmes d’entrée/sortie à haute vitesse de la puce Jalapeño, fabriquée sur le nœud de gravure 3nm de TSMC. Les cartes serveurs physiques, les systèmes d’alimentation refroidis par liquide et les racks de centres de données sont assemblés par le fabricant d’électronique Celestica.
Concevoir une puce à partir de zéro prend généralement deux à trois ans. OpenAI a contourné ce délai en s’associant à Broadcom, exploitant la plateforme de conception personnalisée XPU du géant des semi-conducteurs. Broadcom est l’architecte de l’ombre de la tendance du silicium sur mesure, ayant déjà co-conçu la série TPU de Google et les puces MTIA v2 de Meta. En exploitant sous licence la propriété intellectuelle établie de Broadcom pour les réseaux à haute vitesse et les interfaces mémoire, OpenAI a bouclé le processus de conception et de tape-out en seulement neuf mois.
Cependant, le silicium reste inutile sans un système pour l’accueillir. C’est là que Celestica intervient dans la chaîne d’approvisionnement. En tant que principal intégrateur de systèmes du projet, Celestica conçoit et assemble les lames de serveurs personnalisées, les boucles de refroidissement liquide multi-racks et les châssis d’alimentation haute tension nécessaires pour faire fonctionner Jalapeño à grande échelle. Ces systèmes serveurs sont conçus pour s’intégrer directement dans les infrastructures existantes des centres de données, y compris les clusters cloud de Microsoft.
Can OpenAI’s Custom Chip Replace Nvidia GPUs?
La puce Jalapeño ne peut pas remplacer les GPU Nvidia pour l’entraînement de modèles d’IA massifs, car elle est construite exclusivement pour l’inférence de LLM. OpenAI continuera d’utiliser l’architecture Blackwell de Nvidia pour entraîner ses modèles frontières, tout en migrant son trafic de messagerie grand public actif vers le matériel Jalapeño afin d’optimiser son efficacité opérationnelle.
C’est une idée reçue courante de croire que le silicium sur mesure représente un remplacement immédiat pour Nvidia. En réalité, la pile matérielle est divisée en deux. L’entraînement d’un modèle comme GPT-5 nécessite des milliers de processeurs interconnectés fonctionnant pendant des mois, échangeant des quantités massives de données de gradient. La technologie d’interconnexion propriétaire NVLink de Nvidia et l’écosystème logiciel CUDA restent incontestés dans ce domaine de l’entraînement.
Cependant, une fois le modèle entraîné, il doit être exécuté des millions de fois par jour pour les utilisateurs. C’est ici que les investissements massifs dans les modèles frontières se heurtent à la réalité : l’exécution de l’inférence sur des GPU à usage général est un gouffre financier. En utilisant des ASIC personnalisés pour l’inférence, OpenAI peut décharger son trafic grand public quotidien des processeurs coûteux de Nvidia, libérant ainsi ces GPU pour exécuter des boucles d’entraînement.
Voici une comparaison des spécifications matérielles entre Jalapeño et les options de silicium du marché :
| Spécification | OpenAI Jalapeño ASIC (2026) | Nvidia Blackwell B200 (Marché) | Google TPU v5p (Sur mesure) |
|---|---|---|---|
| Charge de travail principale | Inférence de LLM dédiée | Entraînement & Inférence généralistes | Entraînement & Inférence généralistes |
| Architecture | ASIC personnalisé (Broadcom XPU) | GPU à usage général | ASIC personnalisé |
| Nœud de gravure | TSMC 3nm | TSMC 4N | TSMC 4nm |
| Configuration mémoire | 192 Go HBM4 | 192 Go HBM3e | 96 Go HBM2e |
| Déploiement cible | Microsoft Azure / Fin 2026 | Cloud public / 2025 | Google Cloud |
| Pile logicielle | Runtime OpenAI personnalisé | Nvidia CUDA | Google JAX / XLA |
How Much Does the Jalapeño Chip Reduce OpenAI’s Server Costs?
OpenAI prévoit que le déploiement à grande échelle de la puce ASIC Jalapeño réduira les coûts d’inférence d’environ 50 %. En optimisant les vitesses de transfert de la mémoire vers les cœurs et en réduisant la dissipation thermique, la puce diminue de manière significative la consommation électrique par requête et les coûts d’amortissement du matériel nécessaires au fonctionnement de ChatGPT.
Le coût de calcul est le facteur limitant ultime de la course aux infrastructures matérielles. En 2024, les estimations de l’industrie évaluaient le coût d’une seule requête ChatGPT à environ 0,003 $, l’amortissement du matériel et la consommation d’énergie représentant la majeure partie de ce montant. Rapportée à des centaines de millions d’utilisateurs actifs quotidiens, la facture d’infrastructure d’OpenAI dépasse facilement plusieurs milliards de dollars par an.
Jalapeño répond directement à cette crise des marges. La puce étant conçue pour exécuter uniquement les opérations matricielles spécifiques utilisées dans les architectures de transformers, elle consomme beaucoup moins d’énergie qu’un GPU à usage général. L’intégration Ethernet haut débit de Broadcom permet également à OpenAI de regrouper ces puces dans des racks haute densité sans subir les goulots d’étranglement de latence réseau habituels qui affectent les grands centres de données. Le déploiement de ces systèmes doit débuter fin 2026, à commencer par des clusters à l’échelle du gigawatt au sein des centres de données de Microsoft Azure.
Key Takeaways
- OpenAI et Broadcom ont co-conçu la puce Jalapeño en neuf mois, utilisant les modèles internes d’OpenAI pour accélérer la conception de l’implantation physique (layout).
- Jalapeño est une puce ASIC personnalisée conçue exclusivement pour l’inférence de LLM, ce qui signifie qu’elle ne peut pas être utilisée pour l’entraînement de modèles frontières.
- Celestica sert d’intégrateur système principal, fabriquant les cartes serveurs, les systèmes d’alimentation et les racks refroidis par liquide.
- La puce est fabriquée sur le nœud de gravure 3nm de TSMC et intègre 192 Go de mémoire HBM4.
- Les déploiements doivent commencer fin 2026 dans les centres de données de Microsoft Azure afin de réduire de 50 % les coûts d’exploitation des serveurs d’OpenAI.
FAQ
What is OpenAI’s custom chip Jalapeño?
La puce Jalapeño d’OpenAI est un circuit intégré spécifique (ASIC) conçu sur mesure pour optimiser l’inférence des grands modèles de langage (LLM). Co-développé avec Broadcom, ce matériel élimine la charge graphique superflue des GPU standards pour se concentrer uniquement sur la bande passante mémoire et la multiplication matricielle, offrant des requêtes ChatGPT plus rapides et plus économiques.
Who manufactured the OpenAI Jalapeño chip?
Les interfaces logiques et mémoire de la puce Jalapeño ont été co-conçues par OpenAI et Broadcom, la fabrication étant confiée à la fonderie de semi-conducteurs 3nm de TSMC. Les cartes serveurs physiques, les boucles de refroidissement liquide et les assemblages de racks serveurs sont fabriqués et intégrés par Celestica.
Can OpenAI’s custom chip replace Nvidia GPUs?
Non, la puce Jalapeño n’est pas un processeur d’entraînement et ne peut pas remplacer les GPU Nvidia pour l’entraînement des modèles d’IA frontières. OpenAI continuera d’utiliser l’architecture GPU Blackwell de Nvidia pour l’entraînement de ses modèles, tout en migrant son trafic de chat actif vers Jalapeño afin de réduire les coûts d’inférence en direct.
How much does the Jalapeño chip reduce OpenAI’s server costs?
OpenAI s’attend à ce que l’ASIC Jalapeño réduise le coût opérationnel de fonctionnement de ses modèles d’environ 50 %. La puce y parvient grâce à une efficacité énergétique élevée, des configurations mémoire optimisées qui réduisent la consommation d’énergie et une connectivité réseau haute vitesse facilitant un regroupement dense de serveurs.
When will OpenAI deploy the Jalapeño chip?
Les déploiements initiaux à l’échelle du gigawatt de la puce Jalapeño doivent commencer fin 2026. Le matériel sera intégré directement dans les infrastructures de centres de données de Microsoft Azure pour prendre en charge les services d’API grand public et d’entreprise d’OpenAI.
How does the Jalapeño design process differ from traditional chip manufacturing?
Le processus de co-conception entre OpenAI et Broadcom s’est achevé en neuf mois, soit une fraction du cycle classique de développement de semi-conducteurs qui dure généralement deux ans. Cette accélération de la conception a été rendue possible par l’utilisation des propres modèles d’IA d’OpenAI pour optimiser l’implantation logique (layout) et valider les chemins de signaux avant la fabrication.
Sources
- Fiches produits officielles de Broadcom : https://www.broadcom.com
- Équipe d’infrastructure de calcul d’OpenAI : https://www.openai.com
- Documentation d’assemblage de serveurs de Celestica : https://www.celestica.com
- Spécifications techniques de la fonderie 3nm de TSMC : https://www.tsmc.com