Le géant des puces NVIDIA se prépare à dévoiler un nouveau processeur d'intelligence artificielle puissant conçu pour accélérer la manière dont les chatbots et autres outils d'IA génèrent des réponses, pouvant potentiellement faire paraître les systèmes actuels comme ChatGPT lents en comparaison.
La nouvelle plateforme, qui devrait faire ses débuts lors de la conférence annuelle des développeurs GTC de NVIDIA, est optimisée pour l'inférence IA, l'étape où les modèles entraînés produisent des réponses aux invites des utilisateurs. Contrairement aux GPU traditionnels conçus pour gérer à la fois l'entraînement et l'inférence, le processeur à venir se concentre spécifiquement sur la fourniture de réponses plus rapides et plus efficaces.
Le produit, s'il est lancé, marquera le premier résultat tangible de l'accord de décembre qui a intégré les fondateurs de Groq, dont l'entreprise est spécialisée dans le matériel de traitement IA haute vitesse.
Fin de l'année dernière, NVIDIA aurait dépensé environ 20 milliards de dollars pour obtenir une licence de technologie de la startup de puces Groq et recruter du personnel clé, y compris son PDG. À peu près au même moment, le PDG de NVIDIA, Jensen Huang, a déclaré aux employés : "Nous prévoyons d'intégrer les processeurs à faible latence de Groq dans l'architecture NVIDIA AI factory, étendant la plateforme pour servir une gamme encore plus large de charges de travail d'inférence IA et en temps réel."
Désormais, la nouvelle puce d'inférence devrait gérer des requêtes IA complexes à haute vitesse, avec OpenAI et d'autres clients de premier plan susceptibles de l'adopter, selon The Wall Street Journal. Son rapport a également montré que la nouvelle puce pourrait gérer près de 10 % de la charge de travail d'inférence d'OpenAI.
La puce de type Groq utilisera la SRAM, selon des sources
Lors d'un récent appel aux résultats, le PDG de NVIDIA a laissé entendre que plusieurs nouveaux produits seront dévoilés lors du prochain événement GTC, souvent décrit comme le "Super Bowl de l'IA". Il avait remarqué : "J'ai de grandes idées que j'aimerais partager avec vous au GTC."
La plupart des analystes conviennent que la puce de type Groq pourrait faire partie de la gamme. Ils ont également déclaré que sa conception pourrait éclairer la manière dont NVIDIA vise à résoudre les contraintes de mémoire dans le calcul d'inférence. Ces plateformes fonctionnent généralement sur une mémoire à large bande passante (HBM). Cependant, la HBM a été difficile à se procurer dernièrement.
Des initiés ont affirmé que l'entreprise prévoit d'utiliser la SRAM dans la puce plutôt que la RAM dynamique associée à la HBM. Idéalement, la SRAM est plus accessible et peut améliorer les performances des charges de travail de raisonnement IA.
Si la puce est dévoilée, cela pourrait être un grand pas en avant pour l'entreprise de puces et les modèles entraînés par IA. Cependant, en parlant de son lancement possible, Sid Sheth, fondateur et PDG de d-Matrix, a jeté une ombre sur son développement. Il a noté que bien que NVIDIA reste le leader incontesté de la formation en IA, l'inférence représente un paysage très différent. Il a partagé : "Les développeurs peuvent se tourner vers des concurrents autres que NVIDIA car l'exécution de modèles d'IA terminés ne nécessite pas le même type de programmation que leur entraînement."
Néanmoins, d'autres géants de la technologie font également progresser le calcul d'inférence. Meta a dévoilé cette semaine quatre processeurs adaptés à l'inférence, incitant un investisseur de la Silicon Valley à dire que l'industrie pourrait entrer dans une phase non "dominée par NVIDIA".
Cependant, plus récemment, June Paik, directeur général de FuriosaAI, un rival de NVIDIA, commentant l'avantage du calcul d'inférence facilement déployable, a mis en garde que la plupart des centres de données ne peuvent pas accueillir les derniers GPU refroidis par liquide.
Néanmoins, malgré ses inquiétudes, les analystes de Bank of America s'attendent à ce que les charges de travail d'inférence représentent 75 % des dépenses des centres de données IA d'ici 2030, lorsque le marché atteindra environ 1,2 billion de dollars, contre environ 50 % l'année dernière. Ben Bajarin, analyste technologique chez Creative Strategies, a également affirmé que les centres de données du futur ne se conformeront pas à un modèle unique, anticipant que les entreprises adopteront différentes approches pour le développement des puces et des installations.
NVIDIA devrait sortir les puces Vera Rubin plus tard en 2026
NVIDIA a également récemment lancé ses puces IA de nouvelle génération, les puces IA Vera Rubin, anticipant que l'essor des plateformes d'IA de raisonnement telles que DeepSeek alimentera une demande informatique encore plus importante. Elle a affirmé que les puces aideraient à entraîner de plus grands modèles d'IA et à fournir des résultats plus sophistiqués à une base d'utilisateurs plus large.
Selon Huang, Rubin arrivera également sur le marché au second semestre 2026, avec une version haut de gamme "ultra" prévue pour 2027.
Il a également expliqué qu'un seul système Rubin combinerait 576 GPU individuels en une seule puce. Actuellement, la puce Blackwell de NVIDIA regroupe 72 GPU dans son système NVL72, ce qui signifie que Rubin disposera d'une mémoire plus avancée.
Source : https://www.cryptopolitan.com/nvidias-chip-could-make-chatgpt-look-slow/


