En bref
- Google a déclaré que son algorithme TurboQuant peut réduire un goulot d'étranglement majeur de la mémoire de l'IA d'au moins six fois sans perte de précision lors de l'inférence.
- Les actions de mémoire, notamment Micron, Western Digital et Seagate, ont chuté après la diffusion de l'article.
- La méthode compresse la mémoire d'inférence, et non les poids du modèle, et n'a été testée que dans des benchmarks de recherche.
Google Research a publié TurboQuant mercredi, un algorithme de compression qui réduit un goulot d'étranglement majeur de la mémoire d'inférence d'au moins 6x tout en maintenant une perte de précision nulle.
L'article est prévu pour être présenté à l'ICLR 2026, et la réaction en ligne a été immédiate.
Le PDG de Cloudflare, Matthew Prince, l'a qualifié de moment DeepSeek de Google. Les cours des actions de mémoire, notamment Micron, Western Digital et Seagate, ont chuté le même jour.
Alors, est-ce réel ?
L'efficacité de la quantification est en soi une grande réalisation. Mais « perte de précision nulle » nécessite un contexte.
TurboQuant cible le cache KV — le morceau de mémoire GPU qui stocke tout ce qu'un modèle de langage doit mémoriser pendant une conversation.
À mesure que les fenêtres de contexte augmentent vers des millions de tokens, ces caches gonflent jusqu'à des centaines de gigaoctets par session. C'est le véritable goulot d'étranglement. Pas la puissance de calcul, mais la mémoire brute.
Les méthodes de compression traditionnelles tentent de réduire ces caches en arrondissant les nombres vers le bas — par exemple, de floats 32 bits à 16, à 8, à des entiers 4 bits. Pour mieux le comprendre, pensez à réduire une image de 4K, à full HD, à 720p et ainsi de suite. Il est facile de voir qu'il s'agit de la même image dans l'ensemble, mais il y a plus de détails en résolution 4K.
Le piège : ils doivent stocker des « constantes de quantification » supplémentaires aux côtés des données compressées pour éviter que le modèle ne devienne stupide. Ces constantes ajoutent 1 à 2 bits par valeur, érodant partiellement les gains.
TurboQuant prétend éliminer entièrement ce surcoût.
Il le fait via deux sous-algorithmes. PolarQuant sépare la magnitude de la direction dans les vecteurs, et QJL (Quantized Johnson-Lindenstrauss) prend la minuscule erreur résiduelle restante et la réduit à un seul bit de signe, positif ou négatif, avec zéro constante stockée.
Le résultat, selon Google, est un estimateur mathématiquement non biaisé pour les calculs d'attention qui pilotent les modèles de transformateurs.
Dans les benchmarks utilisant Gemma et Mistral, TurboQuant a égalé les performances en pleine précision sous une compression 4x, y compris une précision de récupération parfaite sur les tâches needle-in-haystack jusqu'à 104 000 tokens.
Pour contextualiser pourquoi ces benchmarks importent, l'expansion du contexte utilisable d'un modèle sans perte de qualité a été l'un des problèmes les plus difficiles dans le déploiement des LLM.
Maintenant, les petits caractères.
« Perte de précision nulle » s'applique à la compression du cache KV pendant l'inférence — pas aux poids du modèle. La compression des poids est un problème complètement différent et plus difficile. TurboQuant n'y touche pas.
Ce qu'il compresse, c'est la mémoire temporaire stockant les calculs d'attention en milieu de session, ce qui est plus tolérant car ces données peuvent théoriquement être reconstruites.
Il y a aussi l'écart entre un benchmark propre et un système de production servant des milliards de requêtes. TurboQuant a été testé sur des modèles open-source — Gemma, Mistral, Llama — et non sur la propre pile Gemini de Google à grande échelle.
Contrairement aux gains d'efficacité de DeepSeek, qui nécessitaient des décisions architecturales profondes intégrées dès le départ, TurboQuant ne nécessite aucun réentraînement ni ajustement et prétend avoir un surcoût d'exécution négligeable. En théorie, il s'intègre directement dans les pipelines d'inférence existants.
C'est la partie qui a effrayé le secteur du matériel de mémoire — car si cela fonctionne en production, chaque grand laboratoire d'IA fonctionne de manière plus efficace sur les mêmes GPU qu'ils possèdent déjà.
L'article sera présenté à l'ICLR 2026. Jusqu'à ce qu'il soit déployé en production, le titre « perte nulle » reste au laboratoire.
Newsletter Daily Debrief
Commencez chaque jour avec les principales actualités en ce moment, plus des fonctionnalités originales, un podcast, des vidéos et plus encore.
Source : https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss


