Der Beitrag Google Shrinks AI Memory With No Accuracy Loss—But There's a Catch erschien auf BitcoinEthereumNews.com. Kurz gesagt, Google erklärte, dass sein TurboQuant-Algorithmus in der Lage istDer Beitrag Google Shrinks AI Memory With No Accuracy Loss—But There's a Catch erschien auf BitcoinEthereumNews.com. Kurz gesagt, Google erklärte, dass sein TurboQuant-Algorithmus in der Lage ist

Google reduziert KI-Speicher ohne Genauigkeitsverlust – aber es gibt einen Haken

2026/03/26 07:33
3 Min. Lesezeit
Bei Feedback oder Anliegen zu diesem Inhalt kontaktieren Sie uns bitte unter crypto.news@mexc.com

Kurz zusammengefasst

  • Google gab an, dass sein TurboQuant-Algorithmus einen großen AI-Speicherengpass während der Inferenz um mindestens das Sechsfache reduzieren kann, ohne Genauigkeitsverlust.
  • Speicheraktien wie Micron, Western Digital und Seagate fielen, nachdem das Papier verbreitet wurde.
  • Die Methode komprimiert Inferenzspeicher, nicht Modellgewichte, und wurde nur in Forschungs-Benchmarks getestet.

Google Research veröffentlichte am Mittwoch TurboQuant, einen Kompressionsalgorithmus, der einen großen Inferenz-Speicherengpass um mindestens das 6-fache reduziert, während er null Genauigkeitsverlust beibehält.

Das Papier ist für die Präsentation auf der ICLR 2026 vorgesehen, und die Online-Reaktion war unmittelbar.

Cloudflare-CEO Matthew Prince nannte es Googles DeepSeek-Moment. Speicheraktienpreise, darunter Micron, Western Digital und Seagate, fielen am selben Tag.

Ist es also real?

Quantisierungseffizienz ist an sich schon eine große Errungenschaft. Aber "null Genauigkeitsverlust" braucht Kontext.

TurboQuant zielt auf den KV-Cache ab – den Teil des GPU-Speichers, der alles speichert, was ein Sprachmodell während einer Konversation erinnern muss.

Wenn Kontextfenster in Richtung Millionen von Token wachsen, schwellen diese Caches auf Hunderte von Gigabyte pro Sitzung an. Das ist der eigentliche Engpass. Nicht Rechenleistung, sondern reiner Speicher.

Traditionelle Kompressionsmethoden versuchen, diese Caches zu verkleinern, indem sie Zahlen abrunden – zum Beispiel von 32-Bit-Floats auf 16, auf 8 bis 4-Bit-Integer. Um es besser zu verstehen, denken Sie daran, ein Bild von 4K auf Full HD auf 720p zu verkleinern und so weiter. Es ist leicht zu erkennen, dass es insgesamt dasselbe Bild ist, aber es gibt mehr Details in 4K-Auflösung.

Der Haken: Sie müssen zusätzliche "Quantisierungskonstanten" neben den komprimierten Daten speichern, um zu verhindern, dass das Modell dumm wird. Diese Konstanten fügen 1 bis 2 Bits pro Wert hinzu und untergraben teilweise die Gewinne.

TurboQuant behauptet, diesen Overhead vollständig zu eliminieren.

Es tut dies über zwei Unteralgorithmen. PolarQuant trennt Größe von Richtung in Vektoren, und QJL (Quantized Johnson-Lindenstrauss) nimmt den winzigen verbleibenden Restfehler und reduziert ihn auf ein einzelnes Vorzeichenbit, positiv oder negativ, mit null gespeicherten Konstanten.

Das Ergebnis, sagt Google, ist ein mathematisch unvoreingenommener Schätzer für die Aufmerksamkeitsberechnungen, die Transformer-Modelle antreiben.

In Benchmarks mit Gemma und Mistral erreichte TurboQuant unter 4-facher Kompression Vollpräzisionsleistung, einschließlich perfekter Abrufgenauigkeit bei Nadel-im-Heuhaufen-Aufgaben mit bis zu 104.000 Token.

Für den Kontext, warum diese Benchmarks wichtig sind: Die Erweiterung des nutzbaren Kontexts eines Modells ohne Qualitätsverlust war eines der schwierigsten Probleme bei der LLM-Bereitstellung.

Nun das Kleingedruckte.

"Null Genauigkeitsverlust" gilt für die KV-Cache-Kompression während der Inferenz – nicht für die Gewichte des Modells. Die Kompression von Gewichten ist ein völlig anderes, schwierigeres Problem. TurboQuant berührt diese nicht.

Was es komprimiert, ist der temporäre Speicher, der Aufmerksamkeitsberechnungen während der Sitzung speichert, was nachsichtiger ist, weil diese Daten theoretisch rekonstruiert werden können.

Es gibt auch die Lücke zwischen einem sauberen Benchmark und einem Produktionssystem, das Milliarden von Anfragen bedient. TurboQuant wurde an Open-Source-Modellen getestet – Gemma, Mistral, Llama – nicht an Googles eigenem Gemini-Stack im großen Maßstab.

Im Gegensatz zu DeepSeeks Effizienzgewinnen, die von Anfang an tief verwurzelte architektonische Entscheidungen erforderten, benötigt TurboQuant kein erneutes Training oder Feintuning und behauptet vernachlässigbaren Laufzeit-Overhead. Theoretisch fügt es sich direkt in bestehende Inferenz-Pipelines ein.

Das ist der Teil, der den Speicherhardware-Sektor erschreckte – denn wenn es in der Produktion funktioniert, läuft jedes große AI-Labor schlanker auf denselben GPUs, die sie bereits besitzen.

Das Papier geht zur ICLR 2026. Bis es in der Produktion ausgeliefert wird, bleibt die "Null-Verlust"-Schlagzeile im Labor.

Daily Debrief Newsletter

Beginnen Sie jeden Tag mit den wichtigsten Nachrichten jetzt, plus Originalfeatures, einem Podcast, Videos und mehr.

Quelle: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Marktchance
Major Logo
Major Kurs(MAJOR)
$0.06521
$0.06521$0.06521
+0.27%
USD
Major (MAJOR) Echtzeit-Preis-Diagramm
Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an crypto.news@mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.