O post Google Reduz Memória de IA Sem Perda de Precisão—Mas Há um Senão apareceu no BitcoinEthereumNews.com. Em resumo, a Google afirmou que o seu algoritmo TurboQuant podeO post Google Reduz Memória de IA Sem Perda de Precisão—Mas Há um Senão apareceu no BitcoinEthereumNews.com. Em resumo, a Google afirmou que o seu algoritmo TurboQuant pode

Google Reduz Memória da IA Sem Perda de Precisão—Mas Há um Senão

2026/03/26 07:33
Leu 4 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Em resumo

  • A Google afirmou que o seu algoritmo TurboQuant pode reduzir um grande estrangulamento de memória de IA em pelo menos seis vezes sem perda de precisão durante a inferência.
  • As ações de empresas de memória, incluindo Micron, Western Digital e Seagate, caíram após a circulação do documento.
  • O método comprime a memória de inferência, não os pesos do modelo, e foi testado apenas em benchmarks de investigação.

A Google Research publicou o TurboQuant na quarta-feira, um algoritmo de compressão que reduz um grande estrangulamento de memória de inferência em pelo menos 6x, mantendo perda zero de precisão.

O documento está previsto para apresentação na ICLR 2026, e a reação online foi imediata.

O CEO da Cloudflare, Matthew Prince, chamou-lhe o momento DeepSeek da Google. Os preços das ações de memória, incluindo Micron, Western Digital e Seagate, caíram no mesmo dia.

Então é real?

A eficiência de quantização é uma grande conquista por si só. Mas "perda zero de precisão" precisa de contexto.

O TurboQuant tem como alvo a cache KV—a porção de memória GPU que armazena tudo o que um modelo de linguagem precisa de recordar durante uma conversa.

À medida que as janelas de contexto crescem para milhões de tokens, essas caches expandem-se para centenas de gigabytes por sessão. Esse é o verdadeiro estrangulamento. Não é o poder de computação, mas a memória bruta.

Os métodos de compressão tradicionais tentam reduzir essas caches arredondando números para baixo—de floats de 32 bits para 16, para 8 para inteiros de 4 bits, por exemplo. Para compreender melhor, pense em reduzir uma imagem de 4K, para full HD, para 720p e assim por diante. É fácil perceber que é a mesma imagem no geral, mas há mais detalhe na resolução 4K.

O problema: têm de armazenar "constantes de quantização" extra ao lado dos dados comprimidos para evitar que o modelo fique estúpido. Essas constantes adicionam 1 a 2 bits por valor, erodindo parcialmente os ganhos.

O TurboQuant afirma que elimina esse overhead inteiramente.

Faz isso através de dois sub-algoritmos. O PolarQuant separa a magnitude da direção em vetores, e o QJL (Quantized Johnson-Lindenstrauss) pega no pequeno erro residual que sobra e reduz-o a um único bit de sinal, positivo ou negativo, com zero constantes armazenadas.

O resultado, segundo a Google, é um estimador matematicamente imparcial para os cálculos de atenção que impulsionam modelos transformer.

Em benchmarks usando Gemma e Mistral, o TurboQuant igualou o desempenho de precisão total sob compressão 4x, incluindo precisão de recuperação perfeita em tarefas needle-in-haystack até 104.000 tokens.

Para contextualizar por que esses benchmarks importam, expandir o contexto utilizável de um modelo sem perda de qualidade tem sido um dos problemas mais difíceis na implementação de LLM.

Agora, as letras pequenas.

"Perda zero de precisão" aplica-se à compressão de cache KV durante a inferência—não aos pesos do modelo. Comprimir pesos é um problema completamente diferente e mais difícil. O TurboQuant não toca nesses.

O que comprime é a memória temporária que armazena cálculos de atenção durante a sessão, o que é mais tolerante porque esses dados podem teoricamente ser reconstruídos.

Há também a lacuna entre um benchmark limpo e um sistema de produção que serve milhares de milhões de pedidos. O TurboQuant foi testado em modelos open-source—Gemma, Mistral, Llama—não na própria stack Gemini da Google em escala.

Ao contrário dos ganhos de eficiência do DeepSeek, que exigiram decisões arquiteturais profundas incorporadas desde o início, o TurboQuant não requer retreinamento ou ajuste fino e afirma ter overhead de execução negligenciável. Em teoria, integra-se diretamente nos pipelines de inferência existentes.

Essa é a parte que assustou o sector de hardware de memória—porque se funcionar em produção, cada grande laboratório de IA funciona de forma mais eficiente nas mesmas GPUs que já possui.

O documento vai para a ICLR 2026. Até que seja implementado em produção, o título de "perda zero" fica no laboratório.

Newsletter Daily Debrief

Comece todos os dias com as principais notícias neste momento, além de funcionalidades originais, um podcast, vídeos e muito mais.

Fonte: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Oportunidade de mercado
Logo de Major
Cotação Major (MAJOR)
$0.06528
$0.06528$0.06528
+0.38%
USD
Gráfico de preço em tempo real de Major (MAJOR)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.