Google Reduz Memória da IA Sem Perda de Precisão—Mas Há um Senão

Em resumo

A Google afirmou que o seu algoritmo TurboQuant pode reduzir um grande estrangulamento de memória de IA em pelo menos seis vezes sem perda de precisão durante a inferência.
As ações de empresas de memória, incluindo Micron, Western Digital e Seagate, caíram após a circulação do documento.
O método comprime a memória de inferência, não os pesos do modelo, e foi testado apenas em benchmarks de investigação.

A Google Research publicou o TurboQuant na quarta-feira, um algoritmo de compressão que reduz um grande estrangulamento de memória de inferência em pelo menos 6x, mantendo perda zero de precisão.

O documento está previsto para apresentação na ICLR 2026, e a reação online foi imediata.

O CEO da Cloudflare, Matthew Prince, chamou-lhe o momento DeepSeek da Google. Os preços das ações de memória, incluindo Micron, Western Digital e Seagate, caíram no mesmo dia.

Então é real?

A eficiência de quantização é uma grande conquista por si só. Mas "perda zero de precisão" precisa de contexto.

O TurboQuant tem como alvo a cache KV—a porção de memória GPU que armazena tudo o que um modelo de linguagem precisa de recordar durante uma conversa.

À medida que as janelas de contexto crescem para milhões de tokens, essas caches expandem-se para centenas de gigabytes por sessão. Esse é o verdadeiro estrangulamento. Não é o poder de computação, mas a memória bruta.

Os métodos de compressão tradicionais tentam reduzir essas caches arredondando números para baixo—de floats de 32 bits para 16, para 8 para inteiros de 4 bits, por exemplo. Para compreender melhor, pense em reduzir uma imagem de 4K, para full HD, para 720p e assim por diante. É fácil perceber que é a mesma imagem no geral, mas há mais detalhe na resolução 4K.

O problema: têm de armazenar "constantes de quantização" extra ao lado dos dados comprimidos para evitar que o modelo fique estúpido. Essas constantes adicionam 1 a 2 bits por valor, erodindo parcialmente os ganhos.

O TurboQuant afirma que elimina esse overhead inteiramente.

Faz isso através de dois sub-algoritmos. O PolarQuant separa a magnitude da direção em vetores, e o QJL (Quantized Johnson-Lindenstrauss) pega no pequeno erro residual que sobra e reduz-o a um único bit de sinal, positivo ou negativo, com zero constantes armazenadas.

O resultado, segundo a Google, é um estimador matematicamente imparcial para os cálculos de atenção que impulsionam modelos transformer.

Em benchmarks usando Gemma e Mistral, o TurboQuant igualou o desempenho de precisão total sob compressão 4x, incluindo precisão de recuperação perfeita em tarefas needle-in-haystack até 104.000 tokens.

Para contextualizar por que esses benchmarks importam, expandir o contexto utilizável de um modelo sem perda de qualidade tem sido um dos problemas mais difíceis na implementação de LLM.

Agora, as letras pequenas.

"Perda zero de precisão" aplica-se à compressão de cache KV durante a inferência—não aos pesos do modelo. Comprimir pesos é um problema completamente diferente e mais difícil. O TurboQuant não toca nesses.

O que comprime é a memória temporária que armazena cálculos de atenção durante a sessão, o que é mais tolerante porque esses dados podem teoricamente ser reconstruídos.

Há também a lacuna entre um benchmark limpo e um sistema de produção que serve milhares de milhões de pedidos. O TurboQuant foi testado em modelos open-source—Gemma, Mistral, Llama—não na própria stack Gemini da Google em escala.

Ao contrário dos ganhos de eficiência do DeepSeek, que exigiram decisões arquiteturais profundas incorporadas desde o início, o TurboQuant não requer retreinamento ou ajuste fino e afirma ter overhead de execução negligenciável. Em teoria, integra-se diretamente nos pipelines de inferência existentes.

Essa é a parte que assustou o sector de hardware de memória—porque se funcionar em produção, cada grande laboratório de IA funciona de forma mais eficiente nas mesmas GPUs que já possui.

O documento vai para a ICLR 2026. Até que seja implementado em produção, o título de "perda zero" fica no laboratório.

Newsletter Daily Debrief

Comece todos os dias com as principais notícias neste momento, além de funcionalidades originais, um podcast, vídeos e muito mais.

Fonte: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Google Reduz Memória da IA Sem Perda de Precisão—Mas Há um Senão

Em resumo

Então é real?

Newsletter Daily Debrief

Você também pode gostar

Cá voi rút gần 12.000 ETH khỏi Coinbase để staking sau 1 tháng im ắng

Google ấn định hạn chót 2029 cho chuyển đổi mật mã hậu lượng tử

Ethereum tăng giữa khủng hoảng Tây Á nhưng đà tăng rủi ro

Notícias em alta

Cá voi rút gần 12.000 ETH khỏi Coinbase để staking sau 1 tháng im ắng

Google ấn định hạn chót 2029 cho chuyển đổi mật mã hậu lượng tử

Ethereum tăng giữa khủng hoảng Tây Á nhưng đà tăng rủi ro

Chủ tịch CFTC ưu tiên đưa hợp đồng vĩnh cửu crypto về Mỹ

TRM Labs ra mắt công cụ AI hỗ trợ cảnh sát truy vết tội phạm crypto

Preços das criptomoedas