Исследовательская группа ИИ компании Tether выпустила производственную версию TurboQuant с открытым исходным кодом — алгоритма сжатия памяти, изначально разработанного Google Research.
Релиз входит в состав QVAC SDK 0.12.0 и ориентирован на ноутбуки, телефоны, периферийные устройства и децентрализованные сети. Он позволяет локальным моделям ИИ обрабатывать более длительные сессии без использования облачной инфраструктуры.
Это знаменует практический сдвиг в том, как ИИ на устройствах справляется с задачами, требующими значительного объёма памяти.
Память долгое время оставалась барьером для запуска полноценных моделей ИИ на потребительском оборудовании. Когда ИИ-ассистент обрабатывает длинный документ или разговор, он сохраняет контекст в так называемом KV-кэше.
При примерно 262 000 токенов KV-кэш для модели 4B может занимать около 8 ГБ памяти. Четыре одновременные сессии могут увеличить этот показатель до 32 ГБ, не считая самой модели.
TurboQuant решает эту проблему, сжимая KV-кэш до пяти раз при сохранении качества вывода, близкого к несжатой модели.
Теперь пользователь может попросить ассистента на ноутбуке проанализировать стостраничный юридический документ без его загрузки на удалённый сервер.
Студенты, разработчики, журналисты и исследователи — все могут воспользоваться более длительными и контекстно-осведомлёнными сессиями ИИ на уже имеющихся устройствах.
Комментируя общую логику выпуска, генеральный директор Tether Паоло Ардоино указал на разрыв между исследованиями и практическим программным обеспечением.
"Исследования Google показали, что память ИИ можно сжимать значительно эффективнее, чем большинство людей предполагало," — сказал он. "Наша работа переносит это открытие в производственное программное обеспечение, с которым разработчики, стартапы и пользователи могут реально работать."
Производственный релиз включает полный конвейер квантизации, адаптеры для фреймворков, документацию для разработчиков и профили, настроенные под различные рабочие нагрузки.
Эти компоненты разработаны для реальных сред за пределами гипермасштабных центров обработки данных и охватывают ограниченную память, смешанное оборудование и развёртывания, чувствительные к задержкам.
TurboQuant поставляется в составе QVAC SDK 0.12.0, интегрированный непосредственно в Fabric — ключевой компонент стека QVAC.
Fabric начинался как форк llama.cpp и с тех пор вырос, включив в себя множество исследовательских достижений. SDK предоставляет разработчикам единый набор инструментов, библиотек и компонентов среды выполнения для создания локальных ИИ-приложений.
Для стартапов и независимых разработчиков это устраняет предположение о том, что крупные ИИ-продукты требуют дорогостоящих GPU-кластеров.
Команды теперь могут проектировать с учётом более длинных контекстных окон, больших файловых нагрузок и гибкого развёртывания на потребительском и периферийном оборудовании. Это открывает практические пути для создания ИИ-продуктов без архитектуры, завязанной исключительно на облаке.
Обращаясь к вопросам конфиденциальности данных и зависимости от облака, Ардоино высказался в пользу выполнения задач ИИ на локальных устройствах.
"Люди должны иметь возможность попросить ИИ-ассистента прочитать длинный документ или работать с личной информацией, не заставляя каждую задачу проходить через удалённый центр обработки данных," — сказал он. TurboQuant в этом смысле даёт локальному ИИ больше операционного пространства.
Стратегия Tether сосредоточена на ИИ, работающем ближе к пользователям — на персональных устройствах и в децентрализованных сетях. Компания рассматривает эффективность программного обеспечения и его портативность как определяющие факторы следующего этапа развития ИИ наряду с крупномасштабной вычислительной инфраструктурой.
Публикация Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices впервые появилась на Blockonomi.


