Google Research опубликовал работу о технологии TurboQuant — алгоритме, который сокращает объём памяти, необходимый для работы ИИ, как минимум в шесть раз, при этом точность ответов не снижается, а дополнительное обучение модели не требуется.
В процессе генерации текста модели используют так называемый KV-кеш — область памяти, где хранятся ранее вычисленные данные механизма внимания, что позволяет не пересчитывать их заново на каждом шаге, но чем длиннее контекстное окно, тем больше разрастается этот кеш. На определённом этапе он начинает занимать десятки гигабайт, и даже мощные видеокарты с большим объёмом VRAM оказываются бессильны. Традиционные методы квантизации (сжатия) данных давно используются для уменьшения размера кеша, но у них есть скрытый недостаток: вместе со сжатыми данными приходится хранить так называемые константы квантизации — что-то вроде словаря, как в архиваторах ZIP или RAR.
Исследователи протестировали TurboQuant на открытых моделях Gemma и Mistral, используя наборы бенчмарков с длинным контекстом: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval. В простых задачах алгоритм показал идеальные результаты, сократив объём KV-кеша минимум в шесть раз, а более сложных сценариях (ответах на вопросы, генерации кода и создании сводок) разница ьыла не столь гигантской, но лучше существующего алгоритма сжатия KIVI. На ускорителях NVIDIA H100 4-битная версия TurboQuant продемонстрировала восьмикратный прирост производительности.
Рынок уже отреагировали на анонс и акции крупнейших производителей памяти просели, что отражает изменение ожиданий инвесторов и если массовое внедрение TurboQuant снизит требования к объёму VRAM, компании смогут либо сократить аппаратные затраты, либо увеличить контекстные
