Заявленные технические характеристики:
Сжатие. Потребление памяти снижается минимум в 6 раз. Кэш квантуется до 3–4 бит на значение.
Скорость. Вычисления ускоряются до 8 раз (по результатам тестов на ускорителях NVIDIA H100).
Точность. Отсутствует измеримая потеря качества генерации. Метод не требует дополнительного обучения или тонкой настройки исходной модели.
Алгоритм опирается на два математических метода. PolarQuant переводит векторы данных в полярные координаты для базового сжатия. Затем алгоритм QJL (Quantized Johnson-Lindenstrauss) кодирует остаточную ошибку сжатия, используя 1 бит на значение, что позволяет сохранить корректные геометрические расстояния между векторами.
После публикации исследования акции ключевых производителей чипов памяти (включая Samsung, SK Hynix и Micron) показали падение. Рынок отреагировал на перспективу снижения спроса: массовое внедрение TurboQuant позволит дата-центрам запускать мощные ИИ-модели, используя кратно меньший объем ОЗУ и видеопамяти.
