На рынке ИИ-вычислений наметился сдвиг: привычная модель оценки мощности через «GPU-часы» постепенно уступает более прикладной метрике — стоимости генерации текста. На этом фоне альтернативные решения начинают выглядеть заметно привлекательнее классических GPU от NVIDIA. По данным, озвученным представителем инфраструктурной компании Nebius, корпоративный спрос сегодня на 90–95 % состоит не из обучения моделей, а из инференса — то есть запуска уже готовых ИИ. Это изменило и подход к ценообразованию: всё чаще компании считают не часы работы оборудования, а стоимость за миллион обработанных токенов.
В этой системе чипы стартапа Groq выглядят значительно выгоднее и по оценкам, их использование обходится примерно в 5–10 центов за миллион токенов, тогда как решения NVIDIA на архитектуре Blackwell (B100, B200, B300) — около 25 центов. При этом Groq выигрывает не только по цене и производительность таких чипов может доходить до 800 токенов в секунду против примерно 450 у GPU NVIDIA, что даёт прирост скорости порядка 70–80 % в задачах генерации текста.
Однако говорить о полноценной замене GPU пока рано, так как NVIDIA сохраняет ключевое преимущество в обучении моделей — это по-прежнему наиболее ресурсоёмкий этап, где специализированные решения вроде Groq пока не конкурируют.Фактически рынок начинает делиться на два сегмента: обучение остаётся за GPU, а инференс постепенно уходит к более узкоспециализированным чипам. Для понимания масштабов: аренда GPU NVIDIA остаётся дорогой даже на фоне новых метрик. Например, H100 на спотовом рынке стоит около $2,95 в час, H200 — $3,50, а Blackwell B200 — до $6,50. Любопытно, что в конце 2025 года NVIDIA и Groq заключили неэксклюзивное лицензионное соглашение по технологиям инференса. На тот