Аналитическая компания Relum опубликовала результаты независимого тестирования десяти крупных языковых моделей. Согласно исследованию, чат-бот Grok продемонстрировал самый низкий уровень «галлюцинаций» ИИ. В ходе оценки Grok генерировал недостоверные ответы лишь в 8% случаев, что лучший показатель среди всех протестированных моделей. Для сравнения, у ChatGPT от OpenAI этот параметр составил 35%, а у Google Gemini — 38%.
Исследователи Relum оценивали модели по четырем ключевым параметрам: уровень «галлюцинаций», оценки пользователей, стабильность ответов и время недоступности сервиса. На основе этих данных каждой модели был присвоен сводный индекс риска надежности по шкале от 0 до 99, где большее значение означает более высокий риск ошибок и проблем.
Grok, с его 8% «галлюцинаций», средним рейтингом 4.5, оценкой стабильности 3.5 и временем простоя 0.07%, получил совокупный индекс риска всего 6 баллов. Ближайшим конкурентом по общей надежности оказался DeepSeek с индексом 4, но его уровень «галлюцинаций» был почти вдвое выше — 14%. ChatGPT оказался на противоположном конце спектра с максимальным индексом риска в 99 баллов.
Точность ответов становится критически важной на фоне активного внедрения ИИ в бизнес-процессы. Согласно приведенным в отчете данным, около 65% компаний в США уже используют чат-ботов в повседневной работе, при этом почти 45% сотрудников признаются, что передавали таким сервисам конфиденциальную или чувствительную рабочую информацию.
Исследование выявило заметный разрыв между узнаваемостью бренда и фактической производительностью моделей. Несмотря на относительно меньшую распространенность, Grok показал себя как решение, потенциально более пригодное для задач, где на первом месте стоит точность фактов.