Пока все следили за тем, кто быстрее пишет код или решает олимпиадные задачи по математике, ИИ от Илона Маска (Elon Musk) вырвалась в лидеры в двух критически важных для обычного пользователя дисциплинах: она перестала врать и научилась слушаться. xAI выпустила вторую бета-версию своей модели Grok 4.2 и открыла к ней доступ через API и аналитики с портала Artificial Analysis, сразу прогнали новинку через серию тестов. Результаты оказались крайне любопытными: по сумме всех показателей Grok пока не чемпион, но в двух ключевых показателях он буквально разгромил ChatGPT, Claude и Gemini.
Внутри новой версии произошли архитектурные изменения и по данным разработчиков, во время сложных рассуждений модель теперь может разделяться на четыре условные «личности» со своими специализациями. Они ведут внутренний диалог, обсуждают задачу с разных сторон и лишь потом выдают пользователю итоговый ответ.
Лучший результат у Grok 4.2 в тесте на устойчивость к галлюцинациям (AA-Omniscience), тут он набрал впечатляющие 78%. Для сравнения: наиболее мощная версия Claude 4.6 Opus получила лишь 39%, а свежий ChatGPT 5.4 и вовсе провалился с 11%. Проще говоря, Grok оказался единственной моделью, которая чаще других способна честно сказать «я не знаю», вместо того чтобы генерировать красивую, но ложную чушь.
Вторая важная победа была в тесте IFBench, который измеряет точность следования инструкциям пользователя (промптам). Grok 4.2 показал результат 83%, оставив позади Gemini 3.1 Pro (77%) и значительно оторвавшись от Claude 4.6 Opus (53%). При этом версия Grok 4.0 год назад набирала здесь только 54%, так что прогресс налицо. Несмотря на прорыв в «честности» и послушании, обогнать отельных Grok 4.2 пока не может. В общем рейтинге Artificial Analysis,