Самый скромный ИИ Маска: Grok 4.2 наконец-то научился тому, чего лишены ChatGPT и Claude — не придумывать факты

Илон Маск Илона Маска Железо и технологии Искусственный интеллект Аналитика и статистика НОВОСТИ

17.03.2026 - 08:55

Сейчас читают: 684

vgtimes.ru:

Пока все следили за тем, кто быстрее пишет код или решает олимпиадные задачи по математике, ИИ от Илона Маска (Elon Musk) вырвалась в лидеры в двух критически важных для обычного пользователя дисциплинах: она перестала врать и научилась слушаться. xAI выпустила вторую бета-версию своей модели Grok 4.2 и открыла к ней доступ через API и аналитики с портала Artificial Analysis, сразу прогнали новинку через серию тестов. Результаты оказались крайне любопытными: по сумме всех показателей Grok пока не чемпион, но в двух ключевых показателях он буквально разгромил ChatGPT, Claude и Gemini.

Внутри новой версии произошли архитектурные изменения и по данным разработчиков, во время сложных рассуждений модель теперь может разделяться на четыре условные «личности» со своими специализациями. Они ведут внутренний диалог, обсуждают задачу с разных сторон и лишь потом выдают пользователю итоговый ответ.

Лучший результат у Grok 4.2 в тесте на устойчивость к галлюцинациям (AA-Omniscience), тут он набрал впечатляющие 78%. Для сравнения: наиболее мощная версия Claude 4.6 Opus получила лишь 39%, а свежий ChatGPT 5.4 и вовсе провалился с 11%. Проще говоря, Grok оказался единственной моделью, которая чаще других способна честно сказать «я не знаю», вместо того чтобы генерировать красивую, но ложную чушь.

Вторая важная победа была в тесте IFBench, который измеряет точность следования инструкциям пользователя (промптам). Grok 4.2 показал результат 83%, оставив позади Gemini 3.1 Pro (77%) и значительно оторвавшись от Claude 4.6 Opus (53%). При этом версия Grok 4.0 год назад набирала здесь только 54%, так что прогресс налицо. Несмотря на прорыв в «честности» и послушании, обогнать отельных Grok 4.2 пока не может. В общем рейтинге Artificial Analysis,

Читать на vgtimes.ru

Все новости от vgtimes.ru

Об этом же в других СМИ

Самый хардкорный геймер? Игрок четыре года ежедневно побеждает босса в Sekiro: Shadows Die Twice и молча выкладывает это на YouTube vgtimes.ru /3 месяца назад

Пациент с мозговым чипом Neuralink играет в World of Warcraft ridus.ru /3 месяца назад

«Я предпочту грандиозный провал скромному успеху»: создатель The Sims потратил 10 лет и миллионы на игру, которую никто не понимает vgtimes.ru /3 месяца назад

Сайт playerone.cc - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Самый скромный ИИ Маска: Grok 4.2 наконец-то научился тому, чего лишены ChatGPT и Claude — не придумывать факты

Похожие новости

343 о результате на ESL One Birmingham 2026: «Шанс есть всегда. Просто по итогу мы не смогли его реализовать»

«Мне нравится новый патч» — ari достиг отметки в 17 000 MMR

Сборка PC стала ещё больнее. Названы лучшие связки процессоров и видеокарт

Китайские продавцы ОЗУ "в панике" распродают запасы DDR-модулей на фоне резкого падения цен

В Epic Games Store стартовала раздача романтической визуальной новеллы об уходе за отрубленной женской головой

Регулятор США поставил под сомнение уникальность игровых механик Nintendo в споре с Palworld

Google возьмётся за умные часы: приложения без 64-битной версии заблокируют через полгода

Может свести олдскулы — классическая трилогия Resident Evil из 90-х вышла в Steam

Процессоры для ноутбуков Intel Nova Lake-HX будут иметь максимум 28 ядер и всего два ядра для iGPU

Игроки профинансировали русскую озвучку South Park: The Stick of Truth от GamesVoice — она выйдет «до того, как у вас закончатся запасы терпения»

Кривоватый осьминог Konami: Состоялся релиз Darwin's Paradox

В Crimson Desert нашли вырезанную систему еды с дебаффами и уровнями

Успех длиной в восемь лет: мобильная Hogwarts Mystery преодолела рубеж в 160 млн скачиваний

NieR: Cosmic Horror обзавелась таинственным сайтом с обратным отсчетом

Это все-таки не шутка? Авторы NieR, кажется, действительно тизерят «космический хоррор»

Второй монитор размером с ладонь: DeepCool превратила помпу СЖО в отдельный экран

Лучшие герои и билды на все позиции в патче 7.41a — мета на «Титанах»

Новый "Супер Марио" ставит рекорды и получает восторженные отзывы зрителей

В Dota 2 обнаружили новый баг — он связан с Ancient Apparition, Aghanim's Scepter и Specialist's Array

Состоялся релиз Darwin's Paradox! - приключение про осьминога в духе анимационного фильма

Playdigious показали геймплей и интерфейс Sea of Stars Mobile