ИИ для настоящей науки: Gemini 3 Deep Think умеет признавать ошибки. Осталось научить его не совершать их по сто раз

Google Железо и технологии Искусственный интеллект НОВОСТИ Gemini

13.02.2026 - 09:55

Сейчас читают: 743

vgtimes.ru:

Google представила крупное обновление рассуждающей модели Gemini 3 Deep Think, сделав ставку на применение искусственного интеллекта в реальных научных и инженерных задачах. Одновременно DeepMind показала исследовательского агента Aletheia, который умеет честно говорить «я не знаю», но при этом всё ещё пытается хитрить с условиями.

Новый режим Deep Think, доступный с сегодняшнего дня подписчикам Google AI Ultra в приложении Gemini, разработчики позиционируют не как очередную абстрактную модель для синтетических тестов, а как попытку применить рассуждающий ИИ там, где данные противоречивы, а у задачи может вообще не существовать единственно верного ответа. С бенчмарками у Gemini 3 Deep Think действительно всё в порядке: 48,4% на «Последнем экзамене человечества» (Humanity's Last Exam) без привлечения внешних инструментов, 84,6% в тесте ARC-AGI-2 на визуальное рассуждение и рейтинг 3 455 Эло на Codeforces, что примерно соответствует уровню топ-10 программистов мира.

Однако куда интереснее, что происходит, когда Deep Think перестаёт решать задачи с чёткими условиями и погружается в настоящую науку. В DeepMind показали агента Aletheia, построенного поверх обновлённой модели, который умеет проверять собственные гипотезы, обращаться к поиску Google, не выдумывать несуществующие ссылки и способен признать, что не может решить задачу, что многократно снижает риск галлюцинаций. В отчёте исследователи прямо пишут: модель демонстрирует «склонность неверно понимать вопрос таким образом, чтобы на него было легче ответить». Если перевести с академического на человеческий: Gemini 3 Deep Think всё ещё подгоняет решение под ответ, а когда не получается — подгоняет условие.

На шкале научной новизны, которую разработали в DeepMind, Aletheia

Читать на vgtimes.ru

Все новости от vgtimes.ru

Об этом же в других СМИ

Игрок написал инструмент для сравнения региональных цен на товары в Battle.net noob-club.ru /4 месяца назад

Думали об игроках: Стало известно, почему за Clair Obscur: Expedition 33 попросили всего $50 вместо стандартных $60-70 gamemag.ru /4 месяца назад

Спасительница Xbox назвала Valheim и Halo лучшими проектами в истории сразу после создания профиля в сети playground.ru /4 месяца назад

Сайт playerone.cc - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

ИИ для настоящей науки: Gemini 3 Deep Think умеет признавать ошибки. Осталось научить его не совершать их по сто раз

Похожие новости

"Золотая малина 2026": "Война миров" стал главным антигероем, но "Белоснежка" тоже не остался без "наград"

Сара Мишель Геллар ведет охоту в отрывке из "Я иду искать 2"

Marathon получила самые низкие оценки на Metacritic среди основных игр Bungie - всего 72 балла из 100

Продюсер Nintendo намекнул, что идеи Donkey Kong Bananza могут повлиять на следующую игру студии

Создатель Remothered пригрозил судом из-за отсутствия его имени в материалах новой игры

В Японии заметно подешевели видеокарты AMD Radeon RX 9000 - RX 9070 XT уже стоит дешевле, чем в декабре

Разработчики Slitterhead из Bokeh Game Studio приступили к работе над новым крупным проектом

Инсайдер: Предзаказы Starfield для PlayStation 5 откроют 17 марта

Directive 8020: Supermassive показала Movie Night Mode в новом трейлере

Глава Bethesda рассказал об экранизации Fallout

Docked — классический немецкий симулятор, только не от немцев. Рецензия

Тяжесть во благо: Обзор клавиатуры Rapoo V700DIY-98

Илон Маск планирует построить крупнейший в мире завод по производству микрочипов

Обновление 12.0.5 для Midnight скорее всего выйдет 22 апреля

Сборы мультфильма «Прыгуны» превысили 100 миллионов долларов. Ждём сиквел?

В обновлении 12.0.5 появится новый маленький праздник – Забег Черного Копья

В Steam вышел ремастер ролевой песочницы «Корсары: Город потерянных кораблей». Как изменилась игра за 18 лет?

Оригинальная консоль Xbox One взломана спустя 12 лет благодаря аппаратному эксплойту

Планы на ближайшие 3 месяца в файтинговой ММОРПГ на ПК Blade and Soul NEO

Marvel Rivals: почему разработчики не слушают самых громких фанатов

Первое сюжетное дополнение для Borderlands 4 выйдет 26 марта — трейлер и детали