Google представила крупное обновление рассуждающей модели Gemini 3 Deep Think, сделав ставку на применение искусственного интеллекта в реальных научных и инженерных задачах. Одновременно DeepMind показала исследовательского агента Aletheia, который умеет честно говорить «я не знаю», но при этом всё ещё пытается хитрить с условиями.
Новый режим Deep Think, доступный с сегодняшнего дня подписчикам Google AI Ultra в приложении Gemini, разработчики позиционируют не как очередную абстрактную модель для синтетических тестов, а как попытку применить рассуждающий ИИ там, где данные противоречивы, а у задачи может вообще не существовать единственно верного ответа. С бенчмарками у Gemini 3 Deep Think действительно всё в порядке: 48,4% на «Последнем экзамене человечества» (Humanity's Last Exam) без привлечения внешних инструментов, 84,6% в тесте ARC-AGI-2 на визуальное рассуждение и рейтинг 3 455 Эло на Codeforces, что примерно соответствует уровню топ-10 программистов мира.
Однако куда интереснее, что происходит, когда Deep Think перестаёт решать задачи с чёткими условиями и погружается в настоящую науку. В DeepMind показали агента Aletheia, построенного поверх обновлённой модели, который умеет проверять собственные гипотезы, обращаться к поиску Google, не выдумывать несуществующие ссылки и способен признать, что не может решить задачу, что многократно снижает риск галлюцинаций. В отчёте исследователи прямо пишут: модель демонстрирует «склонность неверно понимать вопрос таким образом, чтобы на него было легче ответить». Если перевести с академического на человеческий: Gemini 3 Deep Think всё ещё подгоняет решение под ответ, а когда не получается — подгоняет условие.
На шкале научной новизны, которую разработали в DeepMind, Aletheia

