Исследование Microsoft и Salesforce: ИИ-боты "тупеют" в длинных диалогах с пользователями. Надёжность ИИ падает на 112%

технологии самит Microsoft Мода и стиль Gemini

21.02.2026 - 17:58

Сейчас читают: 773

playground.ru:

Даже сама Microsoft признаёт, что ИИ-чат-боты «глупеют», чем дольше с ними разговариваешь — совместное исследование с Salesforce показало, что надёжность падает на 112% в ходе анализа более 200 000 диалогов. Новое совместное исследование Microsoft Research объясняет, почему даже самые продвинутые ИИ-чат-боты начинают «разваливаться» в многоходовых беседах. Ведущие ИИ-лаборатории выпускают всё более сложные модели и чат-ботов, стремясь закрепить свои бренды в быстро меняющемся рынке, за которым уже трудно уследить. Тем не менее пользователи часто жалуются на «галлюцинации» и откровенно неверные ответы.

В научной работе Microsoft Research и Salesforce было проанализировано более 200 000 диалогов с участием самых продвинутых больших языковых моделей (LLM), включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Исследование показало, что эти инструменты часто «теряются в разговоре», когда задачи разбиваются на естественный многоходовой диалог (по данным NeuroNad).

Для понимания: такие модели, как GPT-4.1 и Gemini 2.5 Pro, достигают примерно 90% успешности при одиночных запросах. Однако в более длинных диалогах с последовательными уточнениями их результативность заметно падает — примерно до 65%. Генеративный ИИ стал модным словом в технологической индустрии — сейчас об этом говорят все. Технология получает широкое распространение по всему миру, несмотря на заявления о том, что это «пузырь», готовый лопнуть.

В 2024 году Microsoft заявляла, что ChatGPT не лучше Copilot AI. Компания указывала, что пользователи используют продукт не так, как задумано, и связывала проблемы с недостаточно качественной формулировкой запросов.

Новое исследование развивает эту мысль: большие языковые модели показывают лучшие

Читать на playground.ru

Все новости от playground.ru

Об этом же в других СМИ

Тотальное превосходство: новое исследование похоронило надежды Radeon на равную борьбу с DLSS vgtimes.ru /4 месяца назад

ЗМІ: у Microsoft не будуть розвивати стратегію «Це все Xbox», яку просувала Сара БондФорум PlayStation ps4.in.ua /4 месяца назад

Ветеран Xbox 360 Крейг Чинкотта возвращается в Microsoft спустя 13 лет на пост главы аппарата нового директора playground.ru /4 месяца назад

Сайт playerone.cc - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.