Даже сама Microsoft признаёт, что ИИ-чат-боты «глупеют», чем дольше с ними разговариваешь — совместное исследование с Salesforce показало, что надёжность падает на 112% в ходе анализа более 200 000 диалогов. Новое совместное исследование Microsoft Research объясняет, почему даже самые продвинутые ИИ-чат-боты начинают «разваливаться» в многоходовых беседах. Ведущие ИИ-лаборатории выпускают всё более сложные модели и чат-ботов, стремясь закрепить свои бренды в быстро меняющемся рынке, за которым уже трудно уследить. Тем не менее пользователи часто жалуются на «галлюцинации» и откровенно неверные ответы.
В научной работе Microsoft Research и Salesforce было проанализировано более 200 000 диалогов с участием самых продвинутых больших языковых моделей (LLM), включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Исследование показало, что эти инструменты часто «теряются в разговоре», когда задачи разбиваются на естественный многоходовой диалог (по данным NeuroNad).
Для понимания: такие модели, как GPT-4.1 и Gemini 2.5 Pro, достигают примерно 90% успешности при одиночных запросах. Однако в более длинных диалогах с последовательными уточнениями их результативность заметно падает — примерно до 65%. Генеративный ИИ стал модным словом в технологической индустрии — сейчас об этом говорят все. Технология получает широкое распространение по всему миру, несмотря на заявления о том, что это «пузырь», готовый лопнуть.
В 2024 году Microsoft заявляла, что ChatGPT не лучше Copilot AI. Компания указывала, что пользователи используют продукт не так, как задумано, и связывала проблемы с недостаточно качественной формулировкой запросов.
Новое исследование развивает эту мысль: большие языковые модели показывают лучшие
