Что важнее для оценки искусственного интеллекта: высокие баллы на абстрактных тестах или способность самостоятельно выполнить длинную, многозадачную работу? Команда исследователей из Китая считает, что будущее за вторым подходом. Они предложили новую метрику «горизонт задач» и с её помощью измерили, как быстро растут реальные возможности автономных ИИ-агентов. Согласно анализу, длина задач (в пересчёте на человеческое время), которые современные передовые модели могут выполнить самостоятельно с 50%-ной вероятностью успеха, удваивается примерно каждые 7 месяцев.
Парадокс современных больших языковых моделей в том, что они блестяще решают точечные задачи, но часто «ломаются» при попытке выстроить длинную последовательность действий. Одно из ключевых ограничений — размер контекстного окна и даже если модель технически может обработать сотни тысяч токенов, в длительной работе она неизбежно упирается в потолок оперативной памяти и начинает терять нить.
Китайские специалисты предложили элегантное архитектурное решение этой проблемы: вынести память за пределы модели. Их система FS-Researcher работает по принципу разделения обязанностей между двумя агентами. Первый агент, Context Builder, действует как архивариус или исследователь, который должен искать информацию, изучать материалы, делать выжимки и структурированно складывать их в виде файлов и папок в виртуальной файловой системе. Второй агент, Report Writer, — это непосредственный исполнитель. Он пишет итоговый отчёт, но не пытается удержать в своём контексте все исходные данные, а вместо этого он запрашивает из файловой системы нужные фрагменты информации по мере необходимости, работая с ними по частям.
Эксперименты показали, что такая организация работы даёт значительный

