Magentic-One: Универсальная мультиагентная система для решения сложных задач
https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
https://aka.ms/magentic-one-report
Microsoft Research представляет Magentic-One, новую универсальную мультиагентную систему для решения открытых веб-задач и работы с файлами в различных областях.
Magentic-One представляет собой значительный шаг в направлении разработки агентов, способных выполнять задачи, с которыми люди сталкиваются в работе и личной жизни.
Выпускаем open-source реализацию Magentic-One на платформе Microsoft AutoGen, популярном фреймворке с открытым исходным кодом для разработки мультиагентных приложений.
Будущее ИИ - в агентных системах. Системы ИИ эволюционируют от ведения диалогов к реальному выполнению задач — именно здесь мы ожидаем проявления основной ценности ИИ.
Это разница между генеративным ИИ, рекомендующим варианты ужина, и агентными помощниками, которые могут автономно сделать заказ и организовать доставку. Это переход от простого реферирования научных статей к активному поиску и организации релевантных исследований в комплексный литературный обзор.
Современные ИИ-агенты, способные воспринимать, рассуждать и действовать от нашего имени, демонстрируют замечательные результаты в таких областях, как разработка программного обеспечения, анализ данных, научные исследования и веб-навигация.
Тем не менее, для полной реализации давней концепции агентных систем, способных повысить нашу продуктивность и трансформировать нашу жизнь, необходимы достижения в области универсальных агентных систем. Эти системы должны надежно выполнять сложные многоэтапные задачи в широком спектре сценариев, с которыми люди сталкиваются в повседневной жизни.
Magentic-One работает на основе мультиагентной архитектуры, где ведущий агент-Оркестратор отвечает за высокоуровневое планирование, управление другими агентами и отслеживание прогресса выполнения задач. Оркестратор начинает с создания плана решения задачи, собирая необходимые факты и обоснованные предположения в Реестре Задач.
На каждом этапе плана Оркестратор создает Реестр Прогресса, где он анализирует прогресс выполнения задачи и проверяет, завершена ли она. Если задача еще не завершена, он назначает одному из других агентов Magentic-One подзадачу для выполнения. После того как назначенный агент выполняет свою подзадачу, Оркестратор обновляет Реестр Прогресса и продолжает работу таким образом до завершения задачи.
Magentic-One состоит из следующих агентов:
1. Оркестратор: Ведущий агент, ответственный за декомпозицию задач, планирование, управление другими агентами при выполнении подзадач, отслеживание общего прогресса и принятие корректирующих действий при необходимости.
2. WebSurfer: ЯММ-основанный агент, профессионально управляющий браузером на базе Chromium. Для каждого запроса WebSurfer выполняет такие действия, как навигация, взаимодействие с веб-страницами и чтение.
3. FileSurfer: ЯММ-основанный агент, управляющий приложением для предварительного просмотра файлов на основе markdown. Может выполнять навигацию по файловой системе.
4. Coder: ЯММ-основанный агент, специализирующийся на написании кода, анализе информации и создании новых артефактов.
5. ComputerTerminal: Обеспечивает доступ к консоли для выполнения программ и установки новых библиотек.
Для тщательной оценки производительности Magentic-One мы представляем AutoGenBench — инструмент с открытым исходным кодом для запуска агентных тестов, позволяющий выполнять повторения и изоляцию. Magentic-One достигает статистически сопоставимой производительности с предыдущими методами SOTA на GAIA и AssistantBench и конкурентоспособной производительности на WebArena.
Агентные системы, подобные Magentic-One, знаменуют значительный сдвиг как в возможностях, так и в рисках, связанных с ИИ. Magentic-One взаимодействует с цифровым миром, разработанным для людей, совершая действия, которые могут изменять состояния и потенциально приводить к необратимым последствиям.
Рекомендации использовать Magentic-One с моделями, имеющими сильное выравнивание, пре- и пост-генерационную фильтрацию и тщательно отслеживаемые журналы во время и после выполнения. В нашем собственном использовании мы следуем принципам наименьших привилегий и максимального надзора.
По мере развития существуют ценные возможности для улучшения агентного ИИ, особенно в исследованиях безопасности и ответственного ИИ. Агенты, действующие в публичном интернете, могут быть уязвимы для фишинга, социальной инженерии и угроз дезинформации, как и человеческие пользователи.