Magentic-One: Универсальная мультиагентная система для решения сложных задач

https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/

https://aka.ms/magentic-one-report

Microsoft Research представляет Magentic-One, новую универсальную мультиагентную систему для решения открытых веб-задач и работы с файлами в различных областях.

Magentic-One представляет собой значительный шаг в направлении разработки агентов, способных выполнять задачи, с которыми люди сталкиваются в работе и личной жизни.

Выпускаем open-source реализацию Magentic-One на платформе Microsoft AutoGen, популярном фреймворке с открытым исходным кодом для разработки мультиагентных приложений.

Будущее ИИ - в агентных системах. Системы ИИ эволюционируют от ведения диалогов к реальному выполнению задач — именно здесь мы ожидаем проявления основной ценности ИИ.

Это разница между генеративным ИИ, рекомендующим варианты ужина, и агентными помощниками, которые могут автономно сделать заказ и организовать доставку. Это переход от простого реферирования научных статей к активному поиску и организации релевантных исследований в комплексный литературный обзор.

Современные ИИ-агенты, способные воспринимать, рассуждать и действовать от нашего имени, демонстрируют замечательные результаты в таких областях, как разработка программного обеспечения, анализ данных, научные исследования и веб-навигация.

Тем не менее, для полной реализации давней концепции агентных систем, способных повысить нашу продуктивность и трансформировать нашу жизнь, необходимы достижения в области универсальных агентных систем. Эти системы должны надежно выполнять сложные многоэтапные задачи в широком спектре сценариев, с которыми люди сталкиваются в повседневной жизни.

Архитектура системы:

Magentic-One работает на основе мультиагентной архитектуры, где ведущий агент-Оркестратор отвечает за высокоуровневое планирование, управление другими агентами и отслеживание прогресса выполнения задач. Оркестратор начинает с создания плана решения задачи, собирая необходимые факты и обоснованные предположения в Реестре Задач.

На каждом этапе плана Оркестратор создает Реестр Прогресса, где он анализирует прогресс выполнения задачи и проверяет, завершена ли она. Если задача еще не завершена, он назначает одному из других агентов Magentic-One подзадачу для выполнения. После того как назначенный агент выполняет свою подзадачу, Оркестратор обновляет Реестр Прогресса и продолжает работу таким образом до завершения задачи.

Magentic-One состоит из следующих агентов:

1. Оркестратор: Ведущий агент, ответственный за декомпозицию задач, планирование, управление другими агентами при выполнении подзадач, отслеживание общего прогресса и принятие корректирующих действий при необходимости.

2. WebSurfer: ЯММ-основанный агент, профессионально управляющий браузером на базе Chromium. Для каждого запроса WebSurfer выполняет такие действия, как навигация, взаимодействие с веб-страницами и чтение.

3. FileSurfer: ЯММ-основанный агент, управляющий приложением для предварительного просмотра файлов на основе markdown. Может выполнять навигацию по файловой системе.

4. Coder: ЯММ-основанный агент, специализирующийся на написании кода, анализе информации и создании новых артефактов.

5. ComputerTerminal: Обеспечивает доступ к консоли для выполнения программ и установки новых библиотек.

Оценка производительности:

Для тщательной оценки производительности Magentic-One мы представляем AutoGenBench — инструмент с открытым исходным кодом для запуска агентных тестов, позволяющий выполнять повторения и изоляцию. Magentic-One достигает статистически сопоставимой производительности с предыдущими методами SOTA на GAIA и AssistantBench и конкурентоспособной производительности на WebArena.

Риски и меры по их снижению:

Агентные системы, подобные Magentic-One, знаменуют значительный сдвиг как в возможностях, так и в рисках, связанных с ИИ. Magentic-One взаимодействует с цифровым миром, разработанным для людей, совершая действия, которые могут изменять состояния и потенциально приводить к необратимым последствиям.

Рекомендации и перспективы:

Рекомендации использовать Magentic-One с моделями, имеющими сильное выравнивание, пре- и пост-генерационную фильтрацию и тщательно отслеживаемые журналы во время и после выполнения. В нашем собственном использовании мы следуем принципам наименьших привилегий и максимального надзора.

По мере развития существуют ценные возможности для улучшения агентного ИИ, особенно в исследованиях безопасности и ответственного ИИ. Агенты, действующие в публичном интернете, могут быть уязвимы для фишинга, социальной инженерии и угроз дезинформации, как и человеческие пользователи.