© ComNews
25.02.2025

Ученые Института AIRI, ФИЦ ИУ РАН и МФТИ разработали MAPF-GPT - новый подход, который решает задачу многоагентного планирования эффективнее существующих обучаемых методов. Работа представлена исследователями в ходе ежегодной конференции по искусственному интеллекту AAAI 2025.

Многоагентное планирование позволяет нескольким независимым агентам (например, роботам или программам) координировать действия для достижения общей цели. Этот процесс широко используется в автоматизированных логистических системах и умных складах. Ключевая сложность таких систем - синхронизация действий агентов. Оптимальный маршрут должен не только учитывать начальные координаты, но и обеспечивать безопасное и плавное движение в динамической среде.

Ранее большинство решений в этой области базировалось на статических графах, где маршруты рассчитываются заранее. Такой подход гарантирует достижение цели, но плохо адаптируется к изменениям в реальном времени. Новый метод - MAPF-GPT - позволяет моделям принимать решения о действиях агентов непосредственно в процессе выполнения задачи. Вместо заранее заданного маршрута система адаптируется к неожиданным изменениям - например, появлению человека в рабочей зоне или изменению карты.

Архитектура MAPF-GPT основана на модели трансформера, которая анализирует наблюдения и строит оптимальные решения на их основе. Входные данные обрабатываются в виде последовательностей фиксированного размера (256 токенов), что позволяет эффективно кодировать информацию о среде и действиях агентов. Ключевой элемент трансформера - механизм внимания, который выделяет значимую информацию и помогает учитывать поведение других агентов, повышая точность решений.

В отличие от традиционных методов, MAPF-GPT прогнозирует последствия решений и корректирует действия в реальном времени, что делает его особенно перспективным для динамичных сценариев. Будущие версии MAPF-GPT могут применяться в задачах многоагентного обучения с подкреплением (MARL), где агенты обучаются в среде, аналогичной SMAC, основанной на популярной игре StarCraft II.

В ходе работы исследователи подготовили самый большой на сегодняшний день датасет для мультиагентного принятия решений. Его объем составил 1 млрд пар "наблюдение-действие". Датасет размещен в открытом доступе для поддержки научного сообщества - его можно использовать для воспроизведения результатов или улучшения модели.

"Мы уверены, что MAPF-GPT поможет сообществу в развитии методов многоагентного планирования. Исследователи смогут адаптировать модель под новые задачи, а также предлагать более эффективные решения к уже существующим", - резюмировал Антон Андрейчук, научный сотрудник группы "RL агенты" лаборатории "Когнитивные системы ИИ" Института AIRI.

Новости из связанных рубрик