English 日本語 Русский

多智能体系统实现无直接通信协同

多智能体系统实现无直接通信协同

客??????户

北京航空航天大学

关??键?词

强化学习、多智能体协作、分层共识机制、全局共识、自主决策

被捕捉物

机器人集群

近期，北京航空航天大学研究团队著作成果"Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks"被机器人领域会议 IEEE/RSJ International Conference on Intelligent Robots and Systems（IROS 2024）接收。

研究团队提出了一种新的框架——基于分层共识的多智能体强化学习（Hierarchical Consensus-Based Multi-Agent Reinforcement Learning, HC-MARL），该框架通过对比学习构建全局共识，使智能体在没有直接通信的情况下实现协作行为。

米兰体育米兰体育动作捕捉系统获取机器人集群的室内定位数据，助力验证HC-MARL框架在真实世界中的适用性。

引用格式

P. Feng, J. Liang, S. Wang, X. Yu, X. Ji, Y. Chen, K. Zhang, R. Shi, and W. Wu, “Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks,” IROS 2024, https://doi.org/10.48550/arXiv.2407.08164.

研究背景

多智能体强化学习（MARL）近年来在人工智能领域引起了广泛关注，其核心思想是通过多个智能体的协同合作来解决复杂任务，这些任务通常单个智能体难以独立完成。然而MARL面临诸多挑战，特别是智能体之间的通信和协调。传统的集中训练与分散执行（Centralized Traning and Decentralized Execution, CTDE）框架存在缺乏全局共识、通信开销大、部分可观测性的局限，研究人员为了解决CTDE框架在多智能体协作任务中的局限性，创新地提出了HC-MARL框架，旨在显著提升多智能体系统在复杂协作任务中的性能。

本文贡献

1. ?分层共识机制：HC-MARL框架构建全局共识，引入了短期共识和长期共识，优化了即时反应和战略规划之间的平衡，通过分层共识机制，使智能体能够在不同任务需求下动态调整其决策过程。

2. ?自适应注意机制：HC-MARL框架通过自适应注意机制，动态调整各层共识的影响力，根据任务的具体需求优化智能体的决策过程。

3. ?兼容性：HC-MARL框架能够无缝集成到各种多智能体强化学习算法中，确保与CTDE范式兼容。这种设计原则使得HC-MARL框架在实际应用中具有广泛的适用性和灵活性。

实验过程

研究团队在Webots仿真环境中构建了三个合作任务：捕食者-猎物任务、集合任务和导航任务，旨在测试多智能体系统在不同协作场景下的表现。同时选择了MAPPO（Multi-Agent Proximal Policy Optimization）和HAPPO（Heterogeneous-Agent Proximal Policy Optimization）两种主流的多智能体强化学习算法作为基线进行对比，从而评估HC-MARL框架的性能。

实验中的模拟任务：（a）捕食者-猎物任务（b）集合任务（c）导航任务

为了验证HC-MARL框架的实际应用效果，研究团队在E-puck机器人集群上进行了实验。实验使用了米兰体育米兰体育动作捕捉系统进行室内定位，并在捕食者-猎物、集合和导航任务中进行了测试。结果如下：

在捕食者-猎物任务中，HC-MARL算法比MAPPO减少了16%的步数，比HAPPO减少了19%的步数。

在集合任务中，HC-MARL算法比MAPPO减少了10%的步数，比HAPPO减少了15%的步数。

在导航任务中，HC-MARL算法比MAPPO减少了30%的行驶距离，比HAPPO减少了34%的行驶距离，且没有发生任何碰撞。

导航任务示意，左侧是真实世界环境，右侧是Webots仿真环境

这些结果表明，HC-MARL框架在实际应用中同样表现出色，显著提高了多智能体系统的任务效率和协作能力。通过引入分层共识机制和自适应注意机制，HC-MARL框架能够在不同任务场景下动态调整智能体的决策过程，从而实现更高效的协作。

米兰体育米兰体育动作捕捉系统获取机器人集群的室内定位数据，助力验证HC-MARL框架在真实世界中的适用性。

作者介绍

冯埔，北京航空航天大学计算机学院，博士研究生。主要研究方向：多智能体强化学习、知识内嵌强化学习、群体机器人和多智能体路径规划。

梁俊康，北京航空航天大学人工智能学院，硕士研究生。主要研究方向：多智能体强化学习。

王思泽，北京航空航天大学人工智能学院，硕士研究生。主要研究方向：多智能体强化学习和多智能体路径规划。

于鑫，北京航空航天大学计算机学院，博士研究生。主要研究方向：多智能体强化学习、大模型。

石荣晔，北京航空航天大学，副教授。主要研究方向：领域知识内嵌人工智能算法、物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。

吴文峻，北京航空航天大学，教授，博士生导师。主要研究方向：群体智能与多智能体系统、认知建模与智能导学、智能云服务、智能软件工程等领域。

单艇水下运动捕捉| 北大工学院张飞天老师团队

北大工学院张飞天老师团队，使用米兰体育米兰体育水下动作捕捉系统，进行单艇水下运动捕捉。

人形机器人武打动作训练

武汉大学机器人学院BRAIN实验室利用米兰体育动捕采集人体高精度武打动作数据，用于人形机器人强化学习训练，最终人形机器人复现了“行云流水”的武打动作。

面向内镜手术的绳驱连续体机器人的自适应滑模轨迹跟踪与抗干扰控制策略

山东大学研究团队发表面向绳驱动连续体机器人的融合非线性扩展状态观测器的自适应滑模跟踪控制方法，米兰体育动捕为实验提供机器人末端执行器位姿数据，助力验证控制方法有效性。

人臂到仿生机械臂的运动迁移方法

近日，来自杭州的研究团队在《biomimetics》期刊发表论文《Research on Motion Transfer Method from Human Arm to Bionic Robot Arm Based on PSO-RF Algorithm》，论文已被SCI和EI收录。

米兰体育官网

米兰体育app

应用领域

机器人无人机 - 无人机、集群和移动机器人 - 机械臂 - 外骨骼 & 可穿戴设备 - 仿生机器人 - 机械手 - 海洋与水下应用 - 医疗机器人 - 位移测量虚拟现实运动康复传媒娱乐

产品

动作捕捉相机

- Mars系列 - 水下动作捕捉相机 - Pluto系列 - Orbit系列 - Mars Hybrid系列动作捕捉软件动作捕捉系统配件 VRT动作捕捉系统套装 AI无标记动作捕捉套件

机器人开发平台

- Crazyflie & Crazyswarm - 多智能体集群编队实验平台

开发者工具

- 多模态数据捕获管理

集成第三方产品

- 查看全部集成产品

技术支持

常见问题技术资讯动作捕捉工作室

资源

经典案例相关论文

关于米兰体育app

新闻动态联系米兰体育app

Copyright 2015-2024 Beijing 米兰体育 Science & Technology Co., Ltd. All Rights Reserved.
北京米兰体育科技有限公司版权所有 acMilan米兰体育网址

用户须知

English 日本語 Русский

联系米兰体育app

如需更多应用、案例信息或产品报价，请致电米兰体育官网，或在下方留言：

机器人/无人机 VR/AR/XR 运动康复传媒娱乐

提交

北京米兰体育科技有限公司（总部）

北京市朝阳区安慧里四区15号五矿大厦8层820室

米兰体育app

米兰体育官网

提交成功!请您耐心等待!

欢迎关注公众号，获取更多信息

关闭

网站地图XML