English 日本語 Русский

多智能体系统实现无直接通信协同

多智能体系统实现无直接通信协同

客??????户
北京航空航天大学
关??键?词
强化学习、多智能体协作、分层共识机制、全局共识、自主决策
被捕捉物
机器人集群

近期,北京航空航天大学研究团队著作成果"Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks"被机器人领域会议 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS 2024)接收。

研究团队提出了一种新的框架——基于分层共识的多智能体强化学习(Hierarchical Consensus-Based Multi-Agent Reinforcement Learning, HC-MARL),该框架通过对比学习构建全局共识,使智能体在没有直接通信的情况下实现协作行为。

米兰体育米兰体育动作捕捉系统获取机器人集群的室内定位数据,助力验证HC-MARL框架在真实世界中的适用性。

引用格式

P. Feng, J. Liang, S. Wang, X. Yu, X. Ji, Y. Chen, K. Zhang, R. Shi, and W. Wu, “Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks,” IROS 2024, https://doi.org/10.48550/arXiv.2407.08164.

研究背景

多智能体强化学习(MARL)近年来在人工智能领域引起了广泛关注,其核心思想是通过多个智能体的协同合作来解决复杂任务,这些任务通常单个智能体难以独立完成。然而MARL面临诸多挑战,特别是智能体之间的通信和协调。传统的集中训练与分散执行(Centralized Traning and Decentralized Execution, CTDE)框架存在缺乏全局共识、通信开销大、部分可观测性的局限,研究人员为了解决CTDE框架在多智能体协作任务中的局限性,创新地提出了HC-MARL框架,旨在显著提升多智能体系统在复杂协作任务中的性能。

本文贡献

1.  分层共识机制:HC-MARL框架构建全局共识,引入了短期共识和长期共识,优化了即时反应和战略规划之间的平衡,通过分层共识机制,使智能体能够在不同任务需求下动态调整其决策过程。

2.  自适应注意机制:HC-MARL框架通过自适应注意机制,动态调整各层共识的影响力,根据任务的具体需求优化智能体的决策过程。

3.  兼容性:HC-MARL框架能够无缝集成到各种多智能体强化学习算法中,确保与CTDE范式兼容。这种设计原则使得HC-MARL框架在实际应用中具有广泛的适用性和灵活性。

实验过程

研究团队在Webots仿真环境中构建了三个合作任务:捕食者-猎物任务、集合任务和导航任务,旨在测试多智能体系统在不同协作场景下的表现。同时选择了MAPPO(Multi-Agent Proximal Policy Optimization)和HAPPO(Heterogeneous-Agent Proximal Policy Optimization)两种主流的多智能体强化学习算法作为基线进行对比,从而评估HC-MARL框架的性能。

实验中的模拟任务:(a)捕食者-猎物任务(b)集合任务(c)导航任务

为了验证HC-MARL框架的实际应用效果,研究团队在E-puck机器人集群上进行了实验。实验使用了米兰体育米兰体育动作捕捉系统进行室内定位,并在捕食者-猎物、集合和导航任务中进行了测试。结果如下:

在捕食者-猎物任务中,HC-MARL算法比MAPPO减少了16%的步数,比HAPPO减少了19%的步数。

在集合任务中,HC-MARL算法比MAPPO减少了10%的步数,比HAPPO减少了15%的步数。

在导航任务中,HC-MARL算法比MAPPO减少了30%的行驶距离,比HAPPO减少了34%的行驶距离,且没有发生任何碰撞。

导航任务示意,左侧是真实世界环境,右侧是Webots仿真环境

这些结果表明,HC-MARL框架在实际应用中同样表现出色,显著提高了多智能体系统的任务效率和协作能力。通过引入分层共识机制和自适应注意机制,HC-MARL框架能够在不同任务场景下动态调整智能体的决策过程,从而实现更高效的协作。

米兰体育米兰体育动作捕捉系统获取机器人集群的室内定位数据,助力验证HC-MARL框架在真实世界中的适用性。

作者介绍

冯埔,北京航空航天大学计算机学院,博士研究生。主要研究方向:多智能体强化学习、知识内嵌强化学习、群体机器人和多智能体路径规划。

梁俊康,北京航空航天大学人工智能学院,硕士研究生。主要研究方向:多智能体强化学习。

王思泽,北京航空航天大学人工智能学院,硕士研究生。主要研究方向:多智能体强化学习和多智能体路径规划。

于鑫,北京航空航天大学计算机学院,博士研究生。主要研究方向:多智能体强化学习、大模型。

石荣晔,北京航空航天大学,副教授。主要研究方向:领域知识内嵌人工智能算法、物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。

吴文峻,北京航空航天大学,教授,博士生导师。主要研究方向:群体智能与多智能体系统、认知建模与智能导学、智能云服务、智能软件工程等领域。



IEEE RAL 足式机器人鲁棒状态估计 精度较基线提升40%以上

山东大学研究团队发表面向绳驱动连续体机器人的融合非线性扩展状态观测器的自适应滑模跟踪控制方法,米兰体育动捕为实验提供机器人末端执行器位姿数据,助力验证控制方法有效性。

室外环境无人车动作捕捉

清华大学李翔老师团队在室外环境下对无人车进行动作捕捉。米兰体育米兰体育抗日光版本动捕镜头过滤日光干扰,准确识别无人车表面的反光标记点,获取高精度运动轨迹。

IJRR | 北航团队提出机器人复合分层抗干扰框架:实现无人机边飞边学

北航杭研院郭克信老师团队在IJRR上发表FORESEER机器人复合分层抗干扰框架,研究在五种不同构型的无人机平台上进行了室内外大量实验,通过四类代表性任务系统验证框架的性能。 米兰体育米兰体育动作捕捉系统为实验提供了无人机在室内执行飞行任务时的高精度位姿数据及轨迹信息,助力验证FORESEER框架处理各种不确定性的有效性。

IROS 2025浙大高飞老师团队 | FLOAT Drone:一种可用于近距离操作的共轴全驱动无人机

浙江大学高飞老师团队设计并验证其创新的FLOAT Drone全驱动同轴无人机并发表于IROS 2025。该无人机首次集成控制面,结合同轴双旋翼设计,实现了低气流干扰的紧凑型平台,可完成倾斜悬停浇花、穿越狭窄缝隙、近距离推拉窗帘等精细任务。米兰体育米兰体育动作捕捉系统为该无人机动力学建模、双模态控制器验证及高精度轨迹/姿态跟踪提供关键的位姿真值数据。
联系米兰体育app
如需更多应用、案例信息或产品报价,请致电 米兰体育官网,或在下方留言:
机器人/无人机 VR/AR/XR 运动康复 传媒娱乐
北京米兰体育科技有限公司(总部)
北京市朝阳区安慧里四区15号五矿大厦8层820室
米兰体育app
米兰体育官网
提交成功!请您耐心等待!
欢迎关注公众号,获取更多信息
关闭
网站地图XML