基于双时间尺度优化的多机器人策略自适应与一致性-猫眼课题宝

权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

基于双时间尺度优化的多机器人策略自适应与一致性

结题报告

批准号：

61473316

项目类别：

面上项目

资助金额：

82.0 万元

负责人：

陈鑫

依托单位：

中国地质大学（武汉）

学科分类：

F0301.控制理论与技术

结题年份：

2018

批准年份：

2014

项目状态：

已结题

项目参与者：

刘芳、戴朝晖、王芳、谢鹏寰、徐斌、黄诏、王伟

关键词：

类部分可观测Markov决策双时间尺度优化策略自适应一致性多机器人系统

国基评审专家1V1指导中标率高出同行96.8%

中文摘要

具有探索未知环境和自学习合作行为的能力是实现智能多机器人系统的关键之一，但系统分布式特点和个体的动力学特性使合作行为自学习存在计算复杂度高、泛化困难和工程适用性差等问题。本项目针对这些问题研究基于Similar-POMDP的双时间尺度多机器人优化架构，将多机器人行为优化分解为互为依赖的时变拓扑下一致性最优控制和合作策略优化,从而降低策略学习的空间复杂度；研究保证拓扑连通的分布式多机器人保性能一致性控制方法，保证策略的可实现性；结合一致性性能评价和面向一般指标的逼近动态规划优化方法，设计基于非参数评价器的合作策略优化算法，实现非建模条件下多机器人合作策略的有效泛化和自适应优化；结合图分解和多智能体协同学习，研究合作策略的分布式优化方法，提高模型的工程适用性。项目将从机制上实现分布式策略优化与一致性控制的协同工作，为智能多机器人系统的实现提供解决方案，具有重要理论意义和应用价值。

英文摘要

The abilities of searching unknown environments and learning cooperative policies on line are viewed as the keys to realize "intelligent" multi-robot systems. However, the decentralized implementation and the complex dynamics of individuals induce high computation complexity, difficult generalization, and poor applicability in practice. Aiming at these problems, the project studies double-time-scale cooperative optimization framework based on Similar-POMDP, in which the multi-robot behavior optimization is reached by the coordination between the cooperative strategy optimization and the consensus optimization control under time-varying topologies. Thus the space complexity of policy learning is reduced significantly. To make the cooperative policies feasible during persistent policy optimization, the distributed consensus protocol using guaranteed cost control is studied in order to ensure topology connected. Then based on the evaluation method for the performance of consensus and the approximate dynamic programming (ADP) for general optimization index, the cooperative policy optimization algorithm with non-parametric critic module is developed, in order to realize efficient generalization and adaptive optimization for cooperative policy under the unknown and unmodeled environments. Using the directed graph decomposition and the multi-agent coordinated learning, the project investigates the decentralized way to realize such cooperative policy optimization, in order to improve feasibility in practice. The project will finally achieve the mechanism of simultaneous cooperative strategy optimization and consensus control. It will serve as the solution to reach intelligence of multiple robot systems under complex environment. The research is of great theoretical significance and application prospects.

本项目针对协作式多机器人系统合作自学习存在环境模型未知、计算复杂度高、泛化困难和工程适用性差等问题，通过综合一致性控制，多智能体合作策略学习，自适应动态规划等理论方法，构建了融合有限时间一致性控制时间尺度和合作策略优化学习时间尺度的双时间尺度优化架构，将多机器人合作行为优化分解为时变策略下有限时间一致性控制和多智能体合作策略学习。首先，针对多机器人系统合作策略优化引起的机器人间交互拓扑时变的问题，提出了时变有向拓扑条件下的二阶多智能体系统分布式有限时间一致性控制方法。同时，提出了一种基于状态反馈的有限时间一致性协议以加快有限时间一致性算法的收敛速度，从而保证合作策略学习的高效实现。其次，提出了一种基于高斯过程回归的双阶段值迭代评价网络设计方法，同时进行值函数逼近和高斯超参数优化，以实现环境模型未知情况下多机器人系统合作策略自学习与泛化。基于高斯过程回归，通过分析多智能体强化学习在协作环境中的动态性以及合作策略优化的需求，结合实际应用环境建立多智能体跟踪学习切换原则，提出了基于分时跟踪框架和高斯过程回归的多智能体协同学习方法；通过分析多智能体强化学习存在的同时学习问题与协作问题，提出了分布式同时学习与合作策略搜索算法，以缓解多机器人系统存在高维输入导致的维度灾，减小计算复杂度，完成多机器人系统合作策略自适应优化的目标。此外，研究了模型无关的多智能体系统最优一致性控制算法，以提高一致性控制算法的工程适用性。通过搭建针对多机器人系统的仿真系统及实际系统实验平台，验证了所提方法的可行性和高效性。本项目的研究为复杂未知环境下的多机器人系统提供了一种切实可行的协作行为自适应优化与控制方法，有力促进了协作式多机器人系统在复杂任务与未知环境下的应用，具有重要的理论意义和工程应用价值。

期刊论文列表

专著列表

科研奖励列表

会议论文列表

专利列表

Finite‐Time Consensus Problem for Second‐Order Multi‐Agent Systems Under Switching Topologies

DOI：10.1002/asjc.1486

发表时间：2017-09

期刊：

Asian Journal of Control

影响因子：2.4

作者：

F. Wang;Xin Chen;Yong He;Min Wu

通讯作者：F. Wang;Xin Chen;Yong He;Min Wu

Gaussian-kernel-based adaptive critic design using two-phase value iteration

使用两阶段值迭代的基于高斯核的自适应批评设计

DOI：10.1016/j.ins.2018.12.019

发表时间：2019-05

期刊：

Information Sciences

影响因子：8.1

作者：

陈鑫;王巍;曹卫华;吴敏

通讯作者：吴敏

Model-free optimal containment control of multi-agent systems based on actor-critic framework

基于actor-critic框架的多智能体系统无模型最优遏制控制

DOI：10.1016/j.neucom.2018.06.011

发表时间：2018

期刊：

Neurocomputing

影响因子：6

作者：

王巍;陈鑫

通讯作者：陈鑫

Finite-Time Consensus of Double-Integrator Multi-Agent Systems with Time-Varying Directed Topologies

时变有向拓扑双积分多智能体系统的有限时间共识

DOI：10.20965/jaciii.2016.p0254

发表时间：2016-03

期刊：

Journal of Advanced Computational Intelligence and Intelligent Informatics

影响因子：0.7

作者：

王芳;陈鑫;何勇

通讯作者：何勇

Model-Free Distributed Consensus Control Based on Actor–Critic Framework for Discrete-Time Nonlinear Multiagent Systems

基于离散时间非线性多智能体系统的 actor-critic 框架的无模型分布式共识控制

DOI：10.1109/tsmc.2018.2883801

发表时间：2020-11

期刊：

IEEE Transactions on Systems, Man, and Cybernetics: Systems

影响因子：--

作者：

王巍;陈鑫;符浩;吴敏

通讯作者：吴敏

西藏冈底斯西段北姆朗斑岩铜矿床中硼的富集机制及其对铜成矿作用的制约

批准号：
42372092
项目类别：
面上项目
资助金额：
53万元
批准年份：
2023
负责人：
陈鑫
依托单位：
中国地质大学（武汉）

深俯冲陆壳折返过程中高场强元素在熔/流体中的活动性探究–以柴北缘超高压带鱼卡和绿梁山地区为例

批准号：
42102058
项目类别：
青年科学基金项目
资助金额：
30万元
批准年份：
2021
负责人：
陈鑫
依托单位：
中国地质大学（武汉）

基于虚拟个体行为逼近的多机器人自学习决策与协调控制一体化

批准号：
61873248
项目类别：
面上项目
资助金额：
63.0万元
批准年份：
2018
负责人：
陈鑫
依托单位：
中国地质大学（武汉）

国内基金

海外基金

会员权益说明：