(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221086810 6.8
(22)申请日 2022.07.22
(71)申请人 合肥工业大 学
地址 230009 安徽省合肥市包河区屯溪路
193号
(72)发明人 顾东晓 王芹 李晓玥 李霄剑
丁帅 欧阳波 杨善林 徐正飞
苏凯翔 魏琪 谢懿
(74)专利代理 机构 北京久诚知识产权代理事务
所(特殊普通 合伙) 11542
专利代理师 余罡
(51)Int.Cl.
G06Q 10/04(2012.01)
G06K 9/62(2022.01)
G06Q 50/26(2012.01)
(54)发明名称
基于深度强化学习的多智能体未知环境搜
救方法及系统
(57)摘要
本发明提供一种基于深度强化学习的多智
能体未知 环境搜救方法及系统, 涉及路径规划技
术和未知 环境搜救技术领域。 本发 明首先获取基
于多智能体未知环境搜 救的马尔可夫决策模型;
然后基于所述马尔可夫决策模型利用QMIX算法
获取每个所述智能体的动作; 每个智能体基于上
述动作利用A*算法规划从当前点到下一状态目
标点的最优路径; 不断循环QMIX算法确定动作且
A*算法规划路径的过程, 直到达到预设终止 条件
时输出多智能体未知环境搜 救结果。 本发明有效
提高了多智能体在未知环境中搜救的效率。
权利要求书2页 说明书11页 附图2页
CN 115330029 A
2022.11.11
CN 115330029 A
1.一种基于深度强化学习的多智能体未知环境搜救方法, 其特 征在于, 所述方法包括:
S1、 获取基于多智能体未知环境搜救的马尔可 夫决策模型;
S2、 基于所述马尔可夫决策模型, 利用QMIX算法和智能体 ‑环境互信息确定每个所述智
能体的动作;
S3、 每个智能体 基于所述动作利用A*算法规划从当前点到下一状态目标点的最优路径;
S4、 循环执行步骤S2和步骤S3直到达到预设终止条件时输出多智能体未知环境搜救结
果。
2.如权利要求1所述的方法, 其特征在于, 用六元组<S,A,T,R,Z,O>来表示所述马尔可
夫决策模型;
其中: S={S1,S2, …,SN}表示智能体所有可能状态; A={A1,A2, …,AN}表示智能体所
有可能的动作; O={O1,O2, …,ON}表示智能体所有可能的观测值; R表 示奖励值; T表 示状态
之间的一组条件转移概 率; Z表示状态S下观测出O的概 率分布。
3.如权利要求2所述的方法, 其特 征在于, 单个智能体在时间t时的所述奖励值 为:
其中,
代表着智能体找到一个目标受灾者;
代表着智能体遇到了一个障碍;
代表智能体与智能体之间交 互所获得的智能体 ‑智能体互信息;
代表着运动成本 。
4.如权利要求1所述的方法, 其特征在于, 所述智能体 ‑环境互信息I(m,at)的计算公式
如下:
I(m,at)=H(m)‑H(m|at)
其中, I(m,at)表示智能体 ‑环境互信息, H(m)为当前地图的熵; H(m|at)表示在执行动作
at时采集到传感器观测后的期望熵; p(mi,j)表示当前占用网格图的概率; mi,j表示当前占用
的网格图, i表示 地图的单个网格单 元的标号; j表示每 个网格单 元所对应的属性的类别。
5.如权利要求1所述的方法, 其特征在于, 所述利用QMIX算法获取每个所述智能体的动
作包括: 选择最大化 Q值时智能体所采取的动作 作为要获取的所述智能体的动作;
最大化Q值的计算公式为:
其中, Qtotal( τ,u)表示全局Q值,
表示智能体i采取某动作时的最 大
化Q值。
6.一种基于深度强化学习的多智能体未知环境搜救系统, 其特 征在于, 所述系统包括:
马尔可夫 决策模型构建模块, 用于获取基于多智能体未知环境搜救的马尔可夫 决策模
型;
智能体的动作获取模块, 用于基于所述马尔可夫决策模型, 利用QMIX算法和智能体 ‑环权 利 要 求 书 1/2 页
2
CN 115330029 A
2境互信息确定每 个所述智能体的动作;
路径规划模块, 用于每个智能体基于所述动作利用A*算法规划从当前点到下一状态目
标点的最优路径;
结果输出模块, 用于循环执行步骤S2和步骤S3直到达到预设终止条件时输出多智能体
未知环境搜救结果。
7.如权利要求6所述的系统, 其特征在于, 所述马尔可夫 决策模型构建模块, 用六元组<
S,A,T,R,Z,O>来表示所述马尔可 夫决策模型;
其中: S={S1,S2, …,SN}表示智能体所有可能状态; A={A1,A2, …,AN}表示智能体所
有可能的动作; O={O1,O2, …,ON}表示智能体所有可能的观测值; R表 示奖励值; T表 示状态
之间的一组条件转移概 率; Z表示状态S下观测出O的概 率分布。
8.如权利要求7 所述的系统, 其特 征在于, 单个智能体在时间t时的所述奖励值 为:
其中,
代表着智能体找到一个目标受灾者;
代表着智能体遇到了一个障碍;
代表智能体与智能体之间交 互所获得的智能体 ‑智能体互信息;
代表着运动成本 。
9.如权利要求6所述的系统, 其特征在于, 所述智能体 ‑环境互信息I(m,at)的计算公式
如下:
I(m,at)=H(m)‑H(m|at)
其中, I(m,at)表示智能体 ‑环境互信息, H(m)为当前地图的熵; H(m|at)表示在执行动作
at时采集到传感器观测后的期望熵; p(mi,j)表示当前占用网格图的概率; mi,j表示当前占用
的网格图, i表示 地图的单个网格单 元的标号; j表示每 个网格单 元所对应的属性的类别。
10.如权利要求6所述的系统, 其特征在于, 所述利用QMIX算法获取每个所述智能体的
动作包括: 选择最大化 Q值时智能体所采取的动作 作为要获取的所述智能体的动作;
最大化Q值的计算公式为:
其中, Qtotal( τ,u)表示全局Q值,
表示智能体i采取某动作时的最大
化Q值。权 利 要 求 书 2/2 页
3
CN 115330029 A
3
专利 基于深度强化学习的多智能体未知环境搜救方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:41:54上传分享