金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221086810 6.8 (22)申请日 2022.07.22 (71)申请人 合肥工业大 学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 顾东晓 王芹 李晓玥 李霄剑  丁帅 欧阳波 杨善林 徐正飞  苏凯翔 魏琪 谢懿  (74)专利代理 机构 北京久诚知识产权代理事务 所(特殊普通 合伙) 11542 专利代理师 余罡 (51)Int.Cl. G06Q 10/04(2012.01) G06K 9/62(2022.01) G06Q 50/26(2012.01) (54)发明名称 基于深度强化学习的多智能体未知环境搜 救方法及系统 (57)摘要 本发明提供一种基于深度强化学习的多智 能体未知 环境搜救方法及系统, 涉及路径规划技 术和未知 环境搜救技术领域。 本发 明首先获取基 于多智能体未知环境搜 救的马尔可夫决策模型; 然后基于所述马尔可夫决策模型利用QMIX算法 获取每个所述智能体的动作; 每个智能体基于上 述动作利用A*算法规划从当前点到下一状态目 标点的最优路径; 不断循环QMIX算法确定动作且 A*算法规划路径的过程, 直到达到预设终止 条件 时输出多智能体未知环境搜 救结果。 本发明有效 提高了多智能体在未知环境中搜救的效率。 权利要求书2页 说明书11页 附图2页 CN 115330029 A 2022.11.11 CN 115330029 A 1.一种基于深度强化学习的多智能体未知环境搜救方法, 其特 征在于, 所述方法包括: S1、 获取基于多智能体未知环境搜救的马尔可 夫决策模型; S2、 基于所述马尔可夫决策模型, 利用QMIX算法和智能体 ‑环境互信息确定每个所述智 能体的动作; S3、 每个智能体 基于所述动作利用A*算法规划从当前点到下一状态目标点的最优路径; S4、 循环执行步骤S2和步骤S3直到达到预设终止条件时输出多智能体未知环境搜救结 果。 2.如权利要求1所述的方法, 其特征在于, 用六元组<S,A,T,R,Z,O>来表示所述马尔可 夫决策模型; 其中: S={S1,S2, …,SN}表示智能体所有可能状态; A={A1,A2, …,AN}表示智能体所 有可能的动作; O={O1,O2, …,ON}表示智能体所有可能的观测值; R表 示奖励值; T表 示状态 之间的一组条件转移概 率; Z表示状态S下观测出O的概 率分布。 3.如权利要求2所述的方法, 其特 征在于, 单个智能体在时间t时的所述奖励值 为: 其中, 代表着智能体找到一个目标受灾者; 代表着智能体遇到了一个障碍; 代表智能体与智能体之间交 互所获得的智能体 ‑智能体互信息; 代表着运动成本 。 4.如权利要求1所述的方法, 其特征在于, 所述智能体 ‑环境互信息I(m,at)的计算公式 如下: I(m,at)=H(m)‑H(m|at) 其中, I(m,at)表示智能体 ‑环境互信息, H(m)为当前地图的熵; H(m|at)表示在执行动作 at时采集到传感器观测后的期望熵; p(mi,j)表示当前占用网格图的概率; mi,j表示当前占用 的网格图, i表示 地图的单个网格单 元的标号; j表示每 个网格单 元所对应的属性的类别。 5.如权利要求1所述的方法, 其特征在于, 所述利用QMIX算法获取每个所述智能体的动 作包括: 选择最大化 Q值时智能体所采取的动作 作为要获取的所述智能体的动作; 最大化Q值的计算公式为: 其中, Qtotal( τ,u)表示全局Q值, 表示智能体i采取某动作时的最 大 化Q值。 6.一种基于深度强化学习的多智能体未知环境搜救系统, 其特 征在于, 所述系统包括: 马尔可夫 决策模型构建模块, 用于获取基于多智能体未知环境搜救的马尔可夫 决策模 型; 智能体的动作获取模块, 用于基于所述马尔可夫决策模型, 利用QMIX算法和智能体 ‑环权 利 要 求 书 1/2 页 2 CN 115330029 A 2境互信息确定每 个所述智能体的动作; 路径规划模块, 用于每个智能体基于所述动作利用A*算法规划从当前点到下一状态目 标点的最优路径; 结果输出模块, 用于循环执行步骤S2和步骤S3直到达到预设终止条件时输出多智能体 未知环境搜救结果。 7.如权利要求6所述的系统, 其特征在于, 所述马尔可夫 决策模型构建模块, 用六元组< S,A,T,R,Z,O>来表示所述马尔可 夫决策模型; 其中: S={S1,S2, …,SN}表示智能体所有可能状态; A={A1,A2, …,AN}表示智能体所 有可能的动作; O={O1,O2, …,ON}表示智能体所有可能的观测值; R表 示奖励值; T表 示状态 之间的一组条件转移概 率; Z表示状态S下观测出O的概 率分布。 8.如权利要求7 所述的系统, 其特 征在于, 单个智能体在时间t时的所述奖励值 为: 其中, 代表着智能体找到一个目标受灾者; 代表着智能体遇到了一个障碍; 代表智能体与智能体之间交 互所获得的智能体 ‑智能体互信息; 代表着运动成本 。 9.如权利要求6所述的系统, 其特征在于, 所述智能体 ‑环境互信息I(m,at)的计算公式 如下: I(m,at)=H(m)‑H(m|at) 其中, I(m,at)表示智能体 ‑环境互信息, H(m)为当前地图的熵; H(m|at)表示在执行动作 at时采集到传感器观测后的期望熵; p(mi,j)表示当前占用网格图的概率; mi,j表示当前占用 的网格图, i表示 地图的单个网格单 元的标号; j表示每 个网格单 元所对应的属性的类别。 10.如权利要求6所述的系统, 其特征在于, 所述利用QMIX算法获取每个所述智能体的 动作包括: 选择最大化 Q值时智能体所采取的动作 作为要获取的所述智能体的动作; 最大化Q值的计算公式为: 其中, Qtotal( τ,u)表示全局Q值, 表示智能体i采取某动作时的最大 化Q值。权 利 要 求 书 2/2 页 3 CN 115330029 A 3

PDF文档 专利 基于深度强化学习的多智能体未知环境搜救方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的多智能体未知环境搜救方法及系统 第 1 页 专利 基于深度强化学习的多智能体未知环境搜救方法及系统 第 2 页 专利 基于深度强化学习的多智能体未知环境搜救方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:41:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。