专利基于深度强化学习的多智能体未知环境搜救方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221086810 6.8 (22)申请日 2022.07.22 (71)申请人合肥工业大学地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人顾东晓　王芹　李晓玥　李霄剑　丁帅　欧阳波　杨善林　徐正飞　苏凯翔　魏琪　谢懿　 (74)专利代理机构北京久诚知识产权代理事务所(特殊普通合伙) 11542 专利代理师余罡 (51)Int.Cl. G06Q 10/04(2012.01) G06K 9/62(2022.01) G06Q 50/26(2012.01) (54)发明名称基于深度强化学习的多智能体未知环境搜救方法及系统 (57)摘要本发明提供一种基于深度强化学习的多智能体未知环境搜救方法及系统，涉及路径规划技术和未知环境搜救技术领域。本发明首先获取基于多智能体未知环境搜救的马尔可夫决策模型；然后基于所述马尔可夫决策模型利用QMIX算法获取每个所述智能体的动作；每个智能体基于上述动作利用A*算法规划从当前点到下一状态目标点的最优路径；不断循环QMIX算法确定动作且 A*算法规划路径的过程，直到达到预设终止条件时输出多智能体未知环境搜救结果。本发明有效提高了多智能体在未知环境中搜救的效率。权利要求书2页说明书11页附图2页 CN 115330029 A 2022.11.11 CN 115330029 A 1.一种基于深度强化学习的多智能体未知环境搜救方法，其特征在于，所述方法包括： S1、获取基于多智能体未知环境搜救的马尔可夫决策模型； S2、基于所述马尔可夫决策模型，利用QMIX算法和智能体 ‑环境互信息确定每个所述智能体的动作； S3、每个智能体基于所述动作利用A*算法规划从当前点到下一状态目标点的最优路径； S4、循环执行步骤S2和步骤S3直到达到预设终止条件时输出多智能体未知环境搜救结果。 2.如权利要求1所述的方法，其特征在于，用六元组<S,A,T,R,Z,O>来表示所述马尔可夫决策模型；其中： S＝{S1,S2, …,SN}表示智能体所有可能状态； A＝{A1,A2, …,AN}表示智能体所有可能的动作； O＝{O1,O2, …,ON}表示智能体所有可能的观测值； R表示奖励值； T表示状态之间的一组条件转移概率； Z表示状态S下观测出O的概率分布。 3.如权利要求2所述的方法，其特征在于，单个智能体在时间t时的所述奖励值为：其中，代表着智能体找到一个目标受灾者；代表着智能体遇到了一个障碍；代表智能体与智能体之间交互所获得的智能体 ‑智能体互信息；代表着运动成本。 4.如权利要求1所述的方法，其特征在于，所述智能体 ‑环境互信息I(m,at)的计算公式如下： I(m,at)＝H(m)‑H(m|at) 其中， I(m,at)表示智能体 ‑环境互信息， H(m)为当前地图的熵； H(m|at)表示在执行动作 at时采集到传感器观测后的期望熵； p(mi,j)表示当前占用网格图的概率； mi,j表示当前占用的网格图， i表示地图的单个网格单元的标号； j表示每个网格单元所对应的属性的类别。 5.如权利要求1所述的方法，其特征在于，所述利用QMIX算法获取每个所述智能体的动作包括：选择最大化 Q值时智能体所采取的动作作为要获取的所述智能体的动作；最大化Q值的计算公式为：其中， Qtotal( τ,u)表示全局Q值，表示智能体i采取某动作时的最大化Q值。 6.一种基于深度强化学习的多智能体未知环境搜救系统，其特征在于，所述系统包括：马尔可夫决策模型构建模块，用于获取基于多智能体未知环境搜救的马尔可夫决策模型；智能体的动作获取模块，用于基于所述马尔可夫决策模型，利用QMIX算法和智能体 ‑环权　利　要　求　书 1/2 页 2 CN 115330029 A 2境互信息确定每个所述智能体的动作；路径规划模块，用于每个智能体基于所述动作利用A*算法规划从当前点到下一状态目标点的最优路径；结果输出模块，用于循环执行步骤S2和步骤S3直到达到预设终止条件时输出多智能体未知环境搜救结果。 7.如权利要求6所述的系统，其特征在于，所述马尔可夫决策模型构建模块，用六元组< S,A,T,R,Z,O>来表示所述马尔可夫决策模型；其中： S＝{S1,S2, …,SN}表示智能体所有可能状态； A＝{A1,A2, …,AN}表示智能体所有可能的动作； O＝{O1,O2, …,ON}表示智能体所有可能的观测值； R表示奖励值； T表示状态之间的一组条件转移概率； Z表示状态S下观测出O的概率分布。 8.如权利要求7 所述的系统，其特征在于，单个智能体在时间t时的所述奖励值为：其中，代表着智能体找到一个目标受灾者；代表着智能体遇到了一个障碍；代表智能体与智能体之间交互所获得的智能体 ‑智能体互信息；代表着运动成本。 9.如权利要求6所述的系统，其特征在于，所述智能体 ‑环境互信息I(m,at)的计算公式如下： I(m,at)＝H(m)‑H(m|at) 其中， I(m,at)表示智能体 ‑环境互信息， H(m)为当前地图的熵； H(m|at)表示在执行动作 at时采集到传感器观测后的期望熵； p(mi,j)表示当前占用网格图的概率； mi,j表示当前占用的网格图， i表示地图的单个网格单元的标号； j表示每个网格单元所对应的属性的类别。 10.如权利要求6所述的系统，其特征在于，所述利用QMIX算法获取每个所述智能体的动作包括：选择最大化 Q值时智能体所采取的动作作为要获取的所述智能体的动作；最大化Q值的计算公式为：其中， Qtotal( τ,u)表示全局Q值，表示智能体i采取某动作时的最大化Q值。权　利　要　求　书 2/2 页 3 CN 115330029 A 3

专利 基于深度强化学习的多智能体未知环境搜救方法及系统

专利基于深度强化学习的多智能体未知环境搜救方法及系统