金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210433511.7 (22)申请日 2022.04.24 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 田贤忠 缪娉婷 许鹏程 孟慧骁  (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 舒良 (51)Int.Cl. G06F 9/445(2018.01) H04W 28/08(2009.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度强化学习的无人机辅助边缘 卸载决策方法 (57)摘要 一种基于深度强化学习的无人机辅助边缘 卸载决策方法, 包括以下步骤: 设置S个 静态边缘 服务器和N架携带存储设备的无人机; 服务器上 的任务以均值为 λi,t的泊松分布 到达, 并以一定 的概率pi,t卸载给服务器进行处理, 剩下的则在 无人机处理; 建立以最小化任务完成时间和计算 任务成本为优化目标的优化问题模 型, 并采用深 度强化学习方法来求解该问题, 得到最优的无人 机数量分配方案以及服务器与无人机之间的卸 载方案。 本发 明适用于服务器计算任务不均衡的 移动边缘计算系统场景, 可以根据边缘服务器的 计算任务负载情况, 合理部署无人机, 制定合适 的卸载决策。 权利要求书2页 说明书6页 附图2页 CN 115309467 A 2022.11.08 CN 115309467 A 1.一种基于深度强化学习的无人机辅助边缘卸载决策方法, 其特征在于, 包括如下步 骤: 步骤1: 在交通网络中, 部署S台边缘服务器(简称为服务器), 表示服务 器的集合; 无人机数量为N架; 无人机计算单位任务成本为coatd, 服务器计算单位任务的成 本为coats; 每一架无人机都部署在某一服务器的覆盖范围内, 辅助服务器完成卸载任务, 部署的情况表示为 G(t)=[a1, t, a2, t, a3, t, ..., aS, t], ai, t表示在t时刻 协助服务器i的无人机 数量; 步骤2: 每个时隙t服务器i的任务到达都服从均 值为λi, t的泊松分布; 让到达服务器i的 任务以pi, t的概率选择服务器i来处理, 则服务器端任务的到达速率为λi, tpi, t, 无人机端任 务的到达速率为 λi, t(1‑pi, t), 记pt=[p1, t, p2, t, ..., ps, t]; 步骤3: 利用排队论计算任务在服务器处理时的逗留时间(排队时间+处理时间)和任务 在无人机处理时的逗留时间, 建立最小化任务完成时间和计算任务成本为目标的优化问题 P1; 步骤4: 采用深度强化学习的算法对步骤3中归纳的数学问题P1进行求解, 从而得到单 个时隙内无 人机辅助方案G(t)、 计算任务卸载 方案pt。 2.如权利要求1所述的一种基于深度强化学习的无人机辅助边缘卸载决策方法, 其特 征在于: 所述 步骤3中, 所述任务完成时间和计算任务成本的表达式为: 其中Ti, t, s表示任务在服务器i上的逗留时间, Ti, t, d, s表示任务卸载给无人机时的逗留 时间; 特别 其中 μs为服务器的处理速率; 其中 是计算 任务在服务器端的发送队列长度, 是服务器的发送强度, 是 服务器与无人机之间的上行传输速率, w为无人机与服务器之间的带宽, Pi为服务器i的发 射功率, gi为服务器i与无人机之间的信道增益, σ2为服务器i与无人机之间的噪声, 是无人机端计算任务队列长度, 其中 μd为无人机的处 理速率。 3.如权利要求1或2所述的一种基于深度强化学习的无人机辅助边缘卸载决策方法, 其 特征在于: 所述 步骤3中, 所述限制条件的表达式为: ω1+ω2=1            (1) pi, t≤1             (3) λi, t(1‑pi, t)< μtr            (4)权 利 要 求 书 1/2 页 2 CN 115309467 A 2λi, t(1‑pi, t)< μd×ai, t          (5) λi, tpi, t< μs          (6) 其中式(1)是权重因子的约束, 式(2)是辅助的无人机数量的约束, 式(3)是卸载的概率 约束, 式(4)(5)(6)是排队论中任务到 达速度和处 理速度之间的约束。 4.如权利要求1、 2或3所述的一种基于深度强化学习的无人机辅助边缘卸载决策方法, 其特征在于: 所述 步骤4中, 采用深度强化学习算法对步骤3中问题P1进行求 解的步骤为: 步骤4.1: 根据时隙之间的独立性以及服务器之间的独立性, 将优化问题P1转化为问题 P2; P2: s.t.(1)~(6) 步骤4.2: 通过随机方法初始化两个DNN的网络参数θa, 1和θp, 1, 用网络参数来产生部署 决策和卸载决策; 初始化两个空的Memory, 用来存放经 过训练后得到的历史经验; 步骤4.3: 选择SoftPlus函数作为第一个DNN网络的隐藏层的激活函数, SoftMax函数作 为其输出层函数; 每个时隙的任务到达速率λt作为其输入, 其输出为 其中 表示通过网络参数θa, t在第一个DN N网络中对于 λt状态的映射 函数; 步骤4.4: 选择ReLu作为第二个DNN网络的隐藏层的激活函数, sigmoid函数作为输出层 函数; 将第一个DNN网络输出得到的 作为输入, 输出为 其中 表示通 过网络参数θp, t在第二个DN N网络中对于 状态的映射 函数; 步骤4.5: 上述步骤中得到的 和 为松弛向量, 即并不一定是对应状态的最优决策, 于是将该时刻的λt和松弛向量 和 内的元素进行升序排列得到 和 将 中的每一个元素与 和 中的元素进行遍历计算P2的最小值 得 到每个服务器的无 人机数量G(t)*和卸载决策 步骤4.6: 把步骤4.5中 和得到的G(t)*添加到第一个DNN网络的Memory里, G(t)*和 添加第二个DNN的Memory中; 如果Memory已满, 就用最新的 G(t)*和 替换Memory中最 旧的数据; 每当时隙数量达到训练间隔δ 时, 从Memory中联合取出一批数据作为训练样 本集 和 为一组时间指数; 步骤4.7: 用 和 分别训练两个DNN网络, 并且使 用Adam算法更新优化训练参数θa, t和 θp, t; 步骤4.8: 重复步骤4.3 ‑步骤4.7, 直到迭代次数达 到限定值M; 步骤4.9: 利用训练好的深度强化学习网络求出每 个时隙无 人机部署和卸载 方案。权 利 要 求 书 2/2 页 3 CN 115309467 A 3

.PDF文档 专利 一种基于深度强化学习的无人机辅助边缘卸载决策方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的无人机辅助边缘卸载决策方法 第 1 页 专利 一种基于深度强化学习的无人机辅助边缘卸载决策方法 第 2 页 专利 一种基于深度强化学习的无人机辅助边缘卸载决策方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:59:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。