金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210572305.4 (22)申请日 2022.05.24 (71)申请人 武汉大学 地址 430072 湖北省武汉市武昌区珞珈山 街道八一路2 99号 (72)发明人 张竞哲 贺晓帆 张晨 周嘉曦  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 罗飞 (51)Int.Cl. G06F 9/445(2018.01) G06F 9/50(2006.01) (54)发明名称 一种基于后决策状态深度强化学习的任务 卸载方法 (57)摘要 本发明公开了一种基于后决策状态深度强 化学习的任务卸载方法, 可以对卸载动作的各个 维度进行决策, 如任务的卸载对象、 卸载数量等。 面向不同的优化目标, 通过改变成本函数, 可 以 实现不同的目标下的最优策略。 本发明利用了 DQN的经验回放机制, 随机选取收集的历史经验 作为训练样本提高学习效率。 同时, 也利用了后 决策状态学习框架和额外的热启动过程加快学 习速度。 传统的后决策学习框架虽然有较高的学 习效率, 但需要额外的先验信息。 本发明提出了 一种基于后决策状态深度强化学习的任务卸载 方法, 利用一个额外的学习过程来获取传统后决 策学习中需要的额外信息, 通过利用高效的后决 策状态学习框架, 热启动过程及经验回放机制实 现了卸载 方法的快速收敛。 权利要求书3页 说明书9页 附图4页 CN 115016858 A 2022.09.06 CN 115016858 A 1.一种基于后决策状态深度强化学习的任务卸载 方法, 其特 征在于, 包括: S1: 设置状态集合、 后决策状态集合和动作集合, 其中, 状态集合包括系统状态, 后决策 状态集合包括后决策状态, 动作集 合包括采取的动作; S2: 随机初始化起始状态, 具体包括: 初始化在状态s下采取动作a后到决策后状态 的 状态转移概率 评估网络 的权重参数、 目标网络 的权重参数、 相应 的评 估网络函数、 目标网络函数以及经验缓存器, k表示 从状态s到后决策状态的转移标识, 利用 一个与目标任务对应的马尔科夫随机问题对评估网络 进行热启动, 将迭代次数设置为 1, 其中, 经验缓存器用以存储某一时刻的状态、 采取的动作、 对应的后决策状态、 采取动作 产生的成本以及到下一时刻的状态; S3: 根据策略选择一个动作, 一个动作对应一个卸载 方案; S4: 观察后决策状态, 将后决策状态、 采取步骤S3的动作产生的成本以及下一时刻的状 态并形成一组经验, 将此组经验 存入经验缓存器中; S5: 间隔一定时间, 更新 从经验缓存器中随机选取一批经验, 进行经验回放 更新评估网络 的权重参数及相应的评估函数, 并将更新后的评估网络 的权重参数 赋值给目标网络 更新相应的目标网络函数; S6: 将迭代次数加1, 重复执 行步骤S3 ‑S5, 直至评估网络 收敛, 完成热启动; S7: 令当前迭代次数为1, 清空任务缓存器, 重新初始化 利用热启动得到的评 估网络 对目标任务重 复步骤S3 ‑S6, 直至评估网络收敛; 根据评估网络 及相应的评 估网络函数 得到不同状态下的最优卸载 策略。 2.如权利要求1所述的基于后决策状态深度强化学习的任务卸载方法, 其特征在于, 步 骤S1中状态集 合中的系统状态的形式为: 其中, sn为n时刻的系统状态, 由信道状态和任务缓存器的状态共同定义, 任务缓存器b 共有i个状态, 表示b={b1,b2,....,bi}, 其中, b1、 bi分别表示任务缓存器的第1个状态和第i 个状态, bn表示n时刻的任务缓存器中任务的数量, 信道h共有j个状态, 表示为h={h1, h2,....,hj}, h1、 hj分别表示信道的第1个状态和第j个状态, m表示边缘服务器的数量, 分别表示 n时刻第1个边 缘服务器的信道状态、 n时刻第m个边 缘服务器的信道状态。 3.如权利要求2所述的基于后决策状态深度强化学习的任务卸载方法, 其特征在于, 步 骤S1中的动作集合 的动对应卸载决策, n时刻采取的动作为an, 卸载决策包括三种情况, 第 一种, 将任务缓存 器中pn个任务在本地CPU进行处理, 第二种为不处理任何任务, 此时pn=0, 第三种, 将任务缓存器中的pn个任务同时分别卸载到信道最好的kn个边缘服务器进行处理, 其中, pn为n时刻任务缓存器中需要处理的任务数量, kn为n时刻处理卸载任务的服务器数 量, kn≤m。 4.如权利要求1所述的基于后决策状态深度强化学习的任务卸载方法, 其特征在于, 步 骤S3中的策 略为贪婪策略, 具体包括以概率ε进行随机选择一个动作, 以概率1 ‑ε选择当前权 利 要 求 书 1/3 页 2 CN 115016858 A 2状态下使得动作值 函数Qeval最小的动作。 5.如权利要求2所述的基于后决策状态深度强化学习的任务卸载方法, 其特征在于, 步 骤S4中的后决策状态为当前状态采取动作之后, 转移到下一状态之前的中间状态, 后决策 状态的表示形式为: 其中, pn为n时刻任务缓存器中需要处理的任务数量, Δbn表示新达到的任务数量, 表 示n时刻采取动作后的后决策状态; 下一时刻的状态sn+1的表示形式为: 其中, bmax表示任务缓存器的容量, 分别表示表示n+1时刻第1个边缘服 务器的信道状态、 n+1时刻第2个边缘服务器的信道状态、 n+1时刻第 m个边缘服务器的信道 状态, 下一时刻的状态sn+1即为n+1时刻的状态。 6.如权利要求1所述的基于后决策状态深度强化学习的任务卸载方法, 其特征在于, 步 骤S4包括: 获取任务在任务缓存器的缓存成本、 任务卸载到边缘服务器的隐私成本、 处理任务产 生的能量损耗成本以及当任务缓存器因容量不足而发生溢出时产生的溢出成本, 其中, 处 理任务产生的能量损耗成本cenergy包括任务在本地CPU处理的能量消耗与任务卸载至边缘 服务器进行处理的能量消耗; 任务在任务缓存器的缓存成本cholding=bn‑pn, 任务卸载到边 缘服务器处理的隐私成本cprivacy=pn, 当任务缓存器因容量不足而发生溢出时产生的溢出 成本coverflow=max{bn‑pn+Δbn‑bmax,0}, bmax为任务缓存器的大小; pn为n时刻任务缓存器 中 需要处理 的任务数量, bn表示n时刻的任务缓存器中任务的数量, Δbn表示新达到的任务数 量; 根据任务在任务缓存器的持有成本、 任务卸载到边缘服务器的隐私成本、 处理任务产 生的能量损耗成本以及当任务缓存器因容量不足而 发生溢出时产生的溢出成本, 获得从sn 到 的成本函数ck(s,a)以及从 到sn+1的成本函数 其中, η1, η2, η3, η4为相应的权 重系数, k和u分别表示状态转移标识; 在观测到一个完整的状态转移过程后, 将当前状态、 后决策状态、 下一时刻的状态、 采 取的动作以及动作产生的成本构成的一组经验 存入经验缓存器中。 7.如权利要求6所述的基于后决策状态深度强化学习的任务卸载方法, 其特征在于, 当 任务在本地CPU处 理时, 单位任务消耗的能量 为: elocal=κ L3ζ3/ τ2, 其中, κ 为CPU参数, L为任务大小, ζ为CPU频率, τ为时间间隔; 当将任务卸载至边缘服务 器时, 单位任务消耗的能量 为: 权 利 要 求 书 2/3 页 3 CN 115016858 A 3

.PDF文档 专利 一种基于后决策状态深度强化学习的任务卸载方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于后决策状态深度强化学习的任务卸载方法 第 1 页 专利 一种基于后决策状态深度强化学习的任务卸载方法 第 2 页 专利 一种基于后决策状态深度强化学习的任务卸载方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:59:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。