专利一种基于后决策状态深度强化学习的任务卸载方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210572305.4 (22)申请日 2022.05.24 (71)申请人武汉大学地址 430072 湖北省武汉市武昌区珞珈山街道八一路2 99号 (72)发明人张竞哲　贺晓帆　张晨　周嘉曦　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 专利代理师罗飞 (51)Int.Cl. G06F 9/445(2018.01) G06F 9/50(2006.01) (54)发明名称一种基于后决策状态深度强化学习的任务卸载方法 (57)摘要本发明公开了一种基于后决策状态深度强化学习的任务卸载方法，可以对卸载动作的各个维度进行决策，如任务的卸载对象、卸载数量等。面向不同的优化目标，通过改变成本函数，可以实现不同的目标下的最优策略。本发明利用了 DQN的经验回放机制，随机选取收集的历史经验作为训练样本提高学习效率。同时，也利用了后决策状态学习框架和额外的热启动过程加快学习速度。传统的后决策学习框架虽然有较高的学习效率，但需要额外的先验信息。本发明提出了一种基于后决策状态深度强化学习的任务卸载方法，利用一个额外的学习过程来获取传统后决策学习中需要的额外信息，通过利用高效的后决策状态学习框架，热启动过程及经验回放机制实现了卸载方法的快速收敛。权利要求书3页说明书9页附图4页 CN 115016858 A 2022.09.06 CN 115016858 A 1.一种基于后决策状态深度强化学习的任务卸载方法，其特征在于，包括： S1：设置状态集合、后决策状态集合和动作集合，其中，状态集合包括系统状态，后决策状态集合包括后决策状态，动作集合包括采取的动作； S2：随机初始化起始状态，具体包括：初始化在状态s下采取动作a后到决策后状态的状态转移概率评估网络的权重参数、目标网络的权重参数、相应的评估网络函数、目标网络函数以及经验缓存器， k表示从状态s到后决策状态的转移标识，利用一个与目标任务对应的马尔科夫随机问题对评估网络进行热启动，将迭代次数设置为 1，其中，经验缓存器用以存储某一时刻的状态、采取的动作、对应的后决策状态、采取动作产生的成本以及到下一时刻的状态； S3：根据策略选择一个动作，一个动作对应一个卸载方案； S4：观察后决策状态，将后决策状态、采取步骤S3的动作产生的成本以及下一时刻的状态并形成一组经验，将此组经验存入经验缓存器中； S5：间隔一定时间，更新从经验缓存器中随机选取一批经验，进行经验回放更新评估网络的权重参数及相应的评估函数，并将更新后的评估网络的权重参数赋值给目标网络更新相应的目标网络函数； S6：将迭代次数加1，重复执行步骤S3 ‑S5，直至评估网络收敛，完成热启动； S7：令当前迭代次数为1，清空任务缓存器，重新初始化利用热启动得到的评估网络对目标任务重复步骤S3 ‑S6，直至评估网络收敛；根据评估网络及相应的评估网络函数得到不同状态下的最优卸载策略。 2.如权利要求1所述的基于后决策状态深度强化学习的任务卸载方法，其特征在于，步骤S1中状态集合中的系统状态的形式为：其中， sn为n时刻的系统状态，由信道状态和任务缓存器的状态共同定义，任务缓存器b 共有i个状态，表示b＝{b1,b2,....,bi}，其中， b1、 bi分别表示任务缓存器的第1个状态和第i 个状态， bn表示n时刻的任务缓存器中任务的数量，信道h共有j个状态，表示为h＝{h1, h2,....,hj}， h1、 hj分别表示信道的第1个状态和第j个状态， m表示边缘服务器的数量，分别表示 n时刻第1个边缘服务器的信道状态、 n时刻第m个边缘服务器的信道状态。 3.如权利要求2所述的基于后决策状态深度强化学习的任务卸载方法，其特征在于，步骤S1中的动作集合的动对应卸载决策， n时刻采取的动作为an，卸载决策包括三种情况，第一种，将任务缓存器中pn个任务在本地CPU进行处理，第二种为不处理任何任务，此时pn＝0，第三种，将任务缓存器中的pn个任务同时分别卸载到信道最好的kn个边缘服务器进行处理，其中， pn为n时刻任务缓存器中需要处理的任务数量， kn为n时刻处理卸载任务的服务器数量， kn≤m。 4.如权利要求1所述的基于后决策状态深度强化学习的任务卸载方法，其特征在于，步骤S3中的策略为贪婪策略，具体包括以概率ε进行随机选择一个动作，以概率1 ‑ε选择当前权　利　要　求　书 1/3 页 2 CN 115016858 A 2状态下使得动作值函数Qeval最小的动作。 5.如权利要求2所述的基于后决策状态深度强化学习的任务卸载方法，其特征在于，步骤S4中的后决策状态为当前状态采取动作之后，转移到下一状态之前的中间状态，后决策状态的表示形式为：其中， pn为n时刻任务缓存器中需要处理的任务数量， Δbn表示新达到的任务数量，表示n时刻采取动作后的后决策状态；下一时刻的状态sn+1的表示形式为：其中， bmax表示任务缓存器的容量，分别表示表示n+1时刻第1个边缘服务器的信道状态、 n+1时刻第2个边缘服务器的信道状态、 n+1时刻第 m个边缘服务器的信道状态，下一时刻的状态sn+1即为n+1时刻的状态。 6.如权利要求1所述的基于后决策状态深度强化学习的任务卸载方法，其特征在于，步骤S4包括：获取任务在任务缓存器的缓存成本、任务卸载到边缘服务器的隐私成本、处理任务产生的能量损耗成本以及当任务缓存器因容量不足而发生溢出时产生的溢出成本，其中，处理任务产生的能量损耗成本cenergy包括任务在本地CPU处理的能量消耗与任务卸载至边缘服务器进行处理的能量消耗；任务在任务缓存器的缓存成本cholding＝bn‑pn，任务卸载到边缘服务器处理的隐私成本cprivacy＝pn，当任务缓存器因容量不足而发生溢出时产生的溢出成本coverflow＝max{bn‑pn+Δbn‑bmax,0}， bmax为任务缓存器的大小； pn为n时刻任务缓存器中需要处理的任务数量， bn表示n时刻的任务缓存器中任务的数量， Δbn表示新达到的任务数量；根据任务在任务缓存器的持有成本、任务卸载到边缘服务器的隐私成本、处理任务产生的能量损耗成本以及当任务缓存器因容量不足而发生溢出时产生的溢出成本，获得从sn 到的成本函数ck(s,a)以及从到sn+1的成本函数其中， η1, η2, η3, η4为相应的权重系数， k和u分别表示状态转移标识；在观测到一个完整的状态转移过程后，将当前状态、后决策状态、下一时刻的状态、采取的动作以及动作产生的成本构成的一组经验存入经验缓存器中。 7.如权利要求6所述的基于后决策状态深度强化学习的任务卸载方法，其特征在于，当任务在本地CPU处理时，单位任务消耗的能量为： elocal＝κ L3ζ3/ τ2, 其中， κ 为CPU参数， L为任务大小， ζ为CPU频率， τ为时间间隔；当将任务卸载至边缘服务器时，单位任务消耗的能量为：权　利　要　求　书 2/3 页 3 CN 115016858 A 3

专利 一种基于后决策状态深度强化学习的任务卸载方法

专利一种基于后决策状态深度强化学习的任务卸载方法