专利一体化数据中心柜末端空调系统节能优化方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111573336.3 (22)申请日 2021.12.21 (65)同一申请的已公布的文献号申请公布号 CN 114330852 A (43)申请公布日 2022.04.12 (73)专利权人清华大学地址 100084 北京市海淀区清华园 (72)发明人贾庆山　胡潇　唐静娴　 (74)专利代理机构北京三友知识产权代理有限公司 11127 专利代理师郝博　沈珍珠 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/06(2012.01) G06N 7/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01)F24F 11/88(2018.01) (56)对比文件 CN 112966431 A,2021.0 6.15 CN 113551373 A,2021.10.26 WO 202019 9648 A1,2020.10.08 CN 113361132 A,2021.09.07 US 2021049314 A1,2021.02.18 CN 111126605 A,2020.0 5.08 CN 113572157 A,2021.10.2 9 CN 110962684 A,2020.04.07 翟维辉.灰色马尔可夫组合预测模型的改进与应用. 《中国优秀硕士学位论文全文数据库》 .2018,(第02期), 闫军威等.基于Double-DQ N的中央空调系统节能优化运行. 《华南理工大学学报(自然科学版)》 .2019,(第01期), 审查员罗思异 (54)发明名称一体化数据中心柜末端空调系统节能优化方法及装置 (57)摘要本发明公开了一种一体化数据中心柜末端空调系统节能优化方法及装置，该方法包括：确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型；构建一体化数据中心柜仿真环境；在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数，在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新；基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作；获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态。本发明可以对一体化数据中心柜末端空调系统进行节能优化，效果好，实施难度小。权利要求书3页说明书13页附图7页 CN 114330852 B 2022.09.23 CN 114330852 B 1.一种一体化数据中心柜末端空调系统节能优化方法，其特征在于，包括：确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型；构建一体化数据中心柜仿真环境；在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数，在训练过程中通过不断更新时序差分误差、平均收益估计值，实现对动作价值函数的参数的更新；基于训练好的动作价值函数，实时获取当前时刻最大动作价值函数值对应的动作；获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态；所述马尔可夫决策过程模型包括末端空调系统的状态、动作和奖励函数，其中，末端空调系统的状态表示为：其中， St为t时刻末端空调系统的状态； Ttin、 Ttout、 Ttret、分别为t时刻服务器进风口温度、 t时刻服务器出风口温度、 t时刻空调回风温度、 t时刻服务器的负载率；末端空调系统的动作表示为： At＝θt 其中， At为t时刻的动作； θt为t时刻空调压缩机的开关状态；奖励函数表示为：其中，为t时刻采取了动作At后末端空调系统运行功耗对应的收益；为t时刻采取了动作At后服务器出风口温度对应的收益； λ为参数。 2.如权利要求1所述的方法，其特征在于，末端空调系统运行功耗对应的收益表示为：其中， Pt为t时刻末端空调系统制冷功率；服务器出风口温度对应的收益表示为：或其中，为t+1时刻服务器出风口温度，为服务器出风口允许温度上限，为服务器出风口允许温度下限。 3.如权利要求1所述的方法，其特征在于，确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型，包括：根据末端空调系统运行原理和末端空调系统运行功率确定一体化数据中心柜末端空调系统节能问题的优化目标、约束条件；权　利　要　求　书 1/3 页 2 CN 114330852 B 2分析所述优化目标和约束条件，确定一体化数据中心柜末端空调系统节能问题的决策变量为空调压缩机的开关状态；基于所述优化目标和约束条件，确定所述马尔可夫决策过程模型的状态和奖励函数；基于所述决策变量，确定所述马尔可夫决策过程模型的动作。 4.如权利要求3所述的方法，其特征在于，在所述仿真环境中，基于马尔可夫决策过程模型，对基于价值的函数逼近型差分强化学习算法进行训练，输出训练好的动作价值函数，包括：确定训练时间步数、学习率、平均收益因子和动作价值函数，所述动作价值函数包含末端空调系统的状态、动作和参数；任意初始化动作价值函数的参数，任意初始化平均收益估计值，初始化末端空调系统的状态；循环执行以下步骤，直至达到训练时间步数，输出训练好的动作价值函数：使用从动作价值函数中得到的策略，选择当前时刻的动作；采取当前时刻的动作，通过仿真环境获得下一时刻末端空调系统的状态的观测值，计算下一时刻的奖励函数值，并将当前时刻末端空调系统的状态的观测值和动作、下一时刻末端空调系统的状态的观测值和奖励函数值放入经验池中；在经验池中采样一个任意时刻的四元组，所述任意时刻的四元组包括任意时刻末端空调系统的状态的观测值和动作、所述任意时刻的下一时刻的末端空调系统的状态的观测值和奖励函数值；根据所述任意时刻的四元组，更新时序差分误差；根据更新的时序差分误差和平均收益因子，更新平均收益估计值，所述平均收益估计值为当前时刻对平均收益的估计；根据所述任意时刻的动作价值函数值、学习率、更新的时序差分误差，更新动作价值函数的参数。 5.如权利要求4所述的方法，其特征在于，采用如下表达式，根据所述任意时刻的四元组，更新时序差分误差：其中， δ为时序差分误差； Rj+1为j+1时刻的奖励函数值； Q(Sj+1,a,w)为j+1时刻的动作价值函数值； Q(Sj,Aj,w)为j时刻的动作价值函数值；为平均收益估计值；采用如下表达式，根据更新的时序差分误差和平均收益因子，更新平均收益估计值：其中， β 为平均收益因子；采用如下表达式，根据所述任意时刻的动作价值函数值、学习率、更新的时序差分误差，更新动作价值函数的参数： w←w+α δ▽Q(Sj,Aj,w) 其中， w为动作价值函数的参数； α 为学习率。 6.如权利要求4所述的方法，其特征在于，所述动作价值函数为如下函数中的其中一种：权　利　要　求　书 2/3 页 3 CN 114330852 B 3

专利 一体化数据中心柜末端空调系统节能优化方法及装置

专利一体化数据中心柜末端空调系统节能优化方法及装置