(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111573336.3
(22)申请日 2021.12.21
(65)同一申请的已公布的文献号
申请公布号 CN 114330852 A
(43)申请公布日 2022.04.12
(73)专利权人 清华大学
地址 100084 北京市海淀区清华园
(72)发明人 贾庆山 胡潇 唐静娴
(74)专利代理 机构 北京三友知识产权代理有限
公司 11127
专利代理师 郝博 沈珍珠
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 50/06(2012.01)
G06N 7/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)F24F 11/88(2018.01)
(56)对比文件
CN 112966431 A,2021.0 6.15
CN 113551373 A,2021.10.26
WO 202019 9648 A1,2020.10.08
CN 113361132 A,2021.09.07
US 2021049314 A1,2021.02.18
CN 111126605 A,2020.0 5.08
CN 113572157 A,2021.10.2 9
CN 110962684 A,2020.04.07
翟维辉.灰色马尔可 夫组合预测模型的改进
与应用. 《中国优秀硕士学位 论文全文数据库》
.2018,(第02期),
闫军威等.基于Double-DQ N的中央空调 系统
节能优化 运行. 《华 南理工大 学学报(自然科 学
版)》 .2019,(第01期),
审查员 罗思异
(54)发明名称
一体化数据中心柜末端空调系统节能优化
方法及装置
(57)摘要
本发明公开了一种一体化数据中心柜末端
空调系统节能优化方法及装置, 该方法包括: 确
定一体化数据中心柜末端空调系统的马尔可夫
决策过程模型; 构建一体化数据中心柜仿真环
境; 在所述仿真环境中, 基于马尔可夫决策过程
模型, 对基于价值的函数逼近型差分强化学习算
法进行训练, 输出训练好的动作价值函数, 在训
练过程中通过不断更新时序差分误差、 平均收益
估计值, 实现对动作价值函数的参数的更新; 基
于训练好的动作价值函数, 实时获取当前时刻最
大动作价值函数值对应的动作; 获得当前时刻最
大动作价值函数值对应的动作对应的空调压缩
机的开关状态。 本发明可以对一体化数据中心柜
末端空调系统进行节能优化, 效果好, 实施难度
小。
权利要求书3页 说明书13页 附图7页
CN 114330852 B
2022.09.23
CN 114330852 B
1.一种一体化数据中心柜 末端空调系统节能优化方法, 其特 征在于, 包括:
确定一体化数据中心柜 末端空调系统的马尔可 夫决策过程模型;
构建一体化数据中心柜仿真环境;
在所述仿真环境中, 基于马尔可夫决策过程模型, 对基于价值的函数逼近型差分强化
学习算法进行训练, 输出训练好的动作价值函数, 在训练过程中通过不断更新时序差分误
差、 平均收益估计值, 实现对动作价 值函数的参数的更新;
基于训练好的动作价 值函数, 实时获取当前时刻最大动作价 值函数值对应的动作;
获得当前时刻最大动作价 值函数值对应的动作对应的空调压缩机的开关状态;
所述马尔可 夫决策过程模型包括末端空调系统的状态、 动作和奖励函数, 其中,
末端空调系统的状态 表示为:
其中, St为t时刻末端空调系统的状态; Ttin、 Ttout、 Ttret、
分别为t时刻服务器进风口
温度、 t时刻服 务器出风口温度、 t时刻空调回风温度、 t时刻服 务器的负载率;
末端空调系统的动作表示 为:
At=θt
其中, At为t时刻的动作; θt为t时刻空调压缩机的开关状态;
奖励函数表示 为:
其中,
为t时刻采取了动作At后末端空调系统运行功耗对应的收益;
为t时刻采
取了动作At后服务器出风口温度对应的收益; λ为 参数。
2.如权利要求1所述的方法, 其特 征在于, 末端空调系统运行功耗对应的收益表示 为:
其中, Pt为t时刻末端空调系统制冷功率;
服务器出风口温度对应的收益表示 为:
或
其中,
为t+1时刻服务器出风口温度,
为服务器出风口允许温度上限,
为服务
器出风口允许温度下限。
3.如权利要求1所述的方法, 其特征在于, 确定一体化数据中心柜末端空调系统 的马尔
可夫决策过程模型, 包括:
根据末端空调系统运行原理和末端空调系统运行功率确定一体化数据中心柜末端空
调系统节能问题的优化目标、 约束条件;权 利 要 求 书 1/3 页
2
CN 114330852 B
2分析所述优化目标和约束条件, 确定一体化数据中心柜末端空调系统节能问题的决策
变量为空调压缩机的开关状态;
基于所述优化目标和约束条件, 确定所述马尔可 夫决策过程模型的状态和奖励函数;
基于所述决策变量, 确定所述马尔可 夫决策过程模型的动作。
4.如权利要求3所述的方法, 其特征在于, 在所述仿真环境中, 基于马尔可夫决策过程
模型, 对基于价值的函数逼近型差 分强化学习算法进 行训练, 输出训练好的动作价值函数,
包括:
确定训练时间步数、 学习率、 平均收益因子和动作价值函数, 所述动作价值函数包含末
端空调系统的状态、 动作和参数;
任意初始化动作价值函数的参数, 任意初始化平均收益估计值, 初始化末端空调系统
的状态;
循环执行以下步骤, 直至 达到训练时间步数, 输出训练好的动作价 值函数:
使用从动作价 值函数中得到的策略, 选择当前时刻的动作;
采取当前时刻的动作, 通过仿真环境获得下一时刻末端空调系统的状态的观测值, 计
算下一时刻的奖励函数值, 并将当前时刻末端空调系统的状态的观测值和动作、 下一时刻
末端空调系统的状态的观测值和奖励函数值 放入经验 池中;
在经验池中采样一个任意 时刻的四元组, 所述任意 时刻的四元组包括任意 时刻末端空
调系统的状态的观测值和 动作、 所述任意时刻的下一时刻的末端空调系统的状态的观测值
和奖励函数值;
根据所述任意时刻的四元组, 更新时序差分误差;
根据更新的时序差分误差和平均收益因子, 更新平均收益估计值, 所述平均收益估计
值为当前时刻对平均收益的估计;
根据所述任意时刻的动作价值函数值、 学习率、 更新的时序差分误差, 更新动作价值函
数的参数。
5.如权利要求4所述的方法, 其特征在于, 采用 如下表达式, 根据所述任意时刻的四元
组, 更新时序差分误差:
其中, δ为时序差分误差; Rj+1为j+1时刻的奖励 函数值; Q(Sj+1,a,w)为j+1时刻的动作价
值函数值; Q(Sj,Aj,w)为j时刻的动作价 值函数值;
为平均收益估计值;
采用如下表达式, 根据更新的时序差分误差和平均收益因子, 更新平均收益估计值:
其中, β 为平均收益因子;
采用如下表达式, 根据所述任意时刻的动作价值函数值、 学习率、 更新的时序差分误
差, 更新动作价 值函数的参数:
w←w+α δ▽Q(Sj,Aj,w)
其中, w为动作价 值函数的参数; α 为学习率。
6.如权利要求4所述的方法, 其特征在于, 所述动作价值函数为如下函数中的其中一
种:权 利 要 求 书 2/3 页
3
CN 114330852 B
3
专利 一体化数据中心柜末端空调系统节能优化方法及装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:05:44上传分享