金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111364422.3 (22)申请日 2021.11.17 (71)申请人 哈尔滨工程大 学 地址 150001 黑龙江省哈尔滨市南岗区南 通大街145号哈尔滨工程大学科技处 知识产权办公室 (72)发明人 卢芳 陈理先 王琴 姚绪梁  兰海 刘宏达 黄曼磊 刘瑜超  (51)Int.Cl. H02J 3/00(2006.01) G06F 30/27(2020.01) G06F 113/04(2020.01) (54)发明名称 一种基于多智能体强化学习的智能 电网分 区网络重构方法 (57)摘要 本发明提供一种基于多智能体强化学习的 智能电网分区网络重构方法, 包括以下步骤: 步 骤1:根据电网运行需要将电网划分成N个区域, 并构建多智能体强化学习的基本元素, 包括环 境、 智能体、 状态、 观测、 动作、 奖励函数; 步骤2: 运行电力系统仿真环境, 创建电力系统的初始运 行状态数据集; 步骤3:构造深度神经网络模型, 应用增强智能体间学习对决策智能体进行训练; 步骤4:利用训练完成的智能体为电网重构提供 策略。 本发明通过多智能体与电力仿真环境交 互, 离线学习最优网络重构的策略, 并在线应用 于实际电网中。 权利要求书2页 说明书5页 附图3页 CN 114123178 A 2022.03.01 CN 114123178 A 1.一种基于多智能体强化学习的智能电网分区网络重构方法, 其特征是, 包括以下步 骤: 步骤1:根据电网运行需要将电网划分成N个区域, 并构建多智能体强化学习的基本元 素, 包括环境、 智能体、 状态、 观测、 动作、 奖励函数; 步骤2:运行电力系统仿真环境, 创建电力系统的初始运行状态数据集; 步骤3:构造深度神经网络模型, 应用增强智能体间学习对决策智能体进行训练; 步骤4:利用训练完成的智能体为电网重构提供 策略。 2.根据权利要求1所述的一种基于多智能体强化学习的智能电网分区网络重构方法, 其特征是: 所述步骤1中多智能体强化学习方法基本要素构建过程包括以下步骤: 步骤1.1: 构建以电力系统仿真环境作为智能体的交互环境, 为智能体提供决策参考的 电网各类属性、 状态值。 当电力系统安全运行即不存在过载线路时, 不运行智能体。 当且仅 当电力系统中存在线路过载时, 智能体进行一系列连续的决策行为, 使电力系统恢复安全 运行。 每运行一个步长, 环境根据所有智能体的动作, 修改电网中的相关参数, 再根据发电 厂、 负荷功率的时变规 律, 进行潮流计算更新电网状态; 步骤1.2: 构建N个区域控制智能体。 智能体同时作 为决策者和学习者, 与环境交互来获 得经验, 并从 中不断学习来 获得最优策略。 每个智能体负责监管一个区域, 智能体之 间通过 合作不断学习到最优的全局策略; 步骤1.3: 构建全局状态空间。 状态反应某一时刻电力系统的运行状态。 以电网拓扑结 构、 发电厂、 负荷和输电线路的有功 功率作为当前系统特 征; 步骤1.4: 为每个智能体构建观测空间。 观测反应某一时刻某一智能体可观测的区域电 网运行状态。 以电网拓扑 结构、 发电厂、 负荷和输电线路的有功 功率作为观测量; 步骤1.5: 为每个智能体构建环境动作空间。 每个智能体的环境动作都会影响环境和团 队奖励。 环境动作从以下两种动作中选择一种来执行: 投切一条线路; 为一个配电站的一个 设备切换母线。 当电网安全运行时环 境动作选择保持原状; 一旦 发现线路越限, 则改变电网 拓扑结构以恢复电网安全。 根据实际电网的操作限制, 对同一条线路或配电站的操作需要 间隔至少3个步长, 一个步长对应现实电网中的5分钟; 步骤1.6: 为每个智能体构建通信动作空间。 每个智能体的通信动作会在下一 时刻被其 他智能体接收并作为决策的依据, 但 不会直接影响环境或奖励。 通信动作是多维向量, 其 维 数由实际应用场景 下智能体之间的通信能力和通信需求决定; 步骤1.7: 奖励函数包 含两种情况。 第一是重构过程中基于线路过 载量的奖励函数; 第二是本轮重构结束时基于系统是否恢复安全运行 所得的奖励函数。 基于线路过 载量的奖励函数: 当前时刻所有过 载线路的线路过 载量标幺值之和。 其中为 第i条线路的实 际有功功率标幺值, 为第i条线路的有功功率阈值 标幺值, O为过 载线路的序号 集。 3.根据权利要求1所述的一种基于多智能体强化学习的智能电网分区网络重构方法, 其特征是: 所述步骤2中的电力系统运行状态数据集构造方法包括以下步骤: 步骤2.1: 根据智能体所在的电网结构, 建立电网的拓扑 结构模型和潮流计算模型;权 利 要 求 书 1/2 页 2 CN 114123178 A 2步骤2.2: 使用真实电网历史数据以及预测数据, 建立电网中各发电厂和 负荷有功功率 的时变规 律模型; 步骤2.3: 设计随机的网络攻击。 在电网安全稳定运行后随机地断开一条线路, 以此创 造事件交由智能体解决。 4.根据权利要求1所述的一种基于多智能体强化学习的智能电网分区网络重构方法, 其特征是: 所述步骤3中应用RIAL 算法进行训练的方法为: 使用深度Q学习(Deep  Q Network,DQN)同时训练所有智能体, 但对DQN有以下两个修 改: 第一, 不使用经验复用池; 第二, 将智能体所采取的环境动作和通信动作作为下一个时 间步的输入。 多智能体的深度Q学习包括以下步骤: 步骤3.1: 建立电力系统仿真环境; 步骤3.2: 确定状态空间、 观察空间、 环境动作空间、 通信动作空间; 步骤3.3: 按照RIAL架构确定智能体的神经网络结构并初始化神经网络参数; 步骤3.4: 环境初始化, 输入电力系统的故障状态作为初始状态; 步骤3.5: 每个步长, 所有智能体选择各自的动作, 环境接收联合动作后转变为新环境 并产生奖励, 根据该转移过程更新各智能体的神经网络参数; 步骤3.6: 判断环境是否达到收敛或发散条件, 若未达到则返回步骤3.5, 否则返回步骤 3.4。权 利 要 求 书 2/2 页 3 CN 114123178 A 3

.PDF文档 专利 一种基于多智能体强化学习的智能电网分区网络重构方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多智能体强化学习的智能电网分区网络重构方法 第 1 页 专利 一种基于多智能体强化学习的智能电网分区网络重构方法 第 2 页 专利 一种基于多智能体强化学习的智能电网分区网络重构方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:14:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。