专利一种基于多智能体强化学习的智能电网分区网络重构方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111364422.3 (22)申请日 2021.11.17 (71)申请人哈尔滨工程大学地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室 (72)发明人卢芳　陈理先　王琴　姚绪梁　兰海　刘宏达　黄曼磊　刘瑜超　 (51)Int.Cl. H02J 3/00(2006.01) G06F 30/27(2020.01) G06F 113/04(2020.01) (54)发明名称一种基于多智能体强化学习的智能电网分区网络重构方法 (57)摘要本发明提供一种基于多智能体强化学习的智能电网分区网络重构方法，包括以下步骤：步骤1:根据电网运行需要将电网划分成N个区域，并构建多智能体强化学习的基本元素，包括环境、智能体、状态、观测、动作、奖励函数；步骤2: 运行电力系统仿真环境，创建电力系统的初始运行状态数据集；步骤3:构造深度神经网络模型，应用增强智能体间学习对决策智能体进行训练；步骤4:利用训练完成的智能体为电网重构提供策略。本发明通过多智能体与电力仿真环境交互，离线学习最优网络重构的策略，并在线应用于实际电网中。权利要求书2页说明书5页附图3页 CN 114123178 A 2022.03.01 CN 114123178 A 1.一种基于多智能体强化学习的智能电网分区网络重构方法，其特征是，包括以下步骤：步骤1:根据电网运行需要将电网划分成N个区域，并构建多智能体强化学习的基本元素，包括环境、智能体、状态、观测、动作、奖励函数；步骤2:运行电力系统仿真环境，创建电力系统的初始运行状态数据集；步骤3:构造深度神经网络模型，应用增强智能体间学习对决策智能体进行训练；步骤4:利用训练完成的智能体为电网重构提供策略。 2.根据权利要求1所述的一种基于多智能体强化学习的智能电网分区网络重构方法，其特征是：所述步骤1中多智能体强化学习方法基本要素构建过程包括以下步骤：步骤1.1：构建以电力系统仿真环境作为智能体的交互环境，为智能体提供决策参考的电网各类属性、状态值。当电力系统安全运行即不存在过载线路时，不运行智能体。当且仅当电力系统中存在线路过载时，智能体进行一系列连续的决策行为，使电力系统恢复安全运行。每运行一个步长，环境根据所有智能体的动作，修改电网中的相关参数，再根据发电厂、负荷功率的时变规律，进行潮流计算更新电网状态；步骤1.2：构建N个区域控制智能体。智能体同时作为决策者和学习者，与环境交互来获得经验，并从中不断学习来获得最优策略。每个智能体负责监管一个区域，智能体之间通过合作不断学习到最优的全局策略；步骤1.3：构建全局状态空间。状态反应某一时刻电力系统的运行状态。以电网拓扑结构、发电厂、负荷和输电线路的有功功率作为当前系统特征；步骤1.4：为每个智能体构建观测空间。观测反应某一时刻某一智能体可观测的区域电网运行状态。以电网拓扑结构、发电厂、负荷和输电线路的有功功率作为观测量；步骤1.5：为每个智能体构建环境动作空间。每个智能体的环境动作都会影响环境和团队奖励。环境动作从以下两种动作中选择一种来执行：投切一条线路；为一个配电站的一个设备切换母线。当电网安全运行时环境动作选择保持原状；一旦发现线路越限，则改变电网拓扑结构以恢复电网安全。根据实际电网的操作限制，对同一条线路或配电站的操作需要间隔至少3个步长，一个步长对应现实电网中的5分钟；步骤1.6：为每个智能体构建通信动作空间。每个智能体的通信动作会在下一时刻被其他智能体接收并作为决策的依据，但不会直接影响环境或奖励。通信动作是多维向量，其维数由实际应用场景下智能体之间的通信能力和通信需求决定；步骤1.7：奖励函数包含两种情况。第一是重构过程中基于线路过载量的奖励函数；第二是本轮重构结束时基于系统是否恢复安全运行所得的奖励函数。基于线路过载量的奖励函数：当前时刻所有过载线路的线路过载量标幺值之和。其中为第i条线路的实际有功功率标幺值，为第i条线路的有功功率阈值标幺值， O为过载线路的序号集。 3.根据权利要求1所述的一种基于多智能体强化学习的智能电网分区网络重构方法，其特征是：所述步骤2中的电力系统运行状态数据集构造方法包括以下步骤：步骤2.1：根据智能体所在的电网结构，建立电网的拓扑结构模型和潮流计算模型；权　利　要　求　书 1/2 页 2 CN 114123178 A 2步骤2.2：使用真实电网历史数据以及预测数据，建立电网中各发电厂和负荷有功功率的时变规律模型；步骤2.3：设计随机的网络攻击。在电网安全稳定运行后随机地断开一条线路，以此创造事件交由智能体解决。 4.根据权利要求1所述的一种基于多智能体强化学习的智能电网分区网络重构方法，其特征是：所述步骤3中应用RIAL 算法进行训练的方法为：使用深度Q学习(Deep Q Network,DQN)同时训练所有智能体，但对DQN有以下两个修改：第一，不使用经验复用池；第二，将智能体所采取的环境动作和通信动作作为下一个时间步的输入。多智能体的深度Q学习包括以下步骤：步骤3.1：建立电力系统仿真环境；步骤3.2：确定状态空间、观察空间、环境动作空间、通信动作空间；步骤3.3：按照RIAL架构确定智能体的神经网络结构并初始化神经网络参数；步骤3.4：环境初始化，输入电力系统的故障状态作为初始状态；步骤3.5：每个步长，所有智能体选择各自的动作，环境接收联合动作后转变为新环境并产生奖励，根据该转移过程更新各智能体的神经网络参数；步骤3.6：判断环境是否达到收敛或发散条件，若未达到则返回步骤3.5，否则返回步骤 3.4。权　利　要　求　书 2/2 页 3 CN 114123178 A 3

专利 一种基于多智能体强化学习的智能电网分区网络重构方法

专利一种基于多智能体强化学习的智能电网分区网络重构方法