专利一种变压器DGA在线监测数据的处理方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111534103.2 (22)申请日 2021.12.15 (71)申请人南昌大学地址 330000 江西省南昌市红谷滩新区学府大道999号 (72)发明人朱自伟　张益宁　周梦垚　谢青　徐松龄　翟嘉璐　王梦宇　 (74)专利代理机构北京众合诚成知识产权代理有限公司 1 1246 代理人王焕巧 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/215(2019.01) G06K 9/62(2022.01) G06N 3/00(2006.01)G06N 20/10(2019.01) G06Q 50/06(2012.01) (54)发明名称一种变压器DGA在线监测数据的处理方法 (57)摘要本发明提出一种变压器DGA在线监测数据的处理方法，根据传回数据的特征，将在线数据等效为时间序列；第一阶段引入滑动窗口算法的思想，提出一种改进的序列分段线性化算法，将序列数据划分为若干由斜率与跨度表征的线段，再使用基于改进的K ‑means聚类将在线监测数据符号化，最后使用APRI ORI算法挖掘DGA中不同指标之间的关联性，并以此发掘其中存在的异常数值；第二阶段，根据筛除的异常数值采样点，使用改进的粒子群优化的支持向量回归算法，保障算法的求解速度与求解多样性，优化支持向量回归算法中的关键参数对这些采样点进行修复，以此完成变压器在线DGA监测数据的处理。权利要求书4页说明书10页附图5页 CN 114372093 A 2022.04.19 CN 114372093 A 1.一种变压器DGA在线监测数据的处理方法，其特征在于：包括如下步骤： S1、数据集的滑动窗口处理：引入滑动窗口的思想，使用长度为L的窗口截取在线数据集； S2、以一定的步长滑动窗口遍历在线数据集：设置滑动步长为l，拖动窗口在整体数据集上滑动，直至遍历所有数据；令在线数据集长度为L1，遍历之后得到个数据窗口，导出所有窗口中的数据，构成待分析数据集DSi， i∈n； S3、序列数据的分段线性化：提出序列数据的分段线性化算法，将在线数据中不定量的点组合在一起，形成多组数据点集；数据点的分组的标准在于其中所有点拟合出的线段与实际数据点之间的误差小于阈值，且使用的线段的斜率与线段跨度表征拟合出的线段； S4、构建描述不同线段相似度的模型：基于线段的斜率与跨度构建相似度模型，并使用基于最大最小距离改进的K ‑means聚类算法为线段划分类别，并为同类别线段赋予符号，完成序列数据的符号化； S5、挖掘不同序列之间的关联性：基于Apriori算法的思想，设置最小置信度与支持度，挖掘不同序列之间存在的频繁项集，量化不同序列之间的关联性； S6、提取筛除DGA在线监测数据中存在的异常值：根据序列之间的关联性强弱，对判定数据中存在的异常数值类型，分离出不同异常模式的数据； S7、改进粒子群优化支持向量回归：定义粒子解集之间的距离，基于该距离划分不同粒子类别，并定义粒子更新方式；使用算法优化支持向量回归的关键参数，完成DGA在线数据的处理。 2.根据权利要求1所述的一种变压器DGA在线监测数据的处理方法，其特征在于： S3中提出的序列数据的分段线性化算法的具体步骤是： 1)对于类似DGA的设备指标在线监测数据，等效为时间序列数据； 2)对时间序列 XK＝{x1,x2,…,xk}，以长度为L(L＜k)的窗口截取数据点，对截取窗口内的数据，基于滑动窗口的思想，对其中含有的数据点进行分段线性拟合； 3)以窗口内的首个数据点为初始线段的拟合起点，令该点为xi，假设初始线段的拟合终点为xi+m(m＞1)，将这m+1个数据点拟合为一条线段； 4)那么对于这样一条线段，用如下所示的式子表达： my‑(Xi+m‑1‑Xi)X‑(m‑1)Xi+Xi+m‑1＝0 (2) 以实际数据点至拟合线段的距离作为拟合误差；计算拟合线段步长内所有实际数据点至线段的距离，以其之和作为该线段的拟合整体误差 ER： 5)设置拟合误差阈值为ERr，如果ER＜ERr，则说明该线段仍然可以继续增加拟合点，令m权　利　要　求　书 1/4 页 2 CN 114372093 A 2＝m+1，并重复上述步骤；如果有ER＞ERr，则判定该线段无法拟合，保存当前线段的拟合终点为Xend＝Xi+m‑1，记录其数据采样时刻，之后回到步骤3)，重置参数m，并以当前拟合终点作为下一线段的拟合起点进行下一部分的数据拟合，直至该序列中所有的数据点都拟合完毕。 3.根据权利要求1所述的一种变压器DGA在线监测数据的处理方法，其特征在于： S4中构建相似度模型，并基于此模型进行聚类分析的主要步骤是： 1)对同一序列中存在的所有线段属性进行形如的标准化操作； 2)在聚类分析时，建立衡量线段相似度的标准；提取线段的斜率与跨度两个关键参数，使用欧式距离描述线段之间的相似度，在其中以权重的方式表示对线段不同属性的考虑程度；建立的线段相似度模型如下式所示： 3)基于上述的线段相似度模型，对线段集合使用基于最大最小距离改进的K ‑means算法进行聚类分析，将相似的线段划分为同一类别。 4.根据权利要求3所述的一种变压器DGA在线监测数据的处理方法，其特征在于： S4中基于最大最小距离改进的K ‑means算法，其主要步骤是： 1)最大最小距离同样以欧式距离为基础，其与K ‑means算法不同之处在于其取尽量远的对象作为聚类中心；对于样本集，给定一比例系数θ(0＜θ＜1)，任取样本集sn中的任一样本为初始聚类中心，记为z1； 2)任取剩下n ‑1个样本中距离 z1最远的样本为第二个聚类中心，记为z2； 3)计算剩下n ‑2个样本与z1与z2的距离，并求出其中最小值，即： Dij＝||xi‑zj||,j＝1,2 (6) Di＝min(Di1,Di2),i＝1,2,…,n (7) 4)若 Di＝max{Di}＞θ×||zi‑z2|| (8) 则选取对应样本si作为第三个聚类中心z3； 5)假设有K个聚类中心，以此计算剩下的n ‑K个样本至聚类中心的距离，并有： Dr＝max{mi n(Di1,Di2,…Dik)}＞θ×||z1‑z2|| (9) 则对应的样本xr为第K+1个聚类中心，记为zK+1；并不断循环这个过程，直至没有新的聚类中心出现； 6)当没有新的聚类中心出现时，将样本按最小距离原则分配至各类中。 5.根据权利要求1所述的一种变压器DGA在线监测数据的处理方法，其特征在于： S5中序列关联性挖掘的主要过程为： 1)最小支持度与最小置信度参数的设置；置信度与支持度阈值是判定序列关联与频繁项集的基础，记频繁 ‑1与频繁‑2项集的最小支持度度阈值为minsup1与minsup2，序列关联挖掘中的最小置信度阈值为mincon； 2)频繁项集的生成；使用经过归总之后的两符号化序列作为事务集，记为权　利　要　求　书 2/4 页 3 CN 114372093 A 3

专利 一种变压器DGA在线监测数据的处理方法

专利一种变压器DGA在线监测数据的处理方法