专利网络请求数据分类模型训练方法、分类方法及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111670119.6 (22)申请日 2021.12.31 (71)申请人安徽航天信息有限公司地址 230088 安徽省合肥市中国（安徽）自由贸易试验区合肥市高新区创新大道 2809号置地创新中心34、 3 6-37层 (72)发明人陈昊天　张研　 (74)专利代理机构北京隆源天恒知识产权代理有限公司 1 1473 专利代理师闫冬 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/194(2020.01) H04L 9/40(2022.01) (54)发明名称网络请求数据分类模型训练方法、分类方法及存储介质 (57)摘要本发明提供了一种网络请求数据分类模型训练方法、分类方法及存储介质，训练方法包括步骤：获取多条网络请求数据，并提取各条网络请求数据中的特征数据；采用预设的特征数据匹配规则对网络请求数据中的特征数据进行匹配，获得每条网络请求数据中特征数据的数量匹配结果；采用各条合法请求数据的请求地址数据对预先构建的隐马尔可夫模型进行训练，获得第一计算模型；采用第一计算模型计算请求地址数据的文本序列生成概率；根据数量匹配结果和文本序列生成概率生成各条网络请求数据的特征向量，采用特征向量训练预先构建的第一逻辑回归模型，获得第二计算模型。本发明从多个维度对网络请求数据进行分析，有效提高了网络数据分类的准确性。权利要求书3页说明书13页附图2页 CN 114528908 A 2022.05.24 CN 114528908 A 1.一种网络请求数据分类模型训练方法，其特征在于，所述网络请求数据分类模型包括第一计算模型和第二计算模型，包括：获取多条网络请求数据，并提取各条所述网络请求数据中的特征数据，其中，所述网络请求数据包括合法请求数据，所述特征数据包括请求地址数据；采用预设的特征数据匹配规则对所述网络请求数据中的所述特征数据进行匹配，获得每条所述网络请求数据中所述特征数据的数量匹配结果；采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练，获得第一计算模型；采用所述第一计算模型计算各条所述网络请求数据中所述请求地址数据的文本序列生成概率；根据所述数量匹配结果和所述文本序列生成概率生成各条所述网络请求数据的特征向量，采用所述特征向量训练预先构建的第一逻辑回归模型，获得第二计算模型，所述第二计算模型用于确定所述网络请求数据的合法概率。 2.根据权利要求1所述的网络请求数据分类模型训练方法，其特征在于，所述网络请求数据分类模型还包括第三计算模型，所述采用所述特征向量训练预先构建的第一逻辑回归模型，获得第二计算模型之后，还包括：获取指定时段内的所有所述网络请求数据，并将所述指定时段内的所有所述网络请求数据按照用户进行分组，确定各个所述用户的所述网络请求数据；采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度，并采用所述第二计算模型计算各条所述网络请求数据的合法概率；根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先构建的第二逻辑回归模型，获得第三计算模型，所述第三计算模型用于确定所述用户属于高风险用户的概率。 3.根据权利要求1或2所述的网络请求数据分类模型训练方法，其特征在于，所述采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练，获得第一计算模型包括：对各条所述合法请求数据的所述请求地址数据进行切分，获得多个切分后的数据；对各个所述切分后的数据进行标记，获得标记后的数据，其中，将同一字符串的所述切分后的数据标记为同一数值，将不同符号的所述切分后的数据标记为不同数值；基于前向后向算法，采用所述标记后的数据训练所述隐马尔可夫模型，获得所述第一计算模型。 4.根据权利要求1或2所述的网络请求数据分类模型训练方法，其特征在于，所述采用所述特征向量训练预先构建的第一逻辑回归模型，获得第二计算模型包括：将所述特征向量输入所述第一逻辑回归模型，输出对应的所述网络请求数据的合法概率，其中，所述第一逻辑回归模型采用第一公式表示，所述第一公式包括：其中， X表示所述网络请求数据的合法概率， kj表示所述第一逻辑回归模型的参数， Wj表示所述特征向量中的第j个元素；将所述合法概率与第一预设阈值进行比对，根据比对结果确定所述网络请求数据的第一预测标签；权　利　要　求　书 1/3 页 2 CN 114528908 A 2根据所述第一预测标签和所述网络请求数据的第一实际标签优化所述第一逻辑回归模型的参数，直至所述第一逻辑回归模型的精度满足第一预设条件，获得所述第二计算模型。 5.根据权利要求2所述的网络请求数据分类模型训练方法，其特征在于，所述采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度包括：按照词义对各条所述网络请求数据中的所述请求地址数据进行切分，获得与各条所述网络请求数据对应的词序列；对各个所述词序列分别进行编码，获得与各条所述网络请求数据对应的编码向量；基于所述余弦相似度算法，根据所述编码向量采用第二公式计算各条所述网络请求数据对应的所述文本相似度，所述第二公式包括：其中， θi表示第i条所述网络请求数据对应的所述文本相似度， vi表示与第i条所述网络请求数据对应的所述编码向量， vj表示与第j条所述网络请求数据对应的所述编码向量。 6.根据权利要求2或5所述的网络请求数据分类模型训练方法，其特征在于，所述根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先构建的第二逻辑回归模型，获得第三计算模型包括：对于任一所述用户，根据所述用户在所述指定时段内所有所述网络请求数据对应的所述文本相似度计算相似度均值，并根据所述用户在所述指定时段内所有所述网络请求数据对应的所述合法概率计算概率均值；将所述相似度均值和所述概率均值输入所述第二逻辑回归模型，输出对应的所述用户为高风险用户的概率，所述第二逻辑回归模型采用第三公式表示，所述第三公式包括：其中， XP表示所述用户为高风险用户的概率， avg1表示所述相似度均值， avg2表示所述概率均值， T1和T2表示所述第二回归模型的参数；将所述用户为高风险用户的概率与第二预设阈值进行比对，根据比对结果确定所述第二逻辑回归模型的第二预测标签；根据所述第二预测标签和所述用户的第二实际标签优化所述第二逻辑回归模型的参数，直至所述第二逻辑回归模型的精度满足第二预设条件，获得所述第三计算模型。 7.一种网络请求数据分类方法，其特征在于，包括：获取待分类的目标网络请求数据，并提取所述目标网络请求数据中的目标特征数据，其中，所述目标特征数据包括目标请求地址数据；采用预设的特征数据匹配规则对所述目标网络请求数据中的所述目标特征数据进行匹配，获得所述目标特征数据的数量匹配结果；将所述目标请求地址数据输入第一计算模型，输出所述目标请求地址数据的文本序列生成概率；根据所述数量匹配结果和所述文本序列生成概率生成所述目标网络请求数据的目标特征向量，将所述目标特征向量输入第二计算模型，输出所述目标网络请求数据的合法概率；将所述合法概率和第一预设阈值进行对比，根据对比结果确定所述目标网络请求数据权　利　要　求　书 2/3 页 3 CN 114528908 A 3

专利 网络请求数据分类模型训练方法、分类方法及存储介质

专利网络请求数据分类模型训练方法、分类方法及存储介质