金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111670119.6 (22)申请日 2021.12.31 (71)申请人 安徽航天信息有限公司 地址 230088 安徽省合肥市中国 (安徽) 自 由贸易试验区合肥市高新区创新大道 2809号置地创新中心34、 3 6-37层 (72)发明人 陈昊天 张研  (74)专利代理 机构 北京隆源天恒知识产权代理 有限公司 1 1473 专利代理师 闫冬 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/194(2020.01) H04L 9/40(2022.01) (54)发明名称 网络请求数据分类模 型训练方法、 分类方法 及存储介质 (57)摘要 本发明提供了一种网络请求数据分类模型 训练方法、 分类方法及存储介质, 训练方法包括 步骤: 获取多条网络请求数据, 并提取各条网络 请求数据中的特征数据; 采用预设的特征数据匹 配规则对网络请求数据中的特征数据进行匹配, 获得每条网络请求数据中特征数据的数量匹配 结果; 采用各条合法请求数据的请求地址数据对 预先构建的隐马尔可夫模型进行训练, 获得第一 计算模型; 采用第一计算模型计算请求地址数据 的文本序列生成概率; 根据数量匹配结果和文本 序列生成概率生成各条网络请求数据的特征向 量, 采用特征向量训练预先构建的第一逻辑回归 模型, 获得第二计算模型。 本发明从多个维度对 网络请求数据进行分析, 有效提高了网络数据分 类的准确性。 权利要求书3页 说明书13页 附图2页 CN 114528908 A 2022.05.24 CN 114528908 A 1.一种网络请求数据分类模型训练方法, 其特征在于, 所述网络请求数据分类模型包 括第一计算模型和第二计算模型, 包括: 获取多条网络请求数据, 并提取各条所述网络请求数据中的特征数据, 其中, 所述网络 请求数据包括 合法请求数据, 所述特 征数据包括请求 地址数据; 采用预设的特征数据匹配规则对所述网络请求数据中的所述特征数据进行匹配, 获得 每条所述网络请求数据中所述特征数据的数量匹配结果; 采用各条所述合法请求数据的所 述请求地址数据对预先构建的隐马尔可夫模型进行训练, 获得第一计算模型; 采用所述第 一计算模型计算各 条所述网络请求数据中所述请求 地址数据的文本序列生成概 率; 根据所述数量匹配结果和所述文本序列生成概率生成各条所述网络请求数据的特征 向量, 采用所述特征向量训练预先构建的第一逻辑回归模型, 获得第二计算模型, 所述第二 计算模型用于确定所述网络请求数据的合法概 率。 2.根据权利要求1所述的网络请求数据分类模型训练方法, 其特征在于, 所述网络请求 数据分类模型还包括第三计算模型, 所述采用所述特征向量训练预先构建的第一逻辑回归 模型, 获得第二计算模型之后, 还 包括: 获取指定时段内的所有所述网络请求数据, 并将所述指定时段内的所有所述网络请求 数据按照用户进行分组, 确定各个所述用户的所述网络请求数据; 采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度, 并采用所述第二计算模型计算各 条所述网络请求数据的合法概 率; 根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率 训练预先构建的第二逻辑回归模型, 获得第三计算模型, 所述第三计算模型用于确定所述 用户属于高风险用户的概 率。 3.根据权利要求1或2所述的网络请求数据分类模型训练方法, 其特征在于, 所述采用 各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进 行训练, 获得 第一计算模型包括: 对各条所述合法请求数据的所述请求 地址数据进行切分, 获得多个切分后的数据; 对各个所述切分后的数据进行标记, 获得标记后的数据, 其中, 将同一字符串的所述切 分后的数据标记为同一数值, 将不同符号的所述切分后的数据标记为 不同数值; 基于前向后向算法, 采用所述标记后的数据训练所述 隐马尔可夫模型, 获得所述第一 计算模型。 4.根据权利要求1或2所述的网络请求数据分类模型训练方法, 其特征在于, 所述采用 所述特征向量训练预 先构建的第一逻辑回归 模型, 获得第二计算模型包括: 将所述特征向量输入所述第 一逻辑回归模型, 输出对应的所述网络请求数据的合法概 率, 其中, 所述第一逻辑回归 模型采用第一公式表示, 所述第一公式包括: 其中, X表示所述网络请求数据的合法概率, kj表示所述第一逻辑回归模型的参数, Wj表 示所述特 征向量中的第j个元 素; 将所述合法概率与第 一预设阈值进行比对, 根据比对结果确定所述网络请求数据的第 一预测标签;权 利 要 求 书 1/3 页 2 CN 114528908 A 2根据所述第一预测标签和所述网络请求数据的第一实际标签优化所述第一逻辑回归 模型的参数, 直至所述第一逻辑回归模型 的精度满足第一预设条件, 获得所述第二计算模 型。 5.根据权利要求2所述的网络请求数据分类模型训练方法, 其特征在于, 所述采用余弦 相似度算法计算各 条所述网络请求数据中所述请求 地址数据的文本相似度包括: 按照词义对各条所述网络请求数据中的所述请求地址数据进行切分, 获得与 各条所述 网络请求数据对应的词序列; 对各个所述词序列分别进行编码, 获得与各 条所述网络请求数据对应的编码向量; 基于所述余弦相似度算法, 根据所述编码向量采用第 二公式计算各条所述网络请求数 据对应的所述文本相似度, 所述第二公式包括: 其中, θi表示第i条所述网络请求数据 对应的所述文本相似度, vi表示与第i条所述网络 请求数据对应的所述编码向量, vj表示与第j条 所述网络请求数据对应的所述编码向量。 6.根据权利要求2或5所述的网络请求数据分类模型训练方法, 其特征在于, 所述根据 各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先 构建的第二逻辑回归 模型, 获得第三计算模型包括: 对于任一所述用户, 根据所述用户在所述指定时段内所有所述网络请求数据对应的所 述文本相似度计算相似度均值, 并根据所述用户在所述指 定时段内所有 所述网络请求数据 对应的所述 合法概率计算概率均值; 将所述相似度均值和所述概率均值输入所述第 二逻辑回归模型, 输出对应的所述用户 为高风险用户的概 率, 所述第二逻辑回归 模型采用第三公式表示, 所述第三公式包括: 其中, XP表示所述用户为高风险用户的概率, avg1表示所述相似度均值, avg2表示所述 概率均值, T1和T2表示所述第二回归 模型的参数; 将所述用户为高风险用户的概率与第 二预设阈值进行比对, 根据比对结果确定所述第 二逻辑回归 模型的第二预测标签; 根据所述第二预测标签和所述用户的第二实际标签优化所述第二逻辑回归模型的参 数, 直至所述第二逻辑回归 模型的精度满足第二预设条件, 获得 所述第三计算模型。 7.一种网络请求数据分类方法, 其特 征在于, 包括: 获取待分类的目标网络请求数据, 并提取所述目标网络请求数据中的目标特征数据, 其中, 所述目标 特征数据包括目标请求 地址数据; 采用预设的特征数据匹配规则对所述目标网络请求数据中的所述目标特征数据进行 匹配, 获得所述目标特征数据的数量匹配结果; 将所述 目标请求地址数据输入第一计算模 型, 输出所述目标请求 地址数据的文本序列生成概 率; 根据所述数量匹配结果和所述文本序列生成概率生成所述目标网络请求数据的目标 特征向量, 将所述 目标特征向量输入第二计算模型, 输出所述 目标网络请求数据的合法概 率; 将所述合法概率和第 一预设阈值进行对比, 根据对比结果确定所述目标网络请求数据权 利 要 求 书 2/3 页 3 CN 114528908 A 3

.PDF文档 专利 网络请求数据分类模型训练方法、分类方法及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网络请求数据分类模型训练方法、分类方法及存储介质 第 1 页 专利 网络请求数据分类模型训练方法、分类方法及存储介质 第 2 页 专利 网络请求数据分类模型训练方法、分类方法及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:05:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。