金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211022760.3 (22)申请日 2022.08.24 (71)申请人 深圳微众信用科技股份有限公司 地址 518000 广东省深圳市南 山区粤海街 道深圳国际软件园一期 8栋202室 (72)发明人 卢智东 赵彦晖 耿心伟 曾源  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 邱群 (51)Int.Cl. G06Q 40/02(2012.01) G06F 17/18(2006.01) (54)发明名称 一种证据权 重风险编码方法及装置 (57)摘要 本申请实施例公开了一种证据权重风险编 码方法及装置。 包括: 获取待编码的原始特征数 据; 对原始特征数据进行数据处理, 得到N组第一 特征数据; 基于N组第一特征数据, 训练得到一次 多项式回归模型和二次多项式回归模型; N组第 一特征数据分别和一次多项式回归模 型、 二次多 项式回归模型确定N组第一W OE编码值和N组第二 WOE编码值; N组第一特征数据分别和N组第一W OE 编码值、 N组第二WOE编码值确定第一拟合优度值 和第二拟合优度值, 对N组第一WOE编码值和N组 第二WOE编码值进行加权处理得到N组第三W OE编 码值, 用于分析风险趋势。 采用本申请实施例, 能 够解决样 本量不足导致的偏差问题, 提高风险趋 势的可信度。 权利要求书4页 说明书14页 附图3页 CN 115393043 A 2022.11.25 CN 115393043 A 1.一种证据权 重风险编码方法, 其特 征在于, 包括: 获取待编码的原 始特征数据, 所述原 始特征数据是用户税务相关数据; 对所述原始特征数据进行数据处理, 得到N组第一特征数据, 所述N组第一特征数据中 的每组第一特 征数据包括分箱序号、 原 始WOE编码值和样本占比, 所述 N为大于0的整数; 基于所述 N组第一特 征数据, 训练得到一次多 项式回归 模型和二次多 项式回归 模型; 根据所述每组第一特征数据中的分箱序号和所述一次多项式回归模型确定所述每组 第一特征数据对应的第一WOE编码值, 得到所述N组第一特征数据对应的第一WOE编码值, 根 据所述每组第一特征数据中的分箱序号和所述二次多项式回归模型确定所述每组第一特 征数据对应的第二 WOE编码值, 得到所述 N组第一特 征数据对应的第二 WOE编码值; 根据所述N组第一特征数据对应的第一WOE编码值和所述N组第一特征数据中的原始 WOE编码值计算得到第一拟合优度值, 根据所述N组第一特征数据对应的第二WOE编码值和 所述N组第一特 征数据中的原 始WOE编码值计算得到第二拟合优度值; 根据所述第 一拟合优度值和所述第 二拟合优度值, 对所述每组第 一特征数据对应的第 一WOE编码值和所述第二WOE编码值进行加权处理得到第三WOE编码值, 所述第三WOE编码值 用于分析风险趋势。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述每组第 一特征数据对应的第 一 WOE编码值和所述第二 WOE编码值进行加权处 理得到第三 WOE编码值, 包括: 将所述第一拟合优度值乘以所述每组第一特征数据对应的第一WOE编码值, 得到所述 每组第一特征数据对应的第一乘积, 将所述第二拟合优度值乘以所述每组第一特征数据对 应的第二 WOE编码值, 得到所述每组第一特 征数据对应的第二乘积; 确定所述第一拟合优度值和所述第二拟合优度值之和; 根据所述每组第一特征数据对应的第一乘积、 所述每组第一特征数据对应的第二乘 积、 以及所述第一拟合优度值和所述第二拟合优度值之和, 确定所述每组第一特征数据对 应的第三 WOE编码值。 3.根据权利要求2所述的方法, 其特 征在于, 其中, 所述Y1,i表示所述N组第一特征数据中第i组第一特征数据对应的第一WOE编码 值, 所述Y2,i表示所述N组第一特征数据中第i组第一特征数据对应的第二WOE编码值, 所述 Y3,i表示所述N组第一特征数据中第i组第一 特征数据对 应的第三WOE编码值, 所述R12表示所 述第一拟合优度值, 所述R22表示所述第二拟合优度值, 所述 i表示大于 0小于等于N的整数。 4.根据权利要求1至3任一项所述的方法, 其特征在于, 所述根据 所述N组第 一特征数据 对应的第一WOE编 码值和所述N组第一特征数据中的原始 WOE编码值计算得到第一拟合优度 值, 根据所述N组第一特征数据对应的第二WOE编码值和所述N组第一特征数据中的原始 WOE 编码值计算得到第二拟合优度值, 包括: 根据所述 N组第一特 征数据对应的原 始WOE编码值, 确定所述原 始WOE编码值的平均值; 根据所述平均值, 所述N组第一特征数据对应的第一WOE编码值和所述N组第一特征数 据中的原始WOE编码值, 确定所述第一拟合优度值; 以及根据所述平均值, 所述N组第一特征 数据对应的第二WOE编码值和所述N组第一特征数据中的原始WOE编码值, 确 定所述第二拟权 利 要 求 书 1/4 页 2 CN 115393043 A 2合优度值。 5.根据权利要求 4所述的方法, 其特 征在于, 所述第一拟合优度值R12满足: 所述第二拟合优度值R22满足: 其中, 所述R12表示所述第一拟合优度值, 所述R22表示所述第二拟合优度值, 所述Y0,i表 示所述N组第一特征数据中第i组第一特征数据对应的原始WOE编码值, 所述 表示所述原 始WOE编码值的平均值, 所述Y1,i表示所述N组第一特征数据中第i组第一特征数据对应的第 一WOE编码值, 所述Y2,i表示所述N组第一特征数据中第i组第一特征数据对应的第二WOE编 码值, 所述 i表示大于 0小于等于N的整数。 6.根据权利要求1所述的方法, 其特征在于, 所述对所述原始特征数据进行数据处理, 得到N组第一特 征数据, 包括: 对所述原始特征数据进行分箱处理, 得到M组第 二特征数据, 所述第 二特征数据包括分 箱序号和分箱区间, 所述M为大于等于N的整数; 对所述M组第二特征数据中的每组分箱序号和分箱区间进行WOE风险编码处理, 确定所 述每组第二特征数据对应的原始WOE编码值和样本占比, 得到M组第一特征数据, 所述每组 第一特征数据还包括所述分箱区间; 从所述M组第一特 征数据选取 所述N组第一特 征数据。 7.根据权利要求6所述的方法, 其特征在于, 所述从所述M组第一特征数据选取所述N组 第一特征数据, 包括: 确定所述M组第 一特征数据中的每组第 一特征数据中的分箱区间是否包含目标特征数 据; 若所述M组第 一特征数据中的第K组第一特征数据中的分箱区间包含目标特征数据, 则 将所述第K组第一特征数据作为所述N组第一特征数据中的一组第一特征数据, 所述K为大 于0小于等于 M的整数。 8.一种证据权 重风险编码装置, 其特 征在于, 包括: 获取模块, 用于获取待编码的原 始特征数据, 所述原 始特征数据是用户税务相关数据; 处理模块, 用于对所述原始特征数据进行数据处理, 得到N组第 一特征数据, 所述N组第 一特征数据中的每组第一特征数据包括分箱序号、 原始WOE编码值和样本占比, 所述N为大 于0的整数; 所述处理模块, 还用于基于所述N组第一特征数据, 训练得到一 次多项式回归模型和二 次多项式回归 模型; 根据所述每组第一特征数据中的分箱序号和所述一次多项式回归模型确定所述每组 第一特征数据对应的第一WOE编码值, 得到所述N组第一特征数据对应的第一WOE编码值, 根 据所述每组第一特征数据中的分箱序号和所述二次多项式回归模型确定所述每组第一特 征数据对应的第二 WOE编码值, 得到所述 N组第一特 征数据对应的第二 WOE编码值; 根据所述N组第一特征数据对应的第一WOE编码值和所述N组第一特征数据中的原始权 利 要 求 书 2/4 页 3 CN 115393043 A 3

PDF文档 专利 一种证据权重风险编码方法及装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种证据权重风险编码方法及装置 第 1 页 专利 一种证据权重风险编码方法及装置 第 2 页 专利 一种证据权重风险编码方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:15:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。