(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211036211.1
(22)申请日 2022.08.27
(71)申请人 重庆电信系统集成有限公司
地址 400042 重庆市渝中区大坪 正街51号
(72)发明人 杨若浩 刘惠强 徐明禹 付煜翀
颜小波 胡明俊 钟波
(74)专利代理 机构 重庆志合专利事务所(普通
合伙) 50210
专利代理师 徐传智
(51)Int.Cl.
G06Q 10/06(2012.01)
G06Q 10/04(2012.01)
G06Q 40/02(2012.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于金融大数据的企业风险智能识别
方法
(57)摘要
一种基于金融大数据的企业风险智能识别
方法, 步骤如下: 1)判断是否需要训练聚类中心
和决策树; 2)数据采集, 获取企业的工商数据、 法
务数据、 类别数据, 生成高风险数据集、 低风险数
据集; 3)数据预处理, 将两个数据集中的数据拆
分为高风险工商数据、 法务数据、 类别数据矩阵,
低风险工商数据、 法务数据矩阵、 低风险矩阵、 类
别数据矩阵; 4)数据聚类, 构建K ‑Means模型, 对
高风险工商数据矩阵、 高风险法务数据矩阵分别
训练聚类中心; 5)提取非线性特征: 得到高风险
特征矩阵和低风险特征矩阵; 6)构建决策树, 基
于高风险特征矩 阵和低风险特征矩 阵构建决策
树模型; 7)识别企业风险, 加载决策树模型, 得到
安全风险分析 结果。
权利要求书3页 说明书7页 附图3页
CN 115293641 A
2022.11.04
CN 115293641 A
1.一种基于金融大 数据的企业 风险智能识别方法, 其特 征在于步骤如下:
1)判断是否需要训练聚类中心和决策树, 若不需要, 则直接采集企业数据进行企业风
险识别, 若需要, 则进入下一 步;
2)数据采集, 从网站中获取企业的工商数据、 法务数据、 类别数据, 并将已注销企业注
销前1~2 年的数据存于高风险数据集dfAcc中, 将 5年以上未注销企业的数据存于低风险数
据集dfNorm中;
3)数据预处理, 删除高风险数据集dfAcc和低风险数据 集dfNorm中全为0或数据 不完整
的无效数据, 并通过分别对两个数据集中的工商数据和法务数据进行极差标准化, 将两个
数据集中的数据拆分为高风险工商 数据矩阵、 高风险法务数据 矩阵、 高风险类别数据 矩阵、
低风险工商数据矩阵、 低风险法务数据矩阵、 低风险类别数据矩阵;
4)数据聚类, 构建K ‑Means模型, 采用高风险工商数据矩阵、 高风险法务数据矩阵分别
训练聚类中心, 并按高风险工商数据矩阵、 高风险法务数据矩阵、 低风险工商数据矩阵、 低
风险法务数据矩阵在聚类结果中的相异度来确定聚类数;
5)提取非线性特 征:
5‑1)根据步骤3)获取的两组高风 险非类别数据集, 分别从高风 险工商数据矩阵、 高风
险法务数据矩阵中筛 选出4个表现差异超过阈值或者差异最大的聚类中心;
5‑2)计算各组数据距离对应聚类 中心的修正余弦相似度, 得到高风险的工商数据距离
矩阵、 法务距离矩阵和低风险的工商数据距离矩阵、 法务距离矩阵; ·5‑3)将高风险的工商
数据距离矩阵、 法务距离矩阵与高风险类别数据矩阵进行横向合并, 得到高风险特征矩阵
chAcc和低风险特 征矩阵chNorm;
6)构建决策树, 基于高风险特 征矩阵chAcc和低风险特 征矩阵chNorm构建决策树模型;
7)识别企业风险, 加载决策树模型, 对获取的非线性特征进行分类, 得到安全风险分析
结果。
2.根据权利要求1所述的一种基于金融大数据的企业风险智能识别方法, 其特征在于:
所述工商数据包括注册资金、 主营收入、 负债总额、 主营业务收入、 净利润、 纳税总额、 所有
者权益, 法务数据包括对外担 保、 行政处罚、 对外投资、 原告立案、 被告立案、 被告开庭、 裁判
败诉, 类别数据包括 地区、 行业、 企业 性质。
3.根据权利要求2所述的一种基于金融大数据的企业风险智能识别方法, 其特征在于:
步骤3)中, 数据预处 理的具体步骤如下,
3‑1)删除高风险数据集dfAcc和低风险数据集dfNorm中重复、 不完整、 全为0和注册资
本为0的数据;
3‑2)将高风险数据集dfAcc横向拆分为高风险的不含注册资本的非类别数据矩阵
dataAcc和类别数据矩阵TypeAcc, 并将低风险数据集dfNorm横向拆 分为低风险的不含注册
资本的非类别数据矩阵dataN orm和类别数据矩阵TypeN orm;
3‑3)将高风险的不含注册资本的非类别数据矩阵dataAcc和低风险的不含注册资本的
非类别数据矩阵dat aNorm中的每个元素分别除以同一行的注册资本项, 得到两组高风险、
低风险数据矩阵;
3‑4)根据高风险的不含注册资本的非类别数据矩阵dataAcc中各项数据的极差d和最
小值m, 对步骤3 ‑3)得到的两组数据矩阵进行极差标准 化, 公式如下:权 利 要 求 书 1/3 页
2
CN 115293641 A
2式中, dataij表示高风险或低风险数据矩阵的极差标准化, mj表示j项数据项的最小值,
dj表示j项数据项的极差;
3‑5)按数据项类别 对步骤3‑4)经极差标准化的数据矩阵进行拆分, 得到高风险工商数
据矩阵dataCorpAcc、 高风险法务数据矩阵dataLawA cc、 高风险类别数据矩阵dataTypeA cc、
低风险工商数据矩阵dataCorpNorm、 低风险法务数据矩阵dataLawNorm、 低风险类别数据矩
阵dataTypeN orm。
4.根据权利要求1所述的一种基于金融大数据的企业风险智能识别方法, 其特征在于:
步骤4), 数据聚类的具体方法如下,
4‑1)设定要枚举的聚类中心数范围k1、 k2, 枚举聚类中心数k, 使其满足k1<k<k2, 并在
高风险工商数据 矩阵和高风险法务数据矩阵中分别随机选取k个数据点作为初始聚类中心
nowCentrek*m=(c1,c2,…,ck)T;
4‑2)基于修正余弦相似度作 为距离度 量方法, 将距离非线性映射到(0,1), 分别获得高
风险工商数据距离矩阵和高风险法务数据距离矩阵, 其中, 高风险工商数据距离矩阵的计
算公式如下,
distAccn*k=(xij),
式中, distAcc表示高风险工商数据距离矩阵, xij表示distAcc第i行第j列的元素,
datail表示distAcc第i行第l列的元素,
表示dataCorpAcc第l列的平均值, centrejl
表示nowCentre第i行第j列的元 素;
高风险法务数据距离矩阵的计算公式原理同高风险工商数据距离矩阵;
4‑3)将各距离矩阵中的每个点划到距离最近的聚类 中心所代表的类, 用每一类的平均
值更新聚类中心, 并循环进行步骤3 ‑2)、 3‑3);
4‑4)当聚类情况不在变化或循环次数达到上限, 则将当前的聚类中心nowCentre保存
为局部最优聚类中心cen;
4‑5)分别获取高风险企业数据集和低风险企业数据集按照局部最优聚类中心cen的分
类情况: count=(c1,c2,…,ck), ci表示属于第i类的数据点个数, 分别保存到高风险数据集
中分别属于各类的数据点数目count1、 低风险数据集中分别属于各类的数据点数目
count2;
4‑6)根据count1、 count 2计算皮尔逊相关系数n owRela, 计算公式如下,
若nowRela<rela(rela初始值为1), 则将局部最优聚类中心cen保存为最优聚类中心
centre, 并将rela保存为当前的n owRale;权 利 要 求 书 2/3 页
3
CN 115293641 A
3
专利 一种基于金融大数据的企业风险智能识别方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:15:43上传分享