专利一种基于金融大数据的企业风险智能识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211036211.1 (22)申请日 2022.08.27 (71)申请人重庆电信系统集成有限公司地址 400042 重庆市渝中区大坪正街51号 (72)发明人杨若浩　刘惠强　徐明禹　付煜翀　颜小波　胡明俊　钟波　 (74)专利代理机构重庆志合专利事务所(普通合伙) 50210 专利代理师徐传智 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 10/04(2012.01) G06Q 40/02(2012.01) G06K 9/62(2022.01) (54)发明名称一种基于金融大数据的企业风险智能识别方法 (57)摘要一种基于金融大数据的企业风险智能识别方法，步骤如下： 1)判断是否需要训练聚类中心和决策树； 2)数据采集，获取企业的工商数据、法务数据、类别数据，生成高风险数据集、低风险数据集； 3)数据预处理，将两个数据集中的数据拆分为高风险工商数据、法务数据、类别数据矩阵，低风险工商数据、法务数据矩阵、低风险矩阵、类别数据矩阵； 4)数据聚类，构建K ‑Means模型，对高风险工商数据矩阵、高风险法务数据矩阵分别训练聚类中心； 5)提取非线性特征：得到高风险特征矩阵和低风险特征矩阵； 6)构建决策树，基于高风险特征矩阵和低风险特征矩阵构建决策树模型； 7)识别企业风险，加载决策树模型，得到安全风险分析结果。权利要求书3页说明书7页附图3页 CN 115293641 A 2022.11.04 CN 115293641 A 1.一种基于金融大数据的企业风险智能识别方法，其特征在于步骤如下： 1)判断是否需要训练聚类中心和决策树，若不需要，则直接采集企业数据进行企业风险识别，若需要，则进入下一步； 2)数据采集，从网站中获取企业的工商数据、法务数据、类别数据，并将已注销企业注销前1～2 年的数据存于高风险数据集dfAcc中，将 5年以上未注销企业的数据存于低风险数据集dfNorm中； 3)数据预处理，删除高风险数据集dfAcc和低风险数据集dfNorm中全为0或数据不完整的无效数据，并通过分别对两个数据集中的工商数据和法务数据进行极差标准化，将两个数据集中的数据拆分为高风险工商数据矩阵、高风险法务数据矩阵、高风险类别数据矩阵、低风险工商数据矩阵、低风险法务数据矩阵、低风险类别数据矩阵； 4)数据聚类，构建K ‑Means模型，采用高风险工商数据矩阵、高风险法务数据矩阵分别训练聚类中心，并按高风险工商数据矩阵、高风险法务数据矩阵、低风险工商数据矩阵、低风险法务数据矩阵在聚类结果中的相异度来确定聚类数； 5)提取非线性特征： 5‑1)根据步骤3)获取的两组高风险非类别数据集，分别从高风险工商数据矩阵、高风险法务数据矩阵中筛选出4个表现差异超过阈值或者差异最大的聚类中心； 5‑2)计算各组数据距离对应聚类中心的修正余弦相似度，得到高风险的工商数据距离矩阵、法务距离矩阵和低风险的工商数据距离矩阵、法务距离矩阵； ·5‑3)将高风险的工商数据距离矩阵、法务距离矩阵与高风险类别数据矩阵进行横向合并，得到高风险特征矩阵 chAcc和低风险特征矩阵chNorm； 6)构建决策树，基于高风险特征矩阵chAcc和低风险特征矩阵chNorm构建决策树模型； 7)识别企业风险，加载决策树模型，对获取的非线性特征进行分类，得到安全风险分析结果。 2.根据权利要求1所述的一种基于金融大数据的企业风险智能识别方法，其特征在于：所述工商数据包括注册资金、主营收入、负债总额、主营业务收入、净利润、纳税总额、所有者权益，法务数据包括对外担保、行政处罚、对外投资、原告立案、被告立案、被告开庭、裁判败诉，类别数据包括地区、行业、企业性质。 3.根据权利要求2所述的一种基于金融大数据的企业风险智能识别方法，其特征在于：步骤3)中，数据预处理的具体步骤如下， 3‑1)删除高风险数据集dfAcc和低风险数据集dfNorm中重复、不完整、全为0和注册资本为0的数据； 3‑2)将高风险数据集dfAcc横向拆分为高风险的不含注册资本的非类别数据矩阵 dataAcc和类别数据矩阵TypeAcc，并将低风险数据集dfNorm横向拆分为低风险的不含注册资本的非类别数据矩阵dataN orm和类别数据矩阵TypeN orm； 3‑3)将高风险的不含注册资本的非类别数据矩阵dataAcc和低风险的不含注册资本的非类别数据矩阵dat aNorm中的每个元素分别除以同一行的注册资本项，得到两组高风险、低风险数据矩阵； 3‑4)根据高风险的不含注册资本的非类别数据矩阵dataAcc中各项数据的极差d和最小值m，对步骤3 ‑3)得到的两组数据矩阵进行极差标准化，公式如下：权　利　要　求　书 1/3 页 2 CN 115293641 A 2式中， dataij表示高风险或低风险数据矩阵的极差标准化， mj表示j项数据项的最小值， dj表示j项数据项的极差； 3‑5)按数据项类别对步骤3‑4)经极差标准化的数据矩阵进行拆分，得到高风险工商数据矩阵dataCorpAcc、高风险法务数据矩阵dataLawA cc、高风险类别数据矩阵dataTypeA cc、低风险工商数据矩阵dataCorpNorm、低风险法务数据矩阵dataLawNorm、低风险类别数据矩阵dataTypeN orm。 4.根据权利要求1所述的一种基于金融大数据的企业风险智能识别方法，其特征在于：步骤4)，数据聚类的具体方法如下， 4‑1)设定要枚举的聚类中心数范围k1、 k2，枚举聚类中心数k，使其满足k1<k<k2，并在高风险工商数据矩阵和高风险法务数据矩阵中分别随机选取k个数据点作为初始聚类中心 nowCentrek*m＝(c1,c2,…,ck)T； 4‑2)基于修正余弦相似度作为距离度量方法，将距离非线性映射到(0,1)，分别获得高风险工商数据距离矩阵和高风险法务数据距离矩阵，其中，高风险工商数据距离矩阵的计算公式如下， distAccn*k＝(xij), 式中， distAcc表示高风险工商数据距离矩阵， xij表示distAcc第i行第j列的元素， datail表示distAcc第i行第l列的元素，表示dataCorpAcc第l列的平均值， centrejl 表示nowCentre第i行第j列的元素；高风险法务数据距离矩阵的计算公式原理同高风险工商数据距离矩阵； 4‑3)将各距离矩阵中的每个点划到距离最近的聚类中心所代表的类，用每一类的平均值更新聚类中心，并循环进行步骤3 ‑2)、 3‑3)； 4‑4)当聚类情况不在变化或循环次数达到上限，则将当前的聚类中心nowCentre保存为局部最优聚类中心cen； 4‑5)分别获取高风险企业数据集和低风险企业数据集按照局部最优聚类中心cen的分类情况： count＝(c1,c2,…,ck)， ci表示属于第i类的数据点个数，分别保存到高风险数据集中分别属于各类的数据点数目count1、低风险数据集中分别属于各类的数据点数目 count2； 4‑6)根据count1、 count 2计算皮尔逊相关系数n owRela，计算公式如下，若nowRela<rela(rela初始值为1)，则将局部最优聚类中心cen保存为最优聚类中心 centre，并将rela保存为当前的n owRale；权　利　要　求　书 2/3 页 3 CN 115293641 A 3

专利 一种基于金融大数据的企业风险智能识别方法

专利一种基于金融大数据的企业风险智能识别方法