金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211055137.8 (22)申请日 2022.08.30 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 屈蒙蒙  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 张影 (51)Int.Cl. G06F 16/28(2019.01) G06F 16/2457(2019.01) G06F 16/242(2019.01) G06K 9/62(2022.01) G06Q 40/02(2012.01) (54)发明名称 一种主题划分方法及系统 (57)摘要 本申请提供了一种主题划分方法及系统, 该 方法包括: 获取待划分数据表的数据, 从待划分 数据表的数据中确定出第一待使用关键词; 基于 各个数据仓库主题模型各自对应的关键词, 对第 一待使用关键词进行筛选, 得到第二待使用关键 词; 将第二待使用关键词输入到预先训练的LDA 主题模型, 得到LDA主题模型确定的待划分数据 表的主题分布; 将主题分布中选取出最大概率值 对应的主题确定为待划分数据表的主题。 权利要求书2页 说明书7页 附图2页 CN 115391467 A 2022.11.25 CN 115391467 A 1.一种主题划分方法, 其特 征在于, 包括: 获取待划分数据表的数据, 从所述待划分数据表的数据中确定出第一待 使用关键词; 基于各个数据仓库主题模型各自对应的关键词, 对所述第一待使用关键词进行筛选, 得到第二待使用关键词, 所述数据仓库主题模型对应的关键词 与所述数据仓库主题模型的 主题相关; 将第二待使用关键词输入到预先训练的LDA主题模型, 得到LDA主题模型确定的所述待 划分数据表的主题分布, 所述LDA主题模型基于分类器和第一训练数据表中的关键词训练 得到, 所述分类器基于第二训练数据 表中的关键词和对所述第二训练数据 表标注的主题训 练得到, 对所述第二训练数据表标注的主题来自所述数据仓库主题模型的主题; 将所述主题分布中选取 出最大概 率值对应的主题确定为所述待划分数据表的主题。 2.根据权利要求1所述的方法, 其特 征在于, 所述 LDA主题模型通过以下 方式训练得到: 获取多个第 一训练数据表的数据, 从所述第 一训练数据表的数据中确定出第 一训练关 键词; 基于各个所述数据仓库主题模型各自对应的特征, 对所述第一训练关键词进行筛选, 得到第二训练关键词; 将所述第二训练关键词分别输入LDA主题模型和分类器, 得到LDA主题模型确定的所述 第一训练数据 表的主题分布和所述分类器确定的分类结果, 所述分类器基于第二训练数据 表中的关键词和对所述第二训练数据 表标注的主题训练得到, 对所述第二训练数据表标注 的主题来自所述数据仓库主题模型的主题; 确定所述LDA主题模型的损失函数值是否收敛, 所述损失函数值表征所述第一训练数 据表的主题分布与所述分类结果之间的差异; 若是, 结束训练; 若否, 调整所述LDA主题模型的参数, 返回执行所述获取多个训练数据表的数据的步 骤。 3.根据权利要求2所述的方法, 其特 征在于, 将所述第二训练关键词输入分类 器, 包括: 从所述第二训练关键词中删除需停用关键词, 得到第三训练关键词, 所述需停用关键 词为所述数据仓库主题模型对应的关键词中与当前主题划分标准无关的关键词; 将所述第三训练关键词输入分类 器。 4.根据权利要求1所述的方法, 其特征在于, 从所述待划分数据表的数据中确定出第 一 待使用关键词, 包括: 基于TF‑IDF算法, 从所述待划分数据表的数据中确定出第一待 使用关键词。 5.根据权利要求2所述的方法, 其特 征在于, 所述分类 器包括: 朴素贝叶斯分类 器。 6.一种主题划分系统, 其特 征在于, 包括: 第一确定模块, 用于获取待划分数据表的数据, 从所述待划分数据表的数据中确定出 第一待使用关键词; 筛选模块, 用于基于各个数据仓库主题模型各自对应的关键词, 对所述第一待使用关 键词进行筛选, 得到第二待使用关键词, 所述数据仓库主题模型对应的关键词与所述数据 仓库主题模型的主题相关; 第二确定模块, 用于将第二待使用关键词输入到预先训练的LDA主题模型, 得到LDA主权 利 要 求 书 1/2 页 2 CN 115391467 A 2题模型确定的所述待划分数据表的主题分布, 所述LDA主题模型基于分类器和第一训练数 据表中的关键词训练得到, 所述分类器基于第二训练数据 表中的关键词和对所述第二训练 数据表标注的主题训练得到, 对所述第二训练数据表标注的主题来自所述数据仓库主题模 型的主题; 第三确定模块, 用于将所述主题分布中选取出最大概率值对应的主题确定为所述待划 分数据表的主题。 7.根据权利要求6所述的系统, 其特 征在于, 所述系统还 包括: 训练模块, 用于: 获取多个第 一训练数据表的数据, 从所述第 一训练数据表的数据中确定出第 一训练关 键词; 基于各个所述数据仓库主题模型各自对应的特征, 对所述第一训练关键词进行筛选, 得到第二训练关键词; 将所述第二训练关键词分别输入LDA主题模型和分类器, 得到LDA主题模型确定的所述 第一训练数据 表的主题分布和所述分类器确定的分类结果, 所述分类器基于第二训练数据 表中的关键词和对所述第二训练数据 表标注的主题训练得到, 对所述第二训练数据表标注 的主题来自所述数据仓库主题模型的主题; 确定所述LDA主题模型的损失函数值是否收敛, 所述损失函数值表征所述第一训练数 据表的主题分布与所述分类结果之间的差异; 若是, 结束训练; 若否, 调整所述LDA主题模型的参数, 返回执行所述获取多个训练数据表的数据的步 骤。 8.根据权利要求7所述的系统, 其特征在于, 所述训练模块将所述第 二训练关键词输入 分类器的过程, 具体包括: 从所述第二训练关键词中删除需停用关键词, 得到第三训练关键词, 所述需停用关键 词为所述数据仓库主题模型对应的关键词中与当前主题划分标准无关的关键词; 将所述第三训练关键词输入分类 器。 9.根据权利要求6所述的系统, 其特征在于, 所述第 一确定模块从所述待划分数据表的 数据中确定出第一待 使用关键词的过程, 具体包括: 基于TF‑IDF算法, 从所述待划分数据表的数据中确定出第一待 使用关键词。 10.根据权利要求7 所述的系统, 其特 征在于, 所述分类 器包括: 朴素贝叶斯分类 器。权 利 要 求 书 2/2 页 3 CN 115391467 A 3

PDF文档 专利 一种主题划分方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种主题划分方法及系统 第 1 页 专利 一种主题划分方法及系统 第 2 页 专利 一种主题划分方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:15:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。