金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211257616.8 (22)申请日 2022.10.14 (71)申请人 上海浦东发展银行股份有限公司 地址 200000 上海市黄浦区中山 东一路12 号 (72)发明人 喻燕君 郭林海 万化 张琛  杨桂秀 杨洋  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 黄立伟 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/211(2020.01) G06F 40/30(2020.01)G06F 40/289(2020.01) G06F 40/237(2020.01) (54)发明名称 一种多标签文本分类方法、 装置、 电子设备 及存储介质 (57)摘要 本发明实施例公开一种多标签文本分类方 法、 装置、 电子设备及存储介质。 该方法包括: 响 应于多标签文本分类指令, 获取待分类文本以及 已训练完成的基于预训练语言模型进行微调得 到的多标签文本分类模型; 在 待分类文本的长度 超过预设长度阈值的情况下, 对待分类文本进行 句子划分, 并基于用于表示句子数量的滑窗大 小, 对句子划分后的待分类文本进行滑窗以切分 待分类文本, 得到至少两个待分类子文本; 针对 该至少两个待分类子文本中的每个待分类子文 本, 将待分类子文本输入到多标签文本分类模 型, 得到待分类子文本的至少一个类别; 将得到 的各待分类子文本的至少一个类别的并集, 作为 待分类文本的类别。 上述技术方案, 可 以实现长 文本的多标签分类 。 权利要求书4页 说明书15页 附图4页 CN 115481255 A 2022.12.16 CN 115481255 A 1.一种多标签文本分类方法, 其特 征在于, 包括: 响应于多标签文本分类指令, 获取待分类文本及已训练完成的多标签文本分类模型, 其中, 所述多标签文本分类模型基于预训练语言模型进行微调得到; 在所述待分类文本的长度超过预设长度阈值的情况下, 对所述待分类文本进行句子划 分, 并基于用于表示句 子数量的滑 窗大小, 对句 子划分后的所述待分类文本进行滑 窗以切 分所述待分类文本, 得到 至少两个待分类子文本; 针对所述至少两个待分类子文本 中的每个待分类子文本, 将所述待分类子文本输入到 所述多标签文本分类模型, 得到所述待分类子文本的至少一个 类别; 将得到的各个所述待分类子文本的至少一个类别的并集, 作为所述待分类文本的类 别。 2.根据权利要求1所述的方法, 其特 征在于, 还 包括: 获取已训练完成的标题首段分类器, 以及从所述待分类文本 中提取出主体信息, 其中, 所述主体信息包括文本标题和/或文本首 段; 将所述主体信息 输入到所述分类 器, 得到所述主体信息的至少一个 类别; 所述将得到的各个所述待分类子文本的至少一个类别的并集, 作为所述待分类文本的 类别, 包括: 将得到的各个所述待分类子文本的至少一个类别以及所述主体信息的至少一个类别 的并集, 作为所述待分类文本的类别。 3.根据权利要求1所述的方法, 其特 征在于, 在所述获取待分类文本之后, 还 包括: 获取预先构建得到的词典, 其中, 所述词典包括类别 ‑关键词词典、 关键词 ‑关键词权重 词典以及类别 ‑类别阈值词典; 基于所述类别 ‑关键词词典, 从所述待分类文本中提取出至少一个第 一关键词, 并分别 得到所述至少一个第一关键词中的每 个第一关键词所属的类别; 针对所述至少一个第一关键词中的每个第一关键词, 基于所述关键词 ‑关键词权重词 典, 确定所述第一关键词的关键词权 重; 针对得到的各个所述第 一关键词所属的类别中的每个类别, 根据 所述至少一个第 一关 键词中属于所述类别的各个第一关键词的关键词权重以及所述类别 ‑类别阈值词典, 确定 所述待分类文本是否可被划分到所述类别下; 所述将得到的各个所述待分类子文本的至少一个类别的并集, 作为所述待分类文本的 类别, 包括: 根据得到的各个所述待分类子文本的至少一个类别的并集, 以及, 确定出的划分结果, 确定所述待分类文本的类别。 4.根据权利要求3所述的方法, 其特征在于, 所述类别 ‑类别阈值词典通过如下步骤预 先构建得到: 获取预先构建得到的所述类别 ‑关键词词典和所述关键词 ‑关键词权 重词典; 针对所述类别 ‑关键词词典中的每个类别以及全部关键词, 根据 所述类别 ‑关键词词典 确定所述全部关键词中属于所述类别的至少一个第二关键词; 根据所述关键词 ‑关键词权重词典得到所述至少一个第 二关键词中的每个第 二关键词 的关键词权重, 并根据预设划分比例及得到的各个所述第二关键词的关键词权重之和确定权 利 要 求 书 1/4 页 2 CN 115481255 A 2所述类别的类别阈值; 根据得到的各个所述类别的类别阈值, 构建得到所述类别 ‑类别阈值词典。 5.根据权利要求3所述的方法, 其特征在于, 所述关键词 ‑关键词权重词典通过如下步 骤预先构建得到: 获取至少一个样本文本以及预先构建得到的所述类别 ‑关键词词典, 并针对所述至少 一个样本文本中的每个样本文本, 获取预先为所述样本文本标注出的用于表示所述样本文 本的类别的真实标签; 将所述类别 ‑关键词词典中的每个关键词分别作为第三关键词, 针对得到的每个第三 关键词, 根据所述类别 ‑关键词词典确定所述第三关键词所属的类别; 根据获取到的各个所述样本文本的真实标签, 从所述至少一个样本文本 中确定与 所述 第三关键词所属的类别对应的至少一个 类别文本; 根据所述第三关键词在所述至少一个类别文本中的第一出现概率, 以及, 在所述至少 一个样本文本中除所述至少一个类别文本之外的样本文本中的第二出现概率, 得到所述第 三关键词的关键词权 重; 根据得到的各个所述第三关键词的关键词权重, 构建得到所述关键词 ‑关键词权重词 典。 6.根据权利要求3所述的方法, 其特征在于, 所述类别 ‑关键词词典通过如下步骤预先 构建得到: 获取至少一个样本文本, 并针对所述至少一个样本文本中的每个样本文本, 对所述样 本文本进行分词, 得到至少一个第四关键词, 及获取预先为所述样本文本标注的用于表示 所述样本文本的类别的真实标签; 针对获取的各个所述样本文本的真实标签中的每个真实标签, 从所述至少一个样本文 本中确定具有所述真实标签的至少一个标签文本; 针对所述至少一个第四关键词中的每个第四关键词, 根据 所述第四关键词在所述至少 一个标签文本中的第三出现概率以及在所述至少一个样本文本中的第四出现概率, 得到所 述第四关键词属于所述真实标签所对应的类别的可能性; 根据所述第四关键词分别属于所述各个所述样本文本的真实标签中的每个真实标签 所对应的类别的可能性, 得到所述第四关键词所属的类别; 根据得到的各个所述第四关键词所属的类别, 构建出 所述类别 ‑关键词词典。 7.根据权利要求6所述的方法, 其特征在于, 所述针对所述至少一个样本文本中的每个 样本文本, 对所述样本文本进行分词之前, 还 包括: 针对所述至少一个样本文本中的每个样本文本, 基于左右信息熵算法, 从所述样本文 本中发现新词, 并将所述 新词添加到分词 词库中; 所述针对所述至少一个样本文本中的每个样本文本, 对所述样本文本进行分词, 得到 至少一个第四关键词, 包括: 针对所述至少一个样本文本中的每个样本文本, 基于所述分词词库对所述样本文本进 行分词, 得到 至少一个第四关键词。 8.根据权利要求1所述的方法, 其特征在于, 所述多标签文本分类模型通过如下步骤预 先训练得到:权 利 要 求 书 2/4 页 3 CN 115481255 A 3

PDF文档 专利 一种多标签文本分类方法、装置、电子设备及存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多标签文本分类方法、装置、电子设备及存储介质 第 1 页 专利 一种多标签文本分类方法、装置、电子设备及存储介质 第 2 页 专利 一种多标签文本分类方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。