金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211031170.7 (22)申请日 2022.08.26 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 刘永芳 侯岩 李仙峰  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 王涛 任默闻 (51)Int.Cl. G06F 40/242(2020.01) G06F 40/216(2020.01) G06Q 40/02(2012.01) (54)发明名称 一种领域 新词识别方法和装置 (57)摘要 本发明实施例提供了一种领域新词识别方 法和装置, 可用于人工智 能技术领域, 所述方法 包括: 获取领域内的原始 语料库; 通过语言模型, 对原始语料库进行候选词筛选, 得到候选词表, 候选词表包括多个候选新词; 按照单字点互信 息, 对候选新词进行筛选, 得到领域新词集, 能够 降低识别新词的局限性, 综合评估词内部凝聚 度, 提高新词的识别准确率和召回率。 权利要求书2页 说明书12页 附图4页 CN 115374772 A 2022.11.22 CN 115374772 A 1.一种领域 新词识别方法, 其特 征在于, 所述方法包括: 获取领域内的原 始语料库; 通过语言模型, 对所述原始语料库进行候选词筛选, 得到候选词表, 所述候选词表包括 多个候选新词; 按照单字点互信息, 对所述 候选新词进行筛 选, 得到领域 新词集。 2.根据权利要求1所述的领域新词识别方法, 其特征在于, 在所述通过语言模型, 对所 述原始语料库进行候选词筛选, 得到候选词表, 所述候选词表包括多个候选新词之前, 还包 括: 对所述原 始语料库进行清洗预处 理, 得到清洗后的原 始语料库; 对所述清洗后的原 始语料库进行粗切分, 得到粗切分后的原 始语料库。 3.根据权利要求1所述的领域新词识别方法, 其特征在于, 所述语言模型包括滑动窗 口, 所述原 始语料库包括多个原 始语句; 所述通过语言模型, 对所述原始语料库进行候选词筛选, 得到候选词表, 所述候选词表 包括多个候选新词, 包括: 按照所述滑动窗口 的尺寸对所述原 始语句进行滑动切分, 得到多个 语句片段; 通过设置的背景词典, 从多个语句片段中过滤掉所述背景词典中存在的语句片段, 得 到多个新语句片段; 统计每个新语句片段的词频; 筛选出所述词频 大于设置的频率阈值的新语句片段, 得到多个候选新词; 根据所述多个候选新词, 生成候选词表。 4.根据权利要求1所述的领域新词识别方法, 其特征在于, 所述按照单字点互信息, 对 所述候选新词进行筛 选, 得到领域 新词集, 包括: 通过点互信息算法, 对所述 候选新词进行计算, 得到每 个候选新词的单字点互信息; 若所述单字点互信息大于设置的点互信息阈值, 将所述 候选新词确定为领域 新词; 根据多个领域 新词, 生成领域 新词集。 5.根据权利要求1所述的领域新词识别方法, 其特征在于, 在所述按照单字点互信息, 对所述候选新词进行筛 选, 得到领域 新词集之后, 还 包括: 通过邻接熵算法, 对所述领域新词 进行扩展, 得到候选扩展词表, 所述候选扩展词表包 括多个候选扩展词; 按照多字点互信息, 对所述 候选扩展词进行筛 选, 得到领域扩展新词。 6.根据权利要求5所述的领域新词识别方法, 其特征在于, 所述通过邻接熵算法, 对所 述领域新词进行扩展, 得到候选扩展词表, 所述 候选扩展词表包括多个候选扩展词, 包括: 判断当前的领域 新词是否存在左 邻接词; 若是, 判断所述当前的领域 新词和所述左 邻接词的总字数 是否小于设置的字数阈值; 若是, 通过左邻 接熵算法, 对所述当前的领域新词进行计算, 得到当前的领域新词的左 邻接熵; 若所述左邻 接熵小于或等于设置的第 一邻接熵阈值, 将所述当前的领域新词和领域新 词的左邻接词确定为扩展后当前的领域新词, 继续执行所述判断当前的领域新词是否存在 左邻接词的步骤;权 利 要 求 书 1/2 页 2 CN 115374772 A 2若所述左邻接熵大于所述第一邻接熵阈值, 将所述当前的领域新词确定为候选扩展 词。 7.根据权利要求5所述的领域新词识别方法, 其特征在于, 所述通过邻接熵算法, 对所 述领域新词进行扩展, 得到候选扩展词表, 所述 候选扩展词表包括多个候选扩展词, 包括: 判断当前的领域 新词是否存在右邻接词; 若是, 判断所述当前的领域 新词和右邻接词的总字数 是否小于设置的字数阈值; 若是, 通过右邻 接熵算法, 对所述当前的领域新词进行计算, 得到当前的领域新词的右 邻接熵; 若所述右邻 接熵小于或等于设置的第 二邻接熵阈值, 将所述当前的领域新词和领域新 词的右邻接词确定为扩展后当前的领域新词, 继续执行所述判断当前的领域新词是否存在 右邻接词的步骤; 若所述右邻接熵大于所述第二邻接熵阈值, 将所述当前的领域新词确定为候选扩展 词。 8.根据权利要求5所述的领域新词识别方法, 其特征在于, 所述按照多字点互信息, 对 所述候选扩展词进行筛 选, 得到领域扩展新词, 包括: 通过多字点互信息算法, 对所述候选扩展词进行计算, 得到每个候选扩展词的多字点 互信息; 若所述多字点互信 息位于设置的点互信 息阈值区间内, 将所述候选扩展词确定为领域 扩展新词; 根据所述领域扩展新词和领域 新词集, 生成全量 新词集。 9.一种领域 新词识别装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取 领域内的原 始语料库; 第一筛选单元, 用于通过语言模型, 对所述原始语料库进行候选词筛选, 得到候选词 表, 所述候选词表包括多个候选新词; 第二筛选单元, 用于按照单字点互信息, 对所述 候选新词进行筛 选, 得到领域 新词集。 10.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执行 时实现如权利要求1至8任一项所述的领域 新词识别方法。 11.一种计算机设备, 包括存储器和处理器, 所述存储器用于存储包括程序指令的信 息, 所述处理器用于控制程序指 令的执行, 其特征在于, 所述程序指 令被处理器加载并执行 时实现权利要求1至8任一项所述的领域 新词识别方法。 12.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 所述计算机程序/指令 被处理器执行时实现权利要求1至8任一项所述的领域 新词识别方法。权 利 要 求 书 2/2 页 3 CN 115374772 A 3

PDF文档 专利 一种领域新词识别方法和装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种领域新词识别方法和装置 第 1 页 专利 一种领域新词识别方法和装置 第 2 页 专利 一种领域新词识别方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:15:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。