金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210290842.X (22)申请日 2022.03.23 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 朱泽润  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 李国祥 刘芳 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/247(2020.01) G06F 40/289(2020.01) G06F 16/36(2019.01) (54)发明名称 语言模型训练、 数据处理方法、 装置、 设备、 介质及产品 (57)摘要 本公开提供了一种语 言模型训练、 数据处理 方法、 装置、 设备、 介质及产品, 涉及人工智能领 域, 尤其涉及自然语言 处理、 深度学习、 知识图谱 领域。 具体实现方案为: 获取已标注的第一训练 数据和未标注的第二训练数据; 第一训练数据和 第二训练数据为文本数据; 对第二训练数据进行 数据扩展处理, 获得第二训练数据对应的扩展数 据; 以第一训练数据的标签作为第一训练数据在 待训练的语言模 型的比对数据, 计算获得第一损 失值; 以扩展数据作为对应的第二训练数据在语 言模型的比对数据, 计算获得第二损失值; 若确 定第一损失值和第二损失值之和满足损失条件, 则确定语言模 型训练结束, 获得语 言模型的目标 模型参数。 本公开的技术方案提高了语 言模型的 模型精度。 权利要求书6页 说明书18页 附图5页 CN 114611625 A 2022.06.10 CN 114611625 A 1.一种语言模型训练方法, 包括: 获取已标注的第 一训练数据和未标注的第 二训练数据; 所述第 一训练数据和所述第 二 训练数据为文本数据; 对所述第二训练数据进行 数据扩展处 理, 获得所述第二训练数据对应的扩展数据; 以所述第一训练数据的标签作为所述第 一训练数据在待训练的语言模型的比对数据, 计算获得第一损失值; 以所述扩展数据作为对应的第 二训练数据在所述语言模型的比对数据, 计算获得第 二 损失值; 若所述第一损 失值和所述第二损 失值之和满足损 失条件, 则所述语言模型训练结束, 获得所述语言模型的目标模型参数。 2.根据权利要求1所述的方法, 其中, 所述对所述第二训练数据进行数据扩展处理, 获 得所述第二训练数据对应的扩展数据, 包括: 对所述第二训练数据进行分词, 获得 所述第二训练数据对应的至少一个初始词语; 利用词语扩展策略, 对至少一个所述初始词语进行词语扩展处理, 获得所述第二训练 数据对应的扩展数据。 3.根据权利要求2所述的方法, 其中, 所述词语扩展策略包括: 业 务扩展策略; 所述利用词语扩展策略, 对至少一个所述初始词语进行词语扩展处理, 获得所述第二 训练数据对应的扩展数据, 包括: 利用所述业务扩展策略, 对至少一个所述初始词语进行词语扩展处理, 获得第一扩展 词语; 确定所述第一扩展词语为所述第二训练数据的扩展数据。 4.根据权利要求2所述的方法, 其中, 所述词语扩展策略包括: 知识扩展策略; 所述利用词语扩展策略, 对至少一个所述初始词语进行词语扩展处理, 获得所述第二 训练数据对应的扩展数据, 包括: 利用所述知识扩展策略, 对至少一个所述初始词语进行词语扩展处理, 获得第二扩展 词语; 确定所述第二扩展词语为所述第二训练数据的扩展数据。 5.根据权利要求2所述的方法, 其中, 所述词语扩展策略包括: 业务扩展策略和知识扩 展策略; 所述利用词语扩展策略, 对至少一个所述初始词语进行词语扩展处理, 获得所述第二 训练数据对应的扩展数据, 包括: 利用所述业务扩展策略, 对至少一个所述初始词语进行词语扩展处理, 获得第一扩展 词语; 利用所述知识扩展策略, 对至少一个所述初始词语进行词语扩展处理, 获得第二扩展 词语; 确定所述第一扩展词语和所述第二扩展词语为所述第二训练数据的扩展数据。 6.根据权利要求3或5所述的方法, 其中, 所述利用所述业务扩展策略, 对至少一个所述 初始词语进行词语扩展处 理, 获得第一扩展词语, 包括: 确定所述 业务扩展策略对应的至少一个候选词语;权 利 要 求 书 1/6 页 2 CN 114611625 A 2针对任一个初始词语, 从至少一个所述候选词语中确定与所述初始词语相匹配的第 一 词语, 以确定 至少一个所述初始词语分别对应的第一词语为所述第一扩展词语。 7.根据权利要求6所述的方法, 其中, 所述针对任一个初始词语, 从至少一个所述候选 词语中确定与所述初始词语相匹配的第一词语, 包括: 将至少一个所述 候选词语划分为 候选实体词以及候选非 实体词; 若确定任一个初始词语为实体词, 则从所述候选实体词中确定与所述初始词语相匹配 的第一词语; 若确定任一个初始词语为非实体词, 则从所述候选非实体词中确定与 所述初始词语相 匹配的第一词语。 8.根据权利要求4或5所述的方法, 其中, 所述利用所述知识扩展策略, 对至少一个所述 初始词语进行词语扩展处 理, 获得第二扩展词语, 包括: 确定与所述第二训练数据的数据内容相匹配的知识图谱; 所述知识图谱包括: 以知识 关键词形成的节点以及以知识关键词之间的关联关系形成的边; 利用所述知识图谱, 对至少一个所述初始词语进行词语扩展处 理, 获得第二扩展词语。 9.根据权利要求1 ‑8任一项所述的方法, 还 包括: 将所述第一训练数据、 所述第二训练数据以及所述扩展数据分别输入所述语言模型, 获得所述第一训练数据对应的第一预测结果、 所述第二训练数据对应的第二预测结果以及 所述扩展数据对应的扩展预测结果; 所述以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对 数据, 计算获得第一损失值, 包括: 基于所述第一训练数据的标签和第一预测结果进行损失计算, 获得 所述第一损失值; 所述以所述扩展数据作为对应的第 二训练数据在所述语言模型的比对数据, 计算获得 第二损失值, 包括: 基于所述第二训练数据的第二预测结果和所述扩展数据对应的扩展预测结果进行损 失计算, 获得 所述第二损失值。 10.根据权利要求9所述的方法, 其中, 所述基于所述第二训练数据的第二预测结果和 所述扩展数据对应的扩展预测结果进行损失计算, 获得 所述第二损失值, 包括: 采用相对损失函数, 对所述第 二预测结果和所述扩展预测结果之间的结果差异进行损 失计算, 获得 所述第二损失值。 11.根据权利要求1 ‑10任一项所述的方法, 还 包括: 若确定所述第一损失值和所述第二损失值之和不满足损失条件, 则更新所述语言模 型, 并返回至所述以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型 的比对数据, 计算获得第一损失值继续执 行。 12.根据权利要求1 1所述的方法, 其中, 所述更新所述语言模型, 包括: 确定当前的所述语言模型对应的至少一个 计算节点; 基于节点选择 策略, 对至少一个所述计算节点进行选择, 获得目标计算节点; 基于参数调整策略, 对所述目标计算节点的参数进行调整处理, 获得所述目标计算节 点对应的目标参数; 确定设置有所述目标参数的所述目标计算节点 为更新后的语言模型。权 利 要 求 书 2/6 页 3 CN 114611625 A 3

.PDF文档 专利 语言模型训练、数据处理方法、装置、设备、介质及产品

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语言模型训练、数据处理方法、装置、设备、介质及产品 第 1 页 专利 语言模型训练、数据处理方法、装置、设备、介质及产品 第 2 页 专利 语言模型训练、数据处理方法、装置、设备、介质及产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。