金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111665477.8 (22)申请日 2021.12.31 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新区望江西 路666号 (72)发明人 王涛 刘权 陈志刚  (74)专利代理 机构 北京励诚知识产权代理有限 公司 11647 代理人 周慧云 (51)Int.Cl. G06F 40/166(2020.01) G06F 40/30(2020.01) G06F 16/2458(2019.01) G06F 16/23(2019.01) G06K 9/62(2022.01) (54)发明名称 数据改写方法、 装置、 存储介质及计算机设 备 (57)摘要 本申请公开一种数据改写方法、 装置、 存储 介质及计算机设备。 该方法包括: 基于历史时间 段内的用户交互行为数据, 挖掘改写数据, 以根 据改写数据构建改写数据库, 改写数据包括历史 时间段内的所有的改写组合对, 每一改写组合对 包括一个错误话语和一个正确话语; 基于历史时 间段内每天产生的日志数据, 增量更新改写数据 库, 以纠正改写数据库中交互失败的数据; 基于 改写数据库构建改写引擎, 改写引擎用于将待测 文本中的错误话语进行改写, 可以实现基于用户 交互行为的数据改写, 对于识别错误或者说法泛 化的话语, 可 以显著提升语义理解正确率, 提升 交互成功率。 权利要求书3页 说明书16页 附图3页 CN 114357950 A 2022.04.15 CN 114357950 A 1.一种数据改写方法, 其特 征在于, 所述方法包括: 基于历史时间段内的用户交互行为数据, 挖掘改写数据, 以根据所述改写数据构建改 写数据库, 所述改写数据包括所述历史时间段内的所有的改写组合对, 每一所述改写组合 对包括一个错误话语和一个正确话语; 基于所述历史时间段内每天产生的日志数据, 增量更新所述改写数据库, 以纠 正所述 改写数据库中交 互失败的数据; 基于所述改写数据库构建改写引擎, 所述改写引擎用于将待测文本 中的错误话语进行 改写。 2.如权利要求1所述的数据改写方法, 其特征在于, 所述基于历史时间段内的用户交互 行为数据, 挖掘改写数据, 以根据所述改写数据构建改写数据库, 包括: 获取历史时间段内的用户交互行为数据, 通过解析所述用户交互行为数据构建训练数 据; 利用所述训练数据和吸收马尔可夫模型对用户交互行为进行建模, 以挖掘交互失败的 错误话语对应的正确话语, 得到所述改写数据, 以根据所述改写数据构建改写数据库。 3.如权利要求2所述的数据改写方法, 其特征在于, 所述获取历史时间段内的用户交互 行为数据, 通过解析 所述用户交 互行为数据构建训练数据, 包括: 获取所述历史时间段内的用户交 互行为数据; 获取所述历史时间段内的日志数据, 并根据 所述日志数据解析每一条所述用户交互行 为数据的时间戳、 当前系统的语义理解结果以及用户的行为反馈; 根据预设时间间隔, 将所述用户交互行为数据中的每个用户的所有交互行为切分成多 轮会话, 其中每一轮所述会话包 含一条或多条话语; 根据信源搜索结果或者所述用户的行为反馈, 对每一轮所述会话添加吸收状态, 所述 吸收状态包括交互成功或者交互失败的状态, 将具有 所述吸收状态的每一轮所述会话确定 为一条训练数据。 4.如权利要求1 ‑3任一项所述的数据改写方法, 其特征在于, 所述利用所述训练数据和 吸收马尔可夫模型对用户交互行为进行建模, 以挖掘交互失败的错误话语对应的正确话 语, 得到所述改写数据, 包括: 利用所述训练数据训练所述吸收马尔可夫模型的参数, 以得到话语空间到语义空间的 转移概率矩阵、 语义空间之间的转移 矩阵、 以及语义空间到话语空间的转移 矩阵; 对于所述吸收状态为交互失败的训练数据中的错误话语, 计算所述错误话语对应的语 义空间之间的转移 矩阵; 根据所述 错误话语对应的语义空间之间的转移 矩阵, 确定所述改写数据。 5.如权利要求4所述的数据改写方法, 其特征在于, 所述对于所述吸收状态为交互失败 的训练数据中的错 误话语, 计算所述 错误话语对应的语义空间之间的转移 矩阵, 包括: 根据所述训练数据的实际语义信 息, 确定所有训练数据的每一轮会话对应的语义空间 中由任一语义空间元 素转移到第i个 语义空间元 素的共现次数; 根据所述共现次数, 计算第i个 语义空间元 素与所有语义空间之间的共现总次数; 根据所述共现总次数, 确定第i个语义空间元素转移到第j个语义空间元素的概率, 以 及第i个语义空间元素转移到目标语义空间元素 的概率, 以得到所述错误话语对应的语义权 利 要 求 书 1/3 页 2 CN 114357950 A 2空间之间的转移矩阵, 所述 目标语义空间元素为第i个语义空间元素能交互成功的语义空 间元素。 6.如权利要求5所述的数据改写方法, 其特征在于, 所述根据 所述共现总次数, 确定第i 个语义空间元素转移到第j 个语义空间元素的概率, 以及第i个语义空间元素转移到目标语 义空间元 素的概率, 包括: 根据所述训练数据的实际语义信息, 确定第i个语义空间元素转移到第j个语义空间元 素的共现次数; 根据所述训练数据的实 际语义信息, 确定第i个语义空间元素转移到目标语义空间元 素的共现次数; 根据第i个语义空间元素转移到第j个语义空间元素的共现次数, 以及所述共现总次 数, 确定第i个 语义空间元 素转移到第j个 语义空间元 素的概率; 根据第i个语义空间元素转移到目标语义空间元素的共现次数, 以及所述共现总次数, 确定第i个 语义空间元 素转移到目标语义空间元 素的概率。 7.如权利要求5所述的数据改写方法, 其特征在于, 所述根据所述错误话语对应的语义 空间之间的转移 矩阵, 确定所述改写数据, 包括: 根据改写对象对应的语义空间元素经过1步转移到目标语义空间元素的概率, 以及所 述错误话语对应的语义空间元素经过s步转移到改写对 象对应的语义空间元素 的概率, 确 定所述错误话语对应的语义空间元 素经过k步转移到目标语义空间元 素的概率; 根据所述错误话语对应的语义空间元素经过k步转移到目标语义空间元素的概率, 确 定所述改写数据。 8.如权利要求 4所述的数据改写方法, 其特 征在于, 所述方法还 包括: 对所述改写数据进行 过滤处理。 9.如权利要求1所述的数据改写方法, 其特 征在于, 所述方法还 包括: 对待测语音 进行识别, 得到待测文本; 根据所述改写引擎, 查询与所述待测文本对应的改写 文本; 将所述改写文本输入语义理解模块中, 得到所述改写文本的预测语义信息, 以基于所 述预测语义信息进行 人机交互。 10.一种数据改写装置, 其特 征在于, 所述装置包括: 挖掘单元, 用于基于历史时间段内的用户交互行为数据, 挖掘改写数据, 以根据 所述改 写数据构建改写数据库, 所述改写数据包括所述历史时间段内的所有的改写组合对, 每一 所述改写组合对 包括一个错误话语和一个正确话语; 更新单元, 用于基于所述历史时间段内每天产生的日志数据, 增量更新所述改写数据 库, 以纠正所述改写数据库中交 互失败的数据; 构建单元, 用于基于所述改写数据库构建改写引擎, 所述改写引擎用于将待测文本中 的错误话语进行改写。 11.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序适于处理器进 行加载, 以执行如权利要求 1‑9任一项所述的数据改写方 法中的步骤。 12.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器权 利 要 求 书 2/3 页 3 CN 114357950 A 3

.PDF文档 专利 数据改写方法、装置、存储介质及计算机设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据改写方法、装置、存储介质及计算机设备 第 1 页 专利 数据改写方法、装置、存储介质及计算机设备 第 2 页 专利 数据改写方法、装置、存储介质及计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:05:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。