金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210254907.5 (22)申请日 2022.03.15 (71)申请人 广州欢城文化传媒有限公司 地址 510000 广东省广州市天河区平云 路 163号之二1701室 (部位: 自编之01室) (仅限办公) (72)发明人 吴文亮 马金龙 徐志坚 谢睿  陈光尧 邓其春 王伟喆 张政统  曾锐鸿 黎子骏  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 陈嘉雯 (51)Int.Cl. H04N 21/233(2011.01) H04N 21/239(2011.01)H04N 21/437(2011.01) H04N 21/439(2011.01) G10L 15/04(2013.01) G10L 15/26(2006.01) G10L 25/63(2013.01) G06F 16/33(2019.01) G06F 16/36(2019.01) (54)发明名称 音频审核方法、 装置、 设备及可读存 储介质 (57)摘要 本申请公开了音频审核方法、 装置、 设备及 可读存储介质, 该方法包括: 对音频流进行切片, 得到多个音频片段, 并对音频片段进行排序; 获 取每一音频片段对应的文本信息; 若文本信息中 包含敏感词, 将与敏感词对应的音频片段确定为 目标音频片段, 并获取敏感词对应的敏感词信 息、 目标音频片段对应的第一音频特征, 及排在 目标音频片段前后的各个音频片段对应的第二 音频特征及第三音频特征; 对目标音频片段进行 评分, 得到审核分值; 若审核分值大于拦截阈值, 对目标音频片段进行拦截。 可见, 本申请可以提 高音频审核的准确性。 此外, 确定审核分值时, 既 考虑目标音频片段, 又考虑播放顺序在目标音 频 片段前后的音频片段, 进一步提高了音频审核的 准确率。 权利要求书3页 说明书16页 附图6页 CN 114666618 A 2022.06.24 CN 114666618 A 1.一种音频审核方法, 其特 征在于, 包括: 获取待审核的音频流; 对所述音频流进行切片, 得到多个音频片段, 并基于各个音频片段在所述音频流中的 播放顺序, 对所述音频片段进行排序; 获取每一音频片段对应的文本信息; 判断每一文本信息中是否包 含敏感词; 若所述文本信息中包含敏感词, 将与所述敏感词对应的音频片段确定为目标音频片 段, 并获取所述敏感词对应的敏感词信息、 所述目标音频片段对应的第一音频特征、 排序在 目标音频片段之前的各个音频片段对应的第二音频特征, 及排序在目标音频片段后一位的 音频片段对应的第三音频 特征; 根据所述第一音频特征、 所述第 二音频特征、 所述第 三音频特征及所述敏感词信 息, 对 所述目标音频片段进行评分, 得到审核分值; 判断所述审核分值是否大于预置的拦截阈值; 若所述审核分值大于所述 拦截阈值, 则对所述目标音频片段进行拦截。 2.根据权利要求1所述的方法, 其特 征在于, 获取 所述敏感词对应的敏感词信息, 包括: 通过预设的敏感词与类型及等级一一对应的敏感词表, 确定所述敏感词对应的敏感词 等级及敏感词类型。 3.根据权利要求2所述的方法, 其特 征在于, 所述文本信息中包 含多个敏感词; 所述通过预设的敏感词与类型及等级一一对应的敏感词表, 确定所述敏感词对应的敏 感词等级及敏感词类型, 包括: 通过所述敏感词表, 确定每一敏感词对应的敏感词等级; 将敏感词等级最高的敏感词, 确定为目标 敏感词; 查询所述敏感词表, 获取所述目标敏感词对应的敏感词类型, 所述敏感词信息中包括 所述目标 敏感词对应的敏感词类型及敏感词等级。 4.根据权利要求1所述的方法, 其特征在于, 获取所述目标音频片段对应的第 一音频特 征, 包括: 获取所述目标音频片段对应的第一情绪类型及第一短时能量 值; 获取排序在目标音频片段之前的各个音频片段对应的第二音频 特征, 包括: 获取排序在目标音频片段之前的各个音频片段对应的第二短时能量 值; 获取排序在目标音频片段 前一位的音频片段对应的第二情绪类型; 获取排序在目标音频片段后一 位的音频片段对应的第三音频 特征, 包括: 获取排序在目标音频片段后一 位的音频片段对应的第三短时能量 值; 获取排序在目标音频片段后一 位的音频片段对应的第三情绪类型; 根据所述第一音频特征、 所述第 二音频特征、 所述第 三音频特征及所述敏感词信 息, 对 所述目标音频片段进行评分, 得到审核分值, 包括: 根据所述第一情绪类型、 所述第 一短时能量值、 所述第 二短时能量值、 所述第 二情绪类 型、 所述第三短时能量值、 所述第三情绪类型及所述敏感词信息, 对 所述目标音频片段进 行 评分, 得到审核分值。 5.根据权利要求4所述的方法, 其特征在于, 根据所述第一情绪类型、 所述第一短时能权 利 要 求 书 1/3 页 2 CN 114666618 A 2量值、 所述第二短时能量值、 所述第二情绪类型、 所述第三短时能量值、 所述第三情绪类型 及所述敏感词信息, 对所述目标音频片段进行评分, 得到审核分值, 包括: 计算所述第二短时能量 值的平均值, 作为短时能量平均值; 将所述第一短时能量 值与所述短时能量平均值之差的平方, 作为情绪波动值; 确定与所述第一情绪类型的激烈程度匹配的分值, 作为第一情绪分值; 确定与所述第二情绪类型的激烈程度匹配的分值, 作为第二情绪分值; 确定与所述情绪波动值的大小程度匹配的分值, 作为第三情绪分值; 确定与所述第三情绪类型的激烈程度匹配的分值, 作为第四情绪分值; 确定与所述第一短时能量 值的大小程度匹配的分值, 作为第一短时能量分值; 确定与排序在 目标音频片段前一位的音频片段对应的第二短时能量值大小程度匹配 的分值, 作为第二短时能量分值; 确定与所述短时能量平均值的大小程度匹配的分值, 作为第三短时能量分值; 确定与所述第三短时能量 值的大小程度匹配的分值, 作为第四短时能量分值; 确定与所述敏感词信息匹配的分值, 作为敏感分值; 将所述第一情绪分值、 所述第二情绪分值、 所述第三情绪分值、 所述第 四情绪分值、 所 述第一短时能量分值、 所述第二短时能量分值、 第三短时能量分值、 所述第四短时能量分值 及所述敏感分值相加, 得到审核分值。 6.根据权利要求4所述的方法, 其特征在于, 获取所述目标音频片段对应的第 一情绪类 型, 包括: 将所述目标音频片段输入至情绪分类模型中, 得到目标音频片段对应的第一情绪类 型; 获取排序在目标音频片段 前一位的音频片段对应的第二情绪类型, 包括: 将排序在目标音频片段前一位的音频片段输入至情绪分类模型中, 得到所述排序在目 标音频片段 前一位的音频片段对应的第二情绪类型; 获取排序在目标音频片段后一 位的音频片段对应的第三情绪类型, 包括: 将排序在目标音频片段后 一位的音频片段输入至情绪分类模型中, 得到所述排序在目 标音频片段后一 位的音频片段对应的第三情绪类型; 其中, 所述情绪分类模型, 以音频为训练样本, 以音频对应的情绪类型为样本标签训练 得到。 7.根据权利要求1所述的方法, 其特征在于, 所述获取每一音频片段对应的文本信息, 包括: 对所述每一音频片段进行编码, 得到编码结果; 将所述编码结果输入至声学模型中, 得到所述编码结果对应的文字信息, 所述声学模 型, 以音频为训练样本, 以音频对应的文字为样本标签, 训练得到; 将所述文字信 息输入至语言模型中, 得到所述文字信息所组成的语句, 所述语言模型, 以文字集 合为训练样本, 以文字集 合所组成的语句为样本标签, 训练得到 。 8.一种音频审核装置, 其特 征在于, 包括: 音频流获取 单元, 用于获取待审核的音频流; 音频切片单元, 用于对所述音频流进行切片, 得到多个音频片段, 并基于各个音频片段权 利 要 求 书 2/3 页 3 CN 114666618 A 3

.PDF文档 专利 音频审核方法、装置、设备及可读存储介质

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 音频审核方法、装置、设备及可读存储介质 第 1 页 专利 音频审核方法、装置、设备及可读存储介质 第 2 页 专利 音频审核方法、装置、设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。