金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111679360.5 (22)申请日 2021.12.31 (71)申请人 腾讯音乐娱乐科技 (深圳) 有限公司 地址 518052 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 张悦 黄均昕 董治 姜涛  (74)专利代理 机构 深圳市深佳知识产权代理事 务所(普通 合伙) 44285 代理人 林志鹏 (51)Int.Cl. G06K 9/62(2022.01) G06V 20/40(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) (54)发明名称 模型训练方法、 视频分类方法、 设备及可读 存储介质 (57)摘要 本申请公开了一种模 型训练方法、 视频分类 方法、 设备及计算机可读存储介质, 训练方法包 括: 获取训练视频段; 对训练视频段进行音频流 提取处理, 得到训练音频段; 生成训练音频段对 应的训练语谱图; 在训练视频段中确定若干个训 练视频帧; 基于各个训练视频帧对应的采样时间 点确定若干个采样时间 区间, 并根据各个采样时 间区间在训练语谱图中选取若干个训练频谱图 段; 分别将各个训练视频帧与对应的训练频谱图 段组合为训练数据组, 并利用各个训练数据组生 成训练数据; 将训练数据输入具有时间迁移模块 的初始模型, 得到预测结果, 并利用预测结果对 初始模型进行参数调节; 若检测到满足训练完成 条件, 则确定为视频分类模型; 视频分类模型具 有较高的准确性。 权利要求书3页 说明书12页 附图6页 CN 114358183 A 2022.04.15 CN 114358183 A 1.一种模型训练方法, 其特 征在于, 包括: 获取训练视频 段; 对所述训练视频 段进行音频流 提取处理, 得到训练音频 段; 生成所述训练音频 段对应的训练语谱图; 在所述训练视频 段中确定若干个训练视频帧; 基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间, 并根据 各个所 述采样时间区间在所述训练语谱图中选取若干个训练频谱图段; 分别将各个所述训练视频帧与对应的所述训练频谱图段组合为训练数据组, 并利用各 个所述训练数据组生成训练数据; 将所述训练数据输入具有时间迁移模块的初始模型, 得到预测结果, 并利用所述预测 结果对所述初始模型进行参数调节; 若检测到满足训练完成条件, 则将参数调节后的所述初始模型确定为视频分类模型。 2.根据权利要求1所述的模型训练方法, 其特征在于, 所述初始模型包括若干个卷积模 块, 所述时间迁移模块设置于至少一个所述卷积模块之前; 其中, 所述时间迁移模块处于所 述卷积模块所属的残差结构外, 或者, 所述时间迁移模块处于所述卷积模块所属的残差结 构内。 3.根据权利要求2所述的模型训练方法, 其特征在于, 所述将所述训练数据输入具有时 间迁移模块的初始模型, 得到预测结果, 包括: 将所述训练数据输入所述初始模型的初始卷积模块, 得到初始特 征图; 将所述初始特征图输入特征提取网络, 得到目标特征图; 其中, 所述特征提取网络包括 若干个特征提取模块, 所述特征提取模块包括所述时间迁移模块和所述卷积模块, 所述时 间迁移模块对输入特征图进行基于空边界填充的偏移处理, 得到偏移特征图, 所述卷积模 块对偏移特征图进行卷积处理, 得到输出特征图; 最后一个所述特征提取模块的输出特征 图为所述目标 特征图; 将所述目标 特征图输入 全连接层, 得到所述预测结果。 4.根据权利要求3所述的模型训练方法, 其特征在于, 若所述 时间迁移模块处于所述卷 积模块所属的残差结构外, 包括: 将所述偏移特 征图输入所述卷积模块所属的残差结构中的快捷连接路径。 5.根据权利要求1所述的模型训练方法, 其特 征在于, 还 包括: 获取与所述训练视频 段以及所述训练音频 段对应的训练标签; 所述利用所述预测结果对所述初始模型进行参数调节, 包括 利用所述训练标签和所述预测结果得到损失值; 基于所述损失值对所述初始模型进行参数调节。 6.根据权利要求1所述的模型训练方法, 其特 征在于, 所述获取训练视频 段, 包括: 获取训练视频; 将所述训练视频输入预训练好的镜头边界检测模型, 得到所述训练视频中各个视频帧 分别对应的边界检测结果; 在所述边界检测结果为命中的目标视频帧的位置切分所述训练视频, 得到所述训练视 频段。权 利 要 求 书 1/3 页 2 CN 114358183 A 27.根据权利要求1所述的模型训练方法, 其特征在于, 所述基于各个所述训练视频帧对 应的采样时间点确定若干个采样时间区间, 包括: 以目标采样时间点为基准, 在时间轴上向左延伸第一预设长度得到第一时间坐标, 并 向右延伸第二预设长度得到第二时间坐标; 所述目标采样时间点为任意一个所述采样时间 点; 将所述第一时间坐标确定为区间起点, 并将所述第二时间坐标确定为区间终点, 得到 所述目标采样时间点对应的所述采样时间区间。 8.根据权利要求1所述的模型训练方法, 其特征在于, 所述初始模型包括特征交换模 块, 所述特征交换模块设置于至少一个所述卷积模块之前; 所述特征交换模块用于对输入 数据中若干组对应于同一个所述训练数据组的视频 数据和音频 数据进行位置交换。 9.一种视频分类方法, 其特 征在于, 包括: 获取待分类视频 段; 对所述待分类视频 段进行音频流 提取处理, 得到待分类音频 段; 生成所述待分类音频 段对应的待分类 语谱图; 在所述待分类视频 段中确定若干个待分类视频帧; 基于各个所述待分类视频帧对应的采样时间点确定若干个采样时间区间, 并根据 各个 所述采样时间区间在所述待分类 语谱图中选取若干个待分类频谱图段; 将所述待分类视频帧与对应的所述待分类频谱图段组合为待分类数据组, 并利用各个 所述待分类数据组生成待分类数据; 将所述待分类数据输入具有时间迁移模块的视频分类模型, 得到分类结果; 所述视频 分类模型利用如权利要求1至8任一项所述的模型训练方法得到 。 10.根据权利要求9所述的视频分类方法, 其特征在于, 所述视频分类模型包括卷积模 块, 所述将所述待分类数据输入具有时间迁移模块的视频分类模型, 得到分类结果, 包括: 将所述训练数据输入所述视频分类模型的初始卷积模块, 得到预处 理特征图; 将所述预处理特征图输入特征提取网络, 得到后处理特征图; 其中, 所述特征提取网络 包括若干个特征提取模块, 所述特征提取模块包括所述时间迁移模块和所述卷积模块, 所 述时间迁移模块对输入特征图进行基于空边界填充的偏移处理, 得到偏移特征图, 所述卷 积模块对偏移特征图进行卷积处理, 得到输出特征图; 最后一个所述特征提取模块的输出 特征图为所述后处 理特征图; 将所述后处 理特征图输入 全连接层, 得到所述分类结果。 11.根据权利要求10所述的视频分类方法, 其特征在于, 所述特征提取模块包括特征交 换模块, 所述特征交换模块设置于所述卷积模块或所述时间迁移模块之前; 所述特征交换 模块用于对输入数据中若干组对应于同一个所述待分类数据组的视频数据和音频数据进 行位置交换。 12.根据权利要求9所述的视频分类方法, 其特 征在于, 所述获取待分类视频 段, 包括: 获取待分类视频; 将所述待分类视频输入预训练好的镜头边界检测模型, 得到所述待分类视频中各个视 频帧分别对应的边界检测结果; 在所述边界检测结果为命中的目标视频帧的位置切分所述待分类视频, 得到所述待分权 利 要 求 书 2/3 页 3 CN 114358183 A 3

.PDF文档 专利 模型训练方法、视频分类方法、设备及可读存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练方法、视频分类方法、设备及可读存储介质 第 1 页 专利 模型训练方法、视频分类方法、设备及可读存储介质 第 2 页 专利 模型训练方法、视频分类方法、设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:05:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。