专利模型训练方法、视频分类方法、设备及可读存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111679360.5 (22)申请日 2021.12.31 (71)申请人腾讯音乐娱乐科技（深圳）有限公司地址 518052 广东省深圳市前海深港合作区前湾一路1号A栋201室（入驻深圳市前海商务秘书有限公司） (72)发明人张悦　黄均昕　董治　姜涛　 (74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人林志鹏 (51)Int.Cl. G06K 9/62(2022.01) G06V 20/40(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) (54)发明名称模型训练方法、视频分类方法、设备及可读存储介质 (57)摘要本申请公开了一种模型训练方法、视频分类方法、设备及计算机可读存储介质，训练方法包括：获取训练视频段；对训练视频段进行音频流提取处理，得到训练音频段；生成训练音频段对应的训练语谱图；在训练视频段中确定若干个训练视频帧；基于各个训练视频帧对应的采样时间点确定若干个采样时间区间，并根据各个采样时间区间在训练语谱图中选取若干个训练频谱图段；分别将各个训练视频帧与对应的训练频谱图段组合为训练数据组，并利用各个训练数据组生成训练数据；将训练数据输入具有时间迁移模块的初始模型，得到预测结果，并利用预测结果对初始模型进行参数调节；若检测到满足训练完成条件，则确定为视频分类模型；视频分类模型具有较高的准确性。权利要求书3页说明书12页附图6页 CN 114358183 A 2022.04.15 CN 114358183 A 1.一种模型训练方法，其特征在于，包括：获取训练视频段；对所述训练视频段进行音频流提取处理，得到训练音频段；生成所述训练音频段对应的训练语谱图；在所述训练视频段中确定若干个训练视频帧；基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间，并根据各个所述采样时间区间在所述训练语谱图中选取若干个训练频谱图段；分别将各个所述训练视频帧与对应的所述训练频谱图段组合为训练数据组，并利用各个所述训练数据组生成训练数据；将所述训练数据输入具有时间迁移模块的初始模型，得到预测结果，并利用所述预测结果对所述初始模型进行参数调节；若检测到满足训练完成条件，则将参数调节后的所述初始模型确定为视频分类模型。 2.根据权利要求1所述的模型训练方法，其特征在于，所述初始模型包括若干个卷积模块，所述时间迁移模块设置于至少一个所述卷积模块之前；其中，所述时间迁移模块处于所述卷积模块所属的残差结构外，或者，所述时间迁移模块处于所述卷积模块所属的残差结构内。 3.根据权利要求2所述的模型训练方法，其特征在于，所述将所述训练数据输入具有时间迁移模块的初始模型，得到预测结果，包括：将所述训练数据输入所述初始模型的初始卷积模块，得到初始特征图；将所述初始特征图输入特征提取网络，得到目标特征图；其中，所述特征提取网络包括若干个特征提取模块，所述特征提取模块包括所述时间迁移模块和所述卷积模块，所述时间迁移模块对输入特征图进行基于空边界填充的偏移处理，得到偏移特征图，所述卷积模块对偏移特征图进行卷积处理，得到输出特征图；最后一个所述特征提取模块的输出特征图为所述目标特征图；将所述目标特征图输入全连接层，得到所述预测结果。 4.根据权利要求3所述的模型训练方法，其特征在于，若所述时间迁移模块处于所述卷积模块所属的残差结构外，包括：将所述偏移特征图输入所述卷积模块所属的残差结构中的快捷连接路径。 5.根据权利要求1所述的模型训练方法，其特征在于，还包括：获取与所述训练视频段以及所述训练音频段对应的训练标签；所述利用所述预测结果对所述初始模型进行参数调节，包括利用所述训练标签和所述预测结果得到损失值；基于所述损失值对所述初始模型进行参数调节。 6.根据权利要求1所述的模型训练方法，其特征在于，所述获取训练视频段，包括：获取训练视频；将所述训练视频输入预训练好的镜头边界检测模型，得到所述训练视频中各个视频帧分别对应的边界检测结果；在所述边界检测结果为命中的目标视频帧的位置切分所述训练视频，得到所述训练视频段。权　利　要　求　书 1/3 页 2 CN 114358183 A 27.根据权利要求1所述的模型训练方法，其特征在于，所述基于各个所述训练视频帧对应的采样时间点确定若干个采样时间区间，包括：以目标采样时间点为基准，在时间轴上向左延伸第一预设长度得到第一时间坐标，并向右延伸第二预设长度得到第二时间坐标；所述目标采样时间点为任意一个所述采样时间点；将所述第一时间坐标确定为区间起点，并将所述第二时间坐标确定为区间终点，得到所述目标采样时间点对应的所述采样时间区间。 8.根据权利要求1所述的模型训练方法，其特征在于，所述初始模型包括特征交换模块，所述特征交换模块设置于至少一个所述卷积模块之前；所述特征交换模块用于对输入数据中若干组对应于同一个所述训练数据组的视频数据和音频数据进行位置交换。 9.一种视频分类方法，其特征在于，包括：获取待分类视频段；对所述待分类视频段进行音频流提取处理，得到待分类音频段；生成所述待分类音频段对应的待分类语谱图；在所述待分类视频段中确定若干个待分类视频帧；基于各个所述待分类视频帧对应的采样时间点确定若干个采样时间区间，并根据各个所述采样时间区间在所述待分类语谱图中选取若干个待分类频谱图段；将所述待分类视频帧与对应的所述待分类频谱图段组合为待分类数据组，并利用各个所述待分类数据组生成待分类数据；将所述待分类数据输入具有时间迁移模块的视频分类模型，得到分类结果；所述视频分类模型利用如权利要求1至8任一项所述的模型训练方法得到。 10.根据权利要求9所述的视频分类方法，其特征在于，所述视频分类模型包括卷积模块，所述将所述待分类数据输入具有时间迁移模块的视频分类模型，得到分类结果，包括：将所述训练数据输入所述视频分类模型的初始卷积模块，得到预处理特征图；将所述预处理特征图输入特征提取网络，得到后处理特征图；其中，所述特征提取网络包括若干个特征提取模块，所述特征提取模块包括所述时间迁移模块和所述卷积模块，所述时间迁移模块对输入特征图进行基于空边界填充的偏移处理，得到偏移特征图，所述卷积模块对偏移特征图进行卷积处理，得到输出特征图；最后一个所述特征提取模块的输出特征图为所述后处理特征图；将所述后处理特征图输入全连接层，得到所述分类结果。 11.根据权利要求10所述的视频分类方法，其特征在于，所述特征提取模块包括特征交换模块，所述特征交换模块设置于所述卷积模块或所述时间迁移模块之前；所述特征交换模块用于对输入数据中若干组对应于同一个所述待分类数据组的视频数据和音频数据进行位置交换。 12.根据权利要求9所述的视频分类方法，其特征在于，所述获取待分类视频段，包括：获取待分类视频；将所述待分类视频输入预训练好的镜头边界检测模型，得到所述待分类视频中各个视频帧分别对应的边界检测结果；在所述边界检测结果为命中的目标视频帧的位置切分所述待分类视频，得到所述待分权　利　要　求　书 2/3 页 3 CN 114358183 A 3

专利 模型训练方法、视频分类方法、设备及可读存储介质

专利模型训练方法、视频分类方法、设备及可读存储介质