专利一种级联检测和匹配的端到端多目标跟踪系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210629944.X (22)申请日 2022.06.06 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人李耶　殷光强　王治国　罗啸宇　贾召钱　 (74)专利代理机构成都天嘉专利事务所(普通合伙) 5121 1 专利代理师彭红艳 (51)Int.Cl. G06T 7/246(2017.01) G06V 10/44(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01)G06V 10/82(2022.01) (54)发明名称一种级联检测和匹配的端到端多目标跟踪系统 (57)摘要本发明涉及智能视频监控和智能安保技术领域，特别是涉及一种级联检测和匹配的端到端多目标跟踪系统，包括输入模块、特征提取模块、输入预处理模块、目标检测模块以及目标数据关联模块；输入模块用于将该图像二元组以孪生形式输入到特征提取模块；特征提取模块采用 DLA34网络作为下采样骨干网络，并在每一个下采样节点中加入上采样以实现语义融合；所述输入预处理模块用于将历史帧图像的特征进行融合；目标检测模块基于点的目标检测，定位目标位置，得到检测三元组；目标数据关联模块包括匹配模型和经过训练的基于卷积网络的非线性运动预测模型。通过本跟踪系统，能有效解决多尺度特征难以融合、任务失衡以及目标运动关联算法匹配效果较差的问题。权利要求书3页说明书8页附图3页 CN 114972434 A 2022.08.30 CN 114972434 A 1.一种级联检测和匹配的端到端多目标跟踪系统，其特征在于：包括输入模块、特征提取模块、输入预处理模块、目标检测模块以及目标数据关联模块；所述输入模块用于输入图像二元组(I...f,If+1)，并将该图像二元组以孪生形式输入到特征提取模块；其中， I. ..f为多帧历史帧图像， If+1为后一帧图像；所述特征提取模块采用DLA34网络作为下采样骨干网络，并在每一个下采样节点中加入上采样以实现语义融合，用于提取历史帧图像的特征和后一帧图像的特征，并将该后一帧图像的特征送入目标检测模块；所述输入预处理模块用于将特征提取模块提取的历史帧图像的特征进行融合，并将其送入目标检测模块；所述目标检测模块为基于点的目标检测，用于定位目标位置，最终得到检测三元组 (Di,f,Si,f+1,Di,f+1)；其中， Di,f为历史帧最后一帧第i个目标的真实检测框， Si,f+1为以Di,f的框中心点为中心，框的高宽向外扩展r倍并映射到后一帧If+1得到的扩展检测框， Di,f+1为后一帧图像的第i个目标的真实检测框；所述目标数据关联模块包括匹配模型和经过训练的基于卷积网络的非线性运动预测模型；所述运动预测模型用于进行目标运动预测，根据Di,f与Si,f+1得到下一帧的目标预测框位置D′i,f+1，所述匹配模型用于将前一帧目标与后一帧目标进行匹配关联，实现目标跟踪；其中，所述运动预测模型的训练是根据Di,f+1和D′i,f+1的位置匹配输出的差异性，通过反向传播完成。 2.根据权利要求1所述的一种级联检测和匹配的端到端多目标跟踪系统，其特征在于：根据Di,f,与Si,f+1得到下一帧的目标预测框位置D ′i,f+1具体指：令输入为Di,f与Si,f+1两个目标检测框，其中， Di,f为当前帧中第i个目标的真实检测框， Si,f+1为以Di,f的框中心点为中心，框的高宽向外扩展r倍并映射到后一帧If+1做检测而得到的扩展检测框；两个目标检测框都经过卷积网络提取特征，然后将Di,f所提特征作为滤波算子与Si,f+1所提特征进行卷积操作得到响应图Ri；响应图Ri分别通过两个卷积操作得到一个分数热力图ci和一个位置回归图 pi，所述分数热力图ci为目标预测可能位置的置信度，位置回归图pi为预测目标的左上角与右下角的偏移量，解码出第i个目标的预测框位置： D′i,f+1＝De(pi(x*,y*))＝[x‑l,y‑t,x+r,y+b] 其中， pi(x*,y*)代表第i个预测目标相对目标中心的偏移量， pi(x*,y*)＝[l,t,r,b]， [l,t,r,b]分别代表目标的左上角坐标和右下角坐标的偏移量；表示逐元素相乘， ηi为惩罚图，用于为每一个候选区域设置一个惩罚得分。 3.根据权利要求1所述的一种级联检测和匹配的端到端多目标跟踪系统，其特征在于：所述特征提取模块中，上采样部分的卷积部分使用可变卷积，即卷积之后再经过一个卷积核以学习下一层卷积核的位置偏移量，再将这个偏移量加入下一层卷积核中。 4.根据权利要求1所述的一种级联检测和匹配的端到端多目标跟踪系统，其特征在于：所述输入预处理模块用于将特征提取模块提取的历史帧图像的特征进行融合，具体指：把多张历史帧图像特征作为输入，把所有帧图像特征的层次聚类结果作为伪标签来训练该输入预处理模块，经过多次迭代训练后，输入预处理模块能够挑选出具有代表性的特征时，利权　利　要　求　书 1/3 页 2 CN 114972434 A 2用时间融合方法，融合挑选出来的具有代表性的特征，得到多目标行人的特征。 5.根据权利要求1所述的一种级联检测和匹配的端到端多目标跟踪系统，其特征在于：所述基于点的目标检测，具体包括预测目标的中心位置、预测目标中心点的偏移量以及预测目标框的宽度和高度。 6.根据权利要求5所述的一种级联检测和匹配的端到端多目标跟踪系统，其特征在于：所述目标检测模块对应的损失函数包括对目标中心点预测的损失函数losshm、预测目标中心点偏差的损失函数L ossoffset以及预测目标位置框的长宽回归损失函数L osswh；对目标中心点预测的损失函数l osshm具体为：其中， N为上一帧检测目标数量， Mxy表示图像坐标(x,y)上高层特征图的真实响应， M ′xy 表示图像坐标(x,y)上高层特征图的估计响应， α 与β 为加权损失函数的预设的两个超参数；预测目标中心点偏差的损失函数L ossoffset为：其中， offseti为偏差，为下采样得到真实的目标中心点，为下采样中心点， of fset′i为相应的预测中心点偏差； i代表上一帧N个目标中的第i个目标；预测目标位置框的长宽回归损失函数L osswh为：其中， whi为计算框的长宽， wh ′i为对应的预测尺度，对于每一个输入视频帧，连带输入以及视频帧中目标的真实位置框的左上角坐标与右下角坐标，即一个包含四个元素的坐标向量spos＝[x1， i， y1,i， x2， i， y2,i]， whi＝[x2， i‑x1， i， y2， i‑y1,i]。 7.根据权利要求6所述的一种级联检测和匹配的端到端多目标跟踪系统，其特征在于：所述目标数据关联模块对应的损失函数L ossmotion为：其中，其中表示高层特征图中真实目标所在位置，表示存在目标，否则不存在； ci(x， y)表示预测的特征图的目标所在位置， ci(x， y)＝1表示存在目标，否则不存在； Lfocal表示使用加权损失函数来评估目标的置信度；表示真实位置偏移， pi(x， y)＝[x ‑x0， y‑y0， x‑x1， y‑y1]表示预测位置偏移； 8.根据权利要求7所述的一种级联检测和匹配的端到端多目标跟踪系统，其特征在于：所述跟踪系统的总体损失函数L osstotal为： Losstotal＝(Losshm+Lossoffset+ μLosswh)+Losskf+Lossmotion；权　利　要　求　书 2/3 页 3 CN 114972434 A 3

专利 一种级联检测和匹配的端到端多目标跟踪系统

专利一种级联检测和匹配的端到端多目标跟踪系统