(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210629944.X
(22)申请日 2022.06.06
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 李耶 殷光强 王治国 罗啸宇
贾召钱
(74)专利代理 机构 成都天嘉专利事务所(普通
合伙) 5121 1
专利代理师 彭红艳
(51)Int.Cl.
G06T 7/246(2017.01)
G06V 10/44(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)G06V 10/82(2022.01)
(54)发明名称
一种级联检测和匹配的端到端多目标跟踪
系统
(57)摘要
本发明涉及智能视频监控和智能安保技术
领域, 特别是涉及一种级 联检测和匹配的端到端
多目标跟踪系统, 包括输入模块、 特征提取模块、
输入预处理模块、 目标检测模块以及目标数据关
联模块; 输入模块用于将该图像二元组以孪生形
式输入到特征提取模块; 特征提取模块采用
DLA34网络作为下采样骨干网络, 并在每一个下
采样节点中加入 上采样以实现语义融合; 所述输
入预处理模块用于将历史帧图像的特征进行融
合; 目标检测模块基于点的目标检测, 定位目标
位置, 得到检测三元组; 目标数据关联模块包括
匹配模型和经过训练的基于卷积网络的非线性
运动预测模型。 通过本跟踪系统, 能有效解决多
尺度特征难以融合、 任务失衡以及目标运动关联
算法匹配效果较 差的问题。
权利要求书3页 说明书8页 附图3页
CN 114972434 A
2022.08.30
CN 114972434 A
1.一种级联检测和匹配的端到端多目标跟踪系统, 其特征在于: 包括输入模块、 特征提
取模块、 输入预处 理模块、 目标检测模块以及目标 数据关联模块;
所述输入模 块用于输入图像二元组(I...f,If+1), 并将该图像二元组以孪生形式输入到
特征提取模块; 其中, I. ..f为多帧历史帧图像, If+1为后一帧图像;
所述特征提取模块采用DLA34网络作为下采样骨干网络, 并在每一个下采样节点中加
入上采样以实现语义融合, 用于提取历史帧图像的特征和后一帧图像的特征, 并将该后一
帧图像的特 征送入目标检测模块;
所述输入预处理模块用于将特征提取模块提取的历史帧图像的特征进行融合, 并将其
送入目标检测模块;
所述目标检测模块为基于点的目标检测, 用于定位目标位置, 最终得到检测三元组
(Di,f,Si,f+1,Di,f+1); 其中, Di,f为历史帧最后一帧第i个目标的真实检测框, Si,f+1为以Di,f的
框中心点为中心, 框的高宽向外扩展r倍并映射到后一帧If+1得到的扩展检测框, Di,f+1为后
一帧图像的第i个目标的真实检测框;
所述目标数据关联模块包括匹配模型和经过训练的基于卷积网络的非线性运动预测
模型; 所述运动预测模型用于进行目标运动预测, 根据Di,f与Si,f+1得到下一帧的目标预测框
位置D′i,f+1, 所述匹配模型用于将前一帧目标与后一帧目标进行匹配关联, 实现目标跟踪;
其中, 所述运动预测模型的训练是根据Di,f+1和D′i,f+1的位置匹配输出 的差异性, 通过反向
传播完成。
2.根据权利要求1所述的一种 级联检测和匹配的端到端多目标跟踪系统, 其特征在于:
根据Di,f,与Si,f+1得到下一帧的目标预测框位置D ′i,f+1具体指: 令输入为Di,f与Si,f+1两个目
标检测框, 其中, Di,f为当前帧中第i个目标的真实检测框, Si,f+1为以Di,f的框中心点为中心,
框的高宽向外扩展r倍并映射到后一帧If+1做检测而 得到的扩展检测框; 两个目标检测框都
经过卷积网络提取特征, 然后将Di,f所提特征作为滤波算子与Si,f+1所提特征进行卷积操作
得到响应图Ri; 响应图Ri分别通过两个卷积操作得到一个分数热力图ci和一个位置回归图
pi, 所述分数热力图ci为目标预测可能位置的置信度, 位置回归图pi为预测目标的左上角与
右下角的偏移量, 解码出第i个目标的预测框位置:
D′i,f+1=De(pi(x*,y*))=[x‑l,y‑t,x+r,y+b]
其中, pi(x*,y*)代表第i个预测目标相对目标中心的偏移量, pi(x*,y*)=[l,t,r,b],
[l,t,r,b]分别代表目标的左上角坐标和右下角坐标的偏移量;
表示逐元素相乘, ηi为惩
罚图, 用于为每一个候选区域设置一个惩罚得分。
3.根据权利要求1所述的一种 级联检测和匹配的端到端多目标跟踪系统, 其特征在于:
所述特征提取模块中, 上采样部分的卷积部分使用可变卷积, 即卷积之后再经过一个卷积
核以学习下一层卷积核的位置偏移量, 再将这个偏移量加入下一层卷积核中。
4.根据权利要求1所述的一种 级联检测和匹配的端到端多目标跟踪系统, 其特征在于:
所述输入预处理模块用于将特征提取模块提取 的历史帧图像的特征进行融合, 具体指: 把
多张历史帧图像特征作为输入, 把所有帧图像特征的层次聚类结果作为伪标签来训练该输
入预处理模块, 经过多次迭代训练后, 输入预 处理模块能够挑选出具有代表性的特征时, 利权 利 要 求 书 1/3 页
2
CN 114972434 A
2用时间融合方法, 融合挑选出来的具有代 表性的特 征, 得到多目标 行人的特征。
5.根据权利要求1所述的一种 级联检测和匹配的端到端多目标跟踪系统, 其特征在于:
所述基于点的目标检测, 具体包括预测目标 的中心位置、 预测目标中心点的偏移量以及预
测目标框的宽度和高度。
6.根据权利要求5所述的一种 级联检测和匹配的端到端多目标跟踪系统, 其特征在于:
所述目标检测模块对应的损失函数包括对目标中心点预测的损失函数losshm、 预测目标中
心点偏差的损失函数L ossoffset以及预测目标位置 框的长宽回归损失函数L osswh;
对目标中心点预测的损失函数l osshm具体为:
其中, N为上一帧检测目标数量, Mxy表示图像坐标(x,y)上高层特征图的真实响应, M ′xy
表示图像坐标(x,y)上高层特 征图的估计响应, α 与β 为加权损失函数的预设的两个超参数;
预测目标中心点偏差的损失函数L ossoffset为:
其中, offseti为偏差,
为下采样得到真实的目标中心点,
为下采
样中心点, of fset′i为相应的预测中心点偏差; i代 表上一帧N个目标中的第i个目标;
预测目标位置 框的长宽回归损失函数L osswh为:
其中, whi为计算框的长宽, wh ′i为对应的预测尺度, 对于每一个输入视频帧, 连带输入
以及视频帧中目标的真实位置框的左上角坐标与右下角坐标, 即一个包含四个元素的坐标
向量spos=[x1, i, y1,i, x2, i, y2,i], whi=[x2, i‑x1, i, y2, i‑y1,i]。
7.根据权利要求6所述的一种 级联检测和匹配的端到端多目标跟踪系统, 其特征在于:
所述目标 数据关联模块对应的损失函数L ossmotion为:
其中, 其中
表示高层特征图中真实目标所在位置,
表示存在目标, 否
则不存在; ci(x, y)表示预测的特征图的目标所在位置, ci(x, y)=1表示存在目标, 否则不存
在; Lfocal表示使用加权损失函数来评估目标的置信度;
表示真实位置偏移, pi(x, y)=[x ‑x0, y‑y0, x‑x1, y‑y1]表示预测位置偏移;
8.根据权利要求7所述的一种 级联检测和匹配的端到端多目标跟踪系统, 其特征在于:
所述跟踪系统的总体损失函数L osstotal为:
Losstotal=(Losshm+Lossoffset+ μLosswh)+Losskf+Lossmotion;权 利 要 求 书 2/3 页
3
CN 114972434 A
3
专利 一种级联检测和匹配的端到端多目标跟踪系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:10:16上传分享