金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210901938.5 (22)申请日 2022.07.28 (71)申请人 南京工业大 学 地址 211816 江苏省南京市浦口区浦珠南 路30号南京工业大 学 (72)发明人 薛敬祎 朱艾春 王子杰 胡方强  李义丰  (51)Int.Cl. G06V 40/10(2022.01) G06V 10/82(2022.01) G06V 10/44(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 基于图像色域分布自适应调整的文本行人 重识别算法 (57)摘要 本发明提供了一种基于图像色域分布自适 应调整的文本行人重识别算法, 所述方法包括以 下步骤: 首先将图像通过图像色域分布自适应调 整模块, 得到图像色域更加丰富的图像; 将经过 图像色域分布自适应调整模块处理过后的图片 与未处理的文本描述通过图 ‑文预训练网络, 得 到行人的文本特征向量与视觉特征图; 将得到的 行人文本特征向量与视觉特征图送入多粒度多 模态的特征提取网络进行处理, 得到两种模态全 局与局部对应特征, 然后通过信息共享模块实现 信息互通, 计算相似度, 进行匹配, 输出识别结 果。 本发明针对目前部分行人重识别算法模型计 算效率低的情况, 选择使用图 ‑文预训练方法来 进行预训练, 提升模型计算效率; 提出一种基于 图像色域分布自适应调整的文本行人重识别算 法, 可增加训练数据的多样性, 提高模型对于不 同数据的适应性。 权利要求书3页 说明书7页 附图2页 CN 115082967 A 2022.09.20 CN 115082967 A 1.一种基于 图像色域分布自适应调整的文本行人重识别算法, 其特征在于, 所述方法 包括以下步骤: 步骤1、 通过图像色域分布自适应调整模块对输入图像的色彩域进行自适应调整; 步骤2、 使用图 ‑文预训练方法得到所述行 人的文本特 征向量E与视 觉特征图F; 步骤3、 将前述行人文本特征向量E与视觉特征图F通过监督学习的方式进行处理, 获取 文本与视 觉的全局与局部特 征; 步骤4、 将前述多模态特征通过信息投影模块得到彼此模态的信息, 计算相似度, 进行 模型训练, 得到训练模型; 步骤5、 利用所述训练模型结合目标行人的文本描述和待识别行人进行行人重识别, 从 而得到行 人重识别结果; 所述的图像色彩域分布自适应调整模块包 含3个主要参数; 所述的图 ‑文预训练方法包 含1个视觉编码器, 1个文本编码器; 所述行人重识别方法包括1个全局特 征提取网络和1个局部特 征提取网络 。 2.根据权利要求1步骤1所述行人重识别方法, 其特征在于, 所述的图像色域分布调整 模块(D2AVM)包含3个主要参数, 分别对图像的光照、 对比度、 色温进行自适应的调整, 得到 变化后的图像: Iv=D2AVM(Io) 其中Io为原始图片, Iv为经过图像色域分布调整模块处 理过后的图片。 3.根据权利要求1步骤2所述的图 ‑文预训练方法, 其特征在于, 所述视觉编码器为1个 增加1个归一化层, 同时在变形操作之前加入位置编码的Vision  Transformer模型, 继而 得 到视觉特征图F: F=IE(Iv) 其中IE为视 觉编码器, 本算法中采用改进的Visi on Transformer模型。 4.根据权利要求1步骤2所述的图 ‑文预训练方法, 其特征在于, 所述文本编码器为1个 包含有多头注意力机制的Ber t模型与1个双向LSTM模块, 继而得到文本特 征向量E: E=TE(S) 其中, TE为文本编码器, 本算法中采用改进的Bert模型与双向LSTM模块, S为未处理的 文本描述。 5.根据权利要求1步骤3所述行人重识别方法, 其特征在于, 通过所述全局特征提取网 络可获得两模态全局特征, 在 提取文本全局特征时进行池化(RMP)与卷积(Wg)操作, 文本全 局特征为: tg=WgRMP(E) 在提取视 觉全局特 征时进行池化(GMP)与卷积(Wg), 视觉全局特 征为: vg=WgGMP(F) 。 6.根据权利要求1步骤3所述行人重识别方法, 其特征在于, 通过所述局部特征提取网 络可获得两模态局部特征, 在提取文本局部特征时进行池化与卷积(Wi)操作, 文本模态局 部特征为:权 利 要 求 书 1/3 页 2 CN 115082967 A 2其中Ei为通过词注意力模块, 并通过行最大池化层获得到第i部分文本特征向量, αi为 第i个文本局部特 征向量权 重; 在提取视 觉局部特 征时进行池化与卷积(wi)操作, 视 觉模态局部特 征为: 其中Fi是按照i份水平分割(不重叠), 并通过全局最大池化层 处理得到的第i个部分 的 视觉特征块, βi为第i个视 觉局部特 征向量权 重。 7.根据权利要求1步骤4所述行人重识别方法, 其特征在于, 所述信息投影模块 (IProjM)主要是将 两种模态的信息互相通过 投影方式传递到对方模态, 目的是能够更好的 将两种模态的信息匹配: fp=IProjM(fo, ft) 其中, fo为源模态下的特征信息, ft为目标模态下的特征信息, fp为源模态在目标模态 下的特征信息, 4种特 征信息投影到对应模态 表示为: 其中, 为视觉全局特征投影在文本模态所得到新的特征信息, 为文本全局特征投 影在视觉模态所得到新的特征信息, 为视觉局部 特征投影在文本模态所得到新的特征信 息, 为文本局部特 征投影在视 觉模态所 得到新的特 征信息; 将两种粒度特 征融合得到: 。 8.根据权利要求1步骤4所述行人重识别方法, 其特征在于, 所述文本与视觉的全局与 局部特征均采用欧氏距离来计算文本与视觉两模态间的相似性, 两模态全局特征的相似性 为: 两模态局部特 征的相似性 为:权 利 要 求 书 2/3 页 3 CN 115082967 A 3

PDF文档 专利 基于图像色域分布自适应调整的文本行人重识别算法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于图像色域分布自适应调整的文本行人重识别算法 第 1 页 专利 基于图像色域分布自适应调整的文本行人重识别算法 第 2 页 专利 基于图像色域分布自适应调整的文本行人重识别算法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。