金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211020415.6 (22)申请日 2022.08.24 (71)申请人 广州方图科技有限公司 地址 510000 广东省广州市黄埔区科 学城 玉树工业园富康西街9号S6 -1栋202房 (72)发明人 朱锦钊 于鹏 刘帅 林铠骏  (74)专利代理 机构 广东金穗知识产权代理事务 所(普通合伙) 44852 专利代理师 钟文华 (51)Int.Cl. H04N 5/232(2006.01) G07F 17/26(2006.01) G06V 40/10(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06T 5/00(2006.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 40/20(2022.01) (54)发明名称 适用于拍立方的自动拍照控制方法、 系统及 拍立方 (57)摘要 本发明公开了一种适用于拍立方的自动拍 照控制方法, 包括: S1、 基于YOL O的手势检测模型 对摄像头获取的视频流的前N帧图像进行手势检 测, 得到手部区域; N≥3; S2、 利用卡尔曼滤波对 所述手部区域的目标运动状态建模, 实时跟踪预 测其在下一帧中的位置, 得到待识别对象手势; S3、 将所述待识别对象手势与预设的手势模板库 中的参照手势进行比对以计算相似度; 当计算得 到的相似度大于设定阈值时, 将所述待识别对象 手势判定为拍照触发手势, 并启动拍照倒计时; 否则返回步骤S1; S4、 在所述拍照倒计时结束时, 控制所述相机进行拍照, 得到原始图像; S5、 利用 构建的生成式对抗网络对所述原始图像进行人 脸美化处 理, 得到处 理后的目标图像并输出。 权利要求书7页 说明书15页 附图4页 CN 115297263 A 2022.11.04 CN 115297263 A 1.一种适用于拍立方的自动拍照控制方法, 其中, 所述拍立方包括控制处理器以及分 别与所述控制处 理器通信的摄 像头和相机, 其特 征在于, 所述自动拍照控制方法包括: S1、 基于YOLO的手势检测模型对摄像头获取的视频流的前N帧图像进行手势检测, 得到 手部区域; N≥3; S2、 利用卡尔曼滤波对所述手部区域的目标运动状态建模, 实时跟踪预测其在下一帧 中的位置, 得到待识别对象手势; S3、 将所述待识别对象手势与预设的手势模板库中的参照手势进行比对以计算相似 度; 当计算得到的相似度大于 设定阈值时, 将所述待识别对象手势判定为拍照触发手势, 并 启动拍照 倒计时; 否则返回步骤S1; S4、 在所述拍照 倒计时结束时, 控制所述相机进行拍照, 得到原 始图像; S5、 利用构建的生成式对抗网络对所述原始图像进行人脸美化处理, 得到处理后的目 标图像并输出。 2.如权利要求1所述的适用于拍立方的自动拍照控制方法, 其特 征在于, 在所述步骤S1中, 所述手势检测模型包括输入单元、 编码器和解码器, 所述输入单元用 于输入所述摄像头获取的视频流的前N帧图像, 所述编 码器用于对所述前N帧图像进 行特征 提取和特征融合, 获得具有 更加丰富信息的特征图; 所述解码器将特征图解码为检测结果, 从而获得手部区域; 基于预设的手势检测训练数据集优化以下公式(1 ‑1)的损失函数L, 通过梯度下降法不 断迭代训练, 得到最优的检测结果: 其中, S2表示输出层特征 图大小, 即输入图像划分成网格的数量; B为每个网格Anchor 的数量, 表示第i个网格中的第j个Anchor是否负责这个对象预测, 选择与真实框IoU最 大的那个作为预测框; 表示第i个网格中的第j个Anchor表示对这个物体预测不负责; xi,yi,wi,hi和 分别表示每个真实标签和 预测边框的中心坐标及宽和高, 均在0 到1之间, xi,yi, 为相对单元格偏移量; Ci和 分别表示真实框置信度和预测框置信 度; pi(c)和 表示对应单元格真实物体类别概率和预测类别概率; classes表示物体类 别数量; λcoord和 λnoobj分别表示边界框坐标预测的损失权重和 不包含物体的边界框的置信 度预测损失权 重。 3.如权利要求1所述的适用于拍立方的自动拍照控制方法, 其特 征在于, 在所述步骤S2中, 卡尔曼滤波包括预测和更新过程, 预测是根据前一时刻状态估计当 前状态, 而更新则是根据观测值修正预测信息, 从而估计出最优状态; 具体包括如下公式 (1‑2)~公式(1 ‑6):权 利 要 求 书 1/7 页 2 CN 115297263 A 2预测过程: 更新过程: 其中, 表示由前一个状态得出的预测估计; 表示对 更新之后的最优估计; A表示 状态转移矩阵; H表示观测矩阵; B表示输入控制矩阵; ut表示系统外部控制 量; Q和R分别表 示动态噪声协方差矩阵和测量噪声协方差矩阵; Kt表示t时刻的卡尔曼增益; 表示预测误 差协方差矩阵; Σt表示滤波误差协方差矩阵; 根据上述过程, 利用摄像头获取的视频流的前N帧图像检测得到的手部区域边界框进 行跟踪器 状态初始化, 之后不断预测估计目标在下一帧中的位置, 实现实时跟踪。 4.根据权利要求1所述的适用于拍立方的自动拍照控制方法, 其特 征在于, 在所述步骤S3 中, 首先将带有所述待识别 对象手势的待识别图片与手势模板库中的参 照手势图片缩放到相同大小, 然后根据以下公 式(1‑7)计算欧式距离, 找出欧式距离最小的 参照手势图片作为相似度最高的参照手势图片: 其中, x表示为待识别图片, T表示手势模板库中的参照 手势图片集合, t表示集合T中的 元素, t*为欧式距离最小的元 素; 若找出的t*的欧式距离小于预设阈值, 则判定t*与所述待识别对象手势的待识别图片 的相似度大于设定阈值, 从而所述待识别对象手势判定为拍照触发手势。 5.根据权利要求1所述的适用于拍立方的自动拍照控制方法, 其特 征在于, 在所述步骤S5中, 所述生成式对抗网络包括生成器和判别器, 所述生成器的实现过程 如下公式(2 ‑1)所示, G(X)=F(X)+X                    (2‑1) X为输入的原始图像, F(X)为原始图像X经过特征学习模块F处理后得到的输出, 所述特 征学习模块F主要采用一种稀疏的连接的并行结构来提取特征, 输入的原始图像X经卷积池 化减少到原 来的1/4的大小, 之后在主干路径上保持分辨率不变, 分支上分辨率为主支路的 1/2, 学习高级的语义特 征, 最后与拥有丰富结构信息的主支路混合并输出; 所述判别器D(X)的输入为X、 G(X), 经多层卷积提取特征之后, 得到一个感受野比较大 的分辨率比较小的特 征图, 并将其平均值后作为判别器得分。 6.根据权利要求5所述的适用于拍立方的自动拍照控制方法, 其特 征在于, 在整个模型训练过程中, D(X)采用二元交叉熵作为损失函数; 为了更好的生成所需的 目标图像, 生 成器的损失目标在GANLoss基础上, 加三个正则化项, 计算数值距离的L 1损失,权 利 要 求 书 2/7 页 3 CN 115297263 A 3

PDF文档 专利 适用于拍立方的自动拍照控制方法、系统及拍立方

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 适用于拍立方的自动拍照控制方法、系统及拍立方 第 1 页 专利 适用于拍立方的自动拍照控制方法、系统及拍立方 第 2 页 专利 适用于拍立方的自动拍照控制方法、系统及拍立方 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。