金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210633637.9 (22)申请日 2022.06.06 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 唐小初 张祎頔 舒畅 陈又新  (74)专利代理 机构 深圳市明日今典知识产权代 理事务所(普通 合伙) 44343 专利代理师 王杰辉 熊成龙 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06F 16/33(2019.01)G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于双模态特征融合的问答方法、 装置、 设 备和存储介质 (57)摘要 本申请涉及语音语义领域, 提供基于双模态 特征融合的问答方法、 装置、 设备和存储介质, 其 中方法包括: 获取输入图像和输入问句, 通过已 训练的图像检测模型提取所述输入图像的目标 区域特征, 将目标区域特征输入已训练的卷积神 经网络, 得到平均图像特征。 对所述输入问句进 行词性标注, 得到标注问句。 通过已训练的文本 检测模型提取标注问句的词向量, 得到平均文本 特征。 将平均图像特征和平均文本特征进行特征 融合, 得到融合特征。 将融合特征输入到长短期 记忆神经网络进行解码, 得到答案文本。 平均图 像特征不包含背景, 噪声含量比较低。 基于仅包 含提问词和相关名词得到的平均文本特征不受 其他词的影 响。 由平均图像特征和平均文本特征 得到的答案文本也较为 准确。 权利要求书2页 说明书9页 附图4页 CN 114972792 A 2022.08.30 CN 114972792 A 1.一种基于双模态特 征融合的问答方法, 其特 征在于, 包括: 获取输入图像和输入问句; 通过已训练的图像检测模型提取所述输入图像的目标区域特征, 将所述目标区域特征 输入已训练的卷积神经网络, 得到平均图像特 征; 对所述输入问句进行词性标注, 得到标注问句; 通过已训练的文本检测模型提取 所述标注问句的词向量, 得到平均文本特 征; 将所述平均图像特 征和所述平均文本特 征进行特征融合, 得到融合特 征; 将所述融合特 征输入到 长短期记 忆神经网络进行解码, 得到答案文本 。 2.根据权利要求1所述的基于双模态特征融合的问答方法, 其特征在于, 所述目标区域 特征包括目标区域 坐标和目标区域图像; 所述通过已训练的图像 检测模型提取 所述输入图像的目标区域特 征, 包括: 获取所述输入图像的检测区域; 提取所述检测区域的图像 类别, 提取 所述检测区域的置信度; 筛选出所述图像类别为目标类别, 且所述置信度 大于或等于置信度阈值的目标检测区 域; 提取所述目标检测区域的所述目标区域 坐标; 根据所述目标区域 坐标提取 所述目标区域图像。 3.根据权利要求1所述的基于双模态特征融合的问答方法, 其特征在于, 所述将所述目 标区域特 征输入已训练的卷积神经网络, 得到平均图像特 征, 包括: 将所述目标区域特 征输入已训练的卷积神经网络, 得到图像特 征; 计算所述图像特 征的平均值, 得到平均图像特 征。 4.根据权利要求1所述的基于双模态特征融合的问答方法, 其特征在于, 所述对所述输 入问句进行词性标注, 得到标注问句, 包括: 使用词类标注器将所述输入问句进行拆分, 得到拆分词; 对所有所述拆分词进行词性标注, 得到标注问句。 5.根据权利要求1所述的基于双模态特征融合的问答方法, 其特征在于, 所述通过已训 练的文本检测模型提取 所述标注问句的词向量, 得到平均文本特 征, 包括: 通过所述已训练的文本检测模型提取 所述标注问句的提问词和相关名词; 将所述提问词和所述相关名词转换为词向量; 计算所述词向量的平均值, 得到所述平均文本特 征。 6.根据权利要求1所述的基于双模态特征融合的问答方法, 其特征在于, 所述将所述平 均图像特 征和所述平均文本特 征进行特征融合, 得到融合特 征, 包括: 通过多模态塔克融合、 多模态双线性融合或线性融合将所述平均图像特征和所述平均 文本特征进行特征融合, 得到所述融合特 征。 7.根据权利要求3所述的基于双模态特征融合的问答方法, 其特征在于, 所述已训练 的 卷积神经网络, 包括: 输入层, 所述输入层用于对所述目标区域特 征进行预处理, 得到预处 理特征; 隐含层, 所述隐含层用于对所述预处 理特征进行卷积、 激活和池化, 得到隐含层输出; 全连接层, 所述全连接层用于整合所述隐含层输出, 得到整合特 征;权 利 要 求 书 1/2 页 2 CN 114972792 A 2输出层, 所述输出层用于对所述整合特 征进行分类, 得到所述图像特 征。 8.一种基于双模态特 征融合的问答装置, 其特 征在于, 包括: 图像与问句获取模块、 目标区域特征提取模块、 平均图像特征提取模块、 词性标注模 块、 文本检测模块、 特 征融合模块和特 征解码模块; 所述图像与问句获取模块, 用于获取输入图像和输入问句; 所述目标区域特征提取模块, 用于通过已训练的图像检测模型提取所述输入图像的目 标区域特 征; 所述平均图像特征提取模块, 用于将所述目标区域特征输入已训练的卷积神经网络, 得到平均图像特 征; 所述词性标注模块, 用于对所述输入问句进行词性标注, 得到标注问句; 所述文本检测模块, 用于通过已训练的文本检测模型提取所述标注问句的词向量, 得 到平均文本特 征; 所述特征融合模块, 用于将所述平均图像特征和所述平均文本特征进行特征融合, 得 到融合特 征; 所述特征解码模块, 用于将所述融合特征输入到长短期记忆神经网络进行解码, 得到 答案文本 。 9.一种计算机设备, 包括存储器和处理器, 所述存储器中存储有计算机程序, 其特征在 于, 所述处理器执行所述计算机程序时实现权利要求 1至7中任一项 所述的基于双 模态特征 融合的问答方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的基于双模态特征融合的问答方法的步 骤。权 利 要 求 书 2/2 页 3 CN 114972792 A 3

PDF文档 专利 基于双模态特征融合的问答方法、装置、设备和存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于双模态特征融合的问答方法、装置、设备和存储介质 第 1 页 专利 基于双模态特征融合的问答方法、装置、设备和存储介质 第 2 页 专利 基于双模态特征融合的问答方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。