全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210210095.4 (22)申请日 2022.03.04 (71)申请人 北方工业大 学 地址 100144 北京市石景山区晋元庄路5号 北方工业大 学 (72)发明人 刘志 张萌萌  (51)Int.Cl. G06F 16/78(2019.01) G06F 16/783(2019.01) G06V 10/44(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多模态特征融合的高效视频检索模型 (57)摘要 本文提出了一种视频检索框架, 其包括: 视 频编码器, 其获得输入视频的视频特征表示, 包 括: 多个NetVLAD网络, 每个NetVLAD网络包括卷 积神经网络(CNN)和NetVLAD层, 联接器, 其接收 所述多个NetVLAD网络的输 出, 全连接网络, 其接 收所述联接器的输出; 文本编码器, 其获得输入 文本的文本特征表示; 相似度计算单元, 其计算 所述视频特征表示与所述文本特征表示之间的 相似度, 以用于确定 视频和文本的匹配 。 权利要求书2页 说明书11页 附图2页 CN 114564616 A 2022.05.31 CN 114564616 A 1.一种用于检索视频的方法, 包括: 使用视频编码器来获得输入视频的视频 特征表示, 所述视频编码器包括: 多个NetVLAD网络, 每个NetVLAD网络包括卷积神经网络(CNN)和NetVLAD层, 所述CNN用 于提取所述输入视频中的多种模态中的一种特定模态, 并且所述NetVLAD层用于将由对应 的CNN所提供的对应模态中的多个特 征进行融合, 接收所述多个Net VLAD网络的输出的联接器, 接收所述联接器的输出的全连接网络; 使用文本编码器来获得输入文本的文本特 征表示; 计算所述视频 特征表示与所述文本特 征表示之间的相似度。 2.一种视频检索框架, 包括: 视频编码器, 其获得输入视频的视频 特征表示, 包括: 多个NetVLAD网络, 每 个NetVLAD网络包括卷积神经网络(CN N)和NetVLAD层, 联接器, 其接收所述多个Net VLAD网络的输出, 全连接网络, 其接收所述联接器的输出; 文本编码器, 其获得输入文本的文本特 征表示; 相似度计算单元, 其计算所述视频特征表示与所述文本特征表示之间的相似度, 以用 于确定视频和文本的匹配。 3.如权利要求1所述的方法或如权利要求2所述的框架, 其中, 所述全连接网络是两层全连接网络 。 4.如权利要求1所述的方法或如权利要求2所述的框架, 或者如权利要求3所述的方法 或框架, 其中, 所述文本编码器采用CL IP文本编码器。 5.如权利要求1所述的方法或如权利要求2所述的框架, 或者如权利要求3或4所述的方 法或框架, 其中, 使用余弦相似度来计算所述相似度。 6.如权利要求1所述的方法或如权利要求2所述的框架, 或者如权利要求3 ‑5所述的方 法或框架, 其中, 所述视频编码器还 包括: 门控模块, 其接收全连接网络的输出, 并输出所述视频特征表示, 其中, 所述门控模块 用于: 对来自所述全连接网络的输出中的特 征的多个维度之间进行非线性互作用, 使用自我 门控机制来重新所述特 征的不同激励, 以及 执行L2归一 化。 7.一种计算机可读存储介质, 其存储了用于执行视频检索的代码, 所述代码当被执行 时, 能够实现如权利要求1、 3 ‑6所述的方法或如权利要求2 ‑6所述的框架。 8.一种用于对视频检索框架进行训练的两步训练方法, 包括: 第一步, 冻结文本编码器的参数, 使用训练集仅对视频编码器的参数进行训练; 以及 第二步, 使用所述训练集, 对所述文本编码器的参数和所述视频编码器的参数进行微 调。 9.如权利要求8所述的两步训练方法, 其中, 所述文本编码器采用已经预先训练 的文本权 利 要 求 书 1/2 页 2 CN 114564616 A 2编码器, 所述视频编码器在训练前被随机初始化。 10.如权利要求8或9所述的两步训练方法, 其中, 所述视频检索框架包括: 所述视频编码器, 其获得输入视频的视频 特征表示; 所述文本编码器, 其获得输入文本的文本特 征表示; 以及 相似度计算单 元, 其计算所述视频 特征表示与所述文本特 征表示之间的相似度。权 利 要 求 书 2/2 页 3 CN 114564616 A 3

PDF文档 专利 基于多模态特征融合的高效视频检索模型

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多模态特征融合的高效视频检索模型 第 1 页 专利 基于多模态特征融合的高效视频检索模型 第 2 页 专利 基于多模态特征融合的高效视频检索模型 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。