专利基于多模态特征融合的高效视频检索模型

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210210095.4 (22)申请日 2022.03.04 (71)申请人北方工业大学地址 100144 北京市石景山区晋元庄路5号北方工业大学 (72)发明人刘志　张萌萌　 (51)Int.Cl. G06F 16/78(2019.01) G06F 16/783(2019.01) G06V 10/44(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多模态特征融合的高效视频检索模型 (57)摘要本文提出了一种视频检索框架，其包括：视频编码器，其获得输入视频的视频特征表示，包括：多个NetVLAD网络，每个NetVLAD网络包括卷积神经网络(CNN)和NetVLAD层，联接器，其接收所述多个NetVLAD网络的输出，全连接网络，其接收所述联接器的输出；文本编码器，其获得输入文本的文本特征表示；相似度计算单元，其计算所述视频特征表示与所述文本特征表示之间的相似度，以用于确定视频和文本的匹配。权利要求书2页说明书11页附图2页 CN 114564616 A 2022.05.31 CN 114564616 A 1.一种用于检索视频的方法，包括：使用视频编码器来获得输入视频的视频特征表示，所述视频编码器包括：多个NetVLAD网络，每个NetVLAD网络包括卷积神经网络(CNN)和NetVLAD层，所述CNN用于提取所述输入视频中的多种模态中的一种特定模态，并且所述NetVLAD层用于将由对应的CNN所提供的对应模态中的多个特征进行融合，接收所述多个Net VLAD网络的输出的联接器，接收所述联接器的输出的全连接网络；使用文本编码器来获得输入文本的文本特征表示；计算所述视频特征表示与所述文本特征表示之间的相似度。 2.一种视频检索框架，包括：视频编码器，其获得输入视频的视频特征表示，包括：多个NetVLAD网络，每个NetVLAD网络包括卷积神经网络(CN N)和NetVLAD层，联接器，其接收所述多个Net VLAD网络的输出，全连接网络，其接收所述联接器的输出；文本编码器，其获得输入文本的文本特征表示；相似度计算单元，其计算所述视频特征表示与所述文本特征表示之间的相似度，以用于确定视频和文本的匹配。 3.如权利要求1所述的方法或如权利要求2所述的框架，其中，所述全连接网络是两层全连接网络。 4.如权利要求1所述的方法或如权利要求2所述的框架，或者如权利要求3所述的方法或框架，其中，所述文本编码器采用CL IP文本编码器。 5.如权利要求1所述的方法或如权利要求2所述的框架，或者如权利要求3或4所述的方法或框架，其中，使用余弦相似度来计算所述相似度。 6.如权利要求1所述的方法或如权利要求2所述的框架，或者如权利要求3 ‑5所述的方法或框架，其中，所述视频编码器还包括：门控模块，其接收全连接网络的输出，并输出所述视频特征表示，其中，所述门控模块用于：对来自所述全连接网络的输出中的特征的多个维度之间进行非线性互作用，使用自我门控机制来重新所述特征的不同激励，以及执行L2归一化。 7.一种计算机可读存储介质，其存储了用于执行视频检索的代码，所述代码当被执行时，能够实现如权利要求1、 3 ‑6所述的方法或如权利要求2 ‑6所述的框架。 8.一种用于对视频检索框架进行训练的两步训练方法，包括：第一步，冻结文本编码器的参数，使用训练集仅对视频编码器的参数进行训练；以及第二步，使用所述训练集，对所述文本编码器的参数和所述视频编码器的参数进行微调。 9.如权利要求8所述的两步训练方法，其中，所述文本编码器采用已经预先训练的文本权　利　要　求　书 1/2 页 2 CN 114564616 A 2编码器，所述视频编码器在训练前被随机初始化。 10.如权利要求8或9所述的两步训练方法，其中，所述视频检索框架包括：所述视频编码器，其获得输入视频的视频特征表示；所述文本编码器，其获得输入文本的文本特征表示；以及相似度计算单元，其计算所述视频特征表示与所述文本特征表示之间的相似度。权　利　要　求　书 2/2 页 3 CN 114564616 A 3

专利 基于多模态特征融合的高效视频检索模型

专利基于多模态特征融合的高效视频检索模型