(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211149191.9
(22)申请日 2022.09.21
(65)同一申请的已公布的文献号
申请公布号 CN 115238130 A
(43)申请公布日 2022.10.25
(73)专利权人 之江实验室
地址 311121 浙江省杭州市余杭区之江实
验室南湖总部
(72)发明人 王聪 宋明黎
(74)专利代理 机构 北京志霖恒远知识产权代理
有限公司 1 1435
专利代理师 戴莉
(51)Int.Cl.
G06F 16/783(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/774(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(56)对比文件
CN 114064967 A,202 2.02.18
CN 114201621 A,202 2.03.18
CN 114037945 A,202 2.02.11
US 2013346077 A1,2013.12.26
US 2022180056 A1,202 2.06.09
黄培松等.基 于隐含主题协同注意力网络的
领域分类方法. 《中文信息学报》 .2020,(第02
期),第73 -79页.
王方圆等.基 于时空灰度 序特征的视频片段
定位算法. 《软件学报》 .2013,(第12期),第2 921-
2936页.
Ludan Ruan et al.Survey: Transformer
based video-langua ge pre-trai ning. 《AI
Open》 .202 2,
审查员 崔小利
(54)发明名称
基于模态定制协同注意力交互的时序语言
定位方法及装置
(57)摘要
本发明公开了基于模态定制协同注意力交
互的时序语言定位方法及装置, 包括以下步骤:
步骤S1: 构建数据集; 步骤S2: 提取视频表征; 步
骤S3: 得到多粒度查询表征Q; 步骤S4: 获取已语
义对齐视频表征; 步骤S5: 获得每一帧处的目标
片段时序边界回归值、 语义匹配分数和时序交并
比回归值; 步骤S6: 得到训练好的基于模态定制
协同注意力交互的时序语言定位模型; 步骤S7:
测试, 得到时序语言定位结果。 本发明将配备协
同注意力的Tran sformer架构用于时序语言定位
任务, 并设计了一种模态定制的双流协同注意力
交互层, 用于并行的视频流的多粒度协同注意力
交互和查询流的标准协同注意力交互, 本发明方
法实现简单, 手段灵活, 可显著提升时序语言定位任务性能。
权利要求书4页 说明书11页 附图2页
CN 115238130 B
2022.12.06
CN 115238130 B
1.一种基于模态定制协同注意力交互的时序语言定位方法, 其特征在于, 包括以下步
骤:
步骤S1: 获取成对的未剪辑视频 ‑文本查询数据, 构建时序语言定位任务的训练数据集
和测试数据集, 所述训练数据集中每样本由成对的未剪辑视频 ‑文本查询以及目标视频片
段相应的起始和结束时间标注组成, 所述测试数据集仅由未提供目标视频片段时间标注的
成对的未剪辑视频 ‑文本查询样本组成;
步骤S2: 基于所述时序语言定位任务中的每对未剪辑视频 ‑文本查询数据, 对未修剪视
频通过视频编码器提取视频表征V;
步骤S3: 基于所述时序语言定位任务中的每对未剪辑视频 ‑文本查询数据, 对文本查询
数据通过查询编码器提取单词级查询表征W和句子级查询表征qs, 所述单词级查询表征W和
所述句子级查询表征qs组合得到多粒度查询表征Q;
步骤S4: 将所述视频表征V和所述多粒度查询表征Q共同输入模态定制协同注意力交互
模块, 获取视频 ‑文本跨模态融合后已语义对齐视频表征;
所述步骤S4具体为: 将所述视频表征V和所述多粒度查询表征Q作为模态定制协同注意
力交互模块的输入, 依次经过所述模态定制协同注意力交互模块中的若干层模态定制的双
流协同注意力交互层进行跨模态融合, 得到对应层输出 的视频表征和多粒度查询表征, 最
后一层模态定制的双流协同注意力交 互层输出的视频表征作为已语义对齐视频表征;
所述模态定制的双流协同注意力交互层包括视频流的多粒度协同注意力交互和查询
流的标准协同注意力交 互, 具体实施过程 为:
视频流的多粒度协同注意力交互: 将前一模态定制的双流协同注意力交互层输出的视
频表征
和多粒度查询表 征
作为输入, 采用哈达玛乘积将所述视频表征
和所述多
粒度查询表征
中的句子级查询表征
进行粗粒度融合, 得到背景帧表征抑制的视频表
征
, 将所述背景帧表征抑制的视频表征
采用一块多头自注意力块进行模态内时序上下
文建模, 得到视频表征
; 再次将所述视频表征
作为查询, 将所述多粒度查询表征
中
的单词级查询表征
作为键和值, 采用一块多头交叉注意力块进行模态间的跨模态对
齐; 最后采用两层的前馈网络得到第
层模态定制的双流协同注意力交互层的视频表征输
出
;
查询流的标准协同注意力交互: 将前一模态定制的双流协同注意力交互层输出的视频
表征
和多粒度查询表征
作为输入, 将所述多粒度查询表 征
采用一块多头自注意
力块进行模态内时序上下文建模, 得到多粒度查询表征
; 将所述多粒度查询表征
作为
查询, 将所述视频表征
作为键和值, 采用一块多 头交叉注意力块进行模态间的跨模态对
齐; 最后采用两层的前馈网络得到第
层模态定制的双流协同注意力交互层的多粒度查询
表征输出
;
步骤S5: 根据跨模态融合后的已语义对齐视频表征, 采用包含稠密时序边界回归、 语义权 利 要 求 书 1/4 页
2
CN 115238130 B
2匹配分数预测以及交并比回归的多分支任务, 分别获得每一帧处的目标片段时序边界回归
值、 语义匹配分数和时序交并比回归值;
步骤S6: 对步骤S2 ‑步骤S5所组成的基于模态定制协同注意力交互的时序语言定位模
型, 利用所述训练数据集进行训练, 训练所采用的损失函数由边界损失、 语义匹配损失和交
并比回归损失三项组成, 并使用优化器进行模型参数 的更新, 得到训练好的基于模态定制
协同注意力交 互的时序语言定位模型;
步骤S7: 利用所述测试数据集对训练好的基于模态定制协同注意力交互的时序语言定
位模型进 行测试, 将所得到的具有最高置信度值的目标片段时序边界回归值作为所述测试
数据集的时序语言定位结果。
2.如权利要求1所述的一种基于模态定制协同注意力交互的时序语言定位方法, 其特
征在于, 所述 步骤S2具体包括以下子步骤:
步骤S21: 利用视频编码器 中视觉预训练模型以离线方式对未剪辑视频 ‑文本查询数据
中的未剪辑视频提取视频帧表征并均匀地采样T帧;
步骤S22: 将T帧视频帧表征通过视频编码器中若干配备残差连接的一维卷积块, 获取
序列长度为T且特 征维度为d的一组视频表征;
步骤S23: 将所述一组视频表征通过视频编码器 中若干自注意力块, 构建全局上下文时
序依赖建模的视频表征V。
3.如权利要求1所述的一种基于模态定制协同注意力交互的时序语言定位方法, 其特
征在于, 所述 步骤S3具体包括以下子步骤:
步骤S31: 利用查询编码器 中预训练词嵌入模型对未剪辑视频 ‑文本查询数据中的文本
查询数据提取每 个单词相应的词嵌入向量, 获取词嵌入向量序列;
步骤S32: 通过查询编码器中多层的双向长短时记忆网络对所述词嵌入向量序列进行
上下文编码, 获得总单词数为 L且特征维度为d的单词级查询表征W;
步骤S33: 将所述单词级查询表征中最后一个单词的前向隐状态向量和第一个单词的
后向隐状态向量进行拼接, 获得句子级查询表征qs;
步骤S34: 所述单词级查询表征W和所述句子级查询表征qs组合得到多粒度查询表征Q。
4.如权利要求1所述的一种基于模态定制协同注意力交互的时序语言定位方法, 其特
征在于, 所述 步骤S5具体包括以下子步骤:
步骤S51: 稠密时序边界回归任务: 将所述已语义对齐视频表征作为稠密时序边界回归
任务的输入, 采用两层的一维卷积, 经过第一层一维卷积后得到稠密时序边界回归的输出
表征Vd, 且最后一层 一维卷积用sigmoid函数激 活, 在视频每一帧处稠密回归当前帧到目标
视频片段的起始和结束时间点的归一 化距离, 获得每一帧处的目标片段时序边界回归值;
步骤S52: 语义匹配分数预测任务: 将所述已语义对齐视频表征作为语义匹配分数预测
任务的输入, 采用两层的一维卷积, 经过第一层一维卷积后得到语义匹配分数预测的输出
表征Vs, 且最后一层一维卷积不激活, 获得每一帧处的语义匹配分数;
步骤S53: 时序交并比回归任务: 将所述稠密时序边界回归任务的输出表征Vd和所述语
义匹配分数预测任务的输出表征Vs沿着通道维进行拼接, 得到的拼接表征作为交并比回归
任务的输入, 采用三层的一维卷积且最后一层用sigmoid函数激活, 获得每一帧处所回归目
标片段与标注目标片段的时序交并比回归值。权 利 要 求 书 2/4 页
3
CN 115238130 B
3
专利 基于模态定制协同注意力交互的时序语言定位方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:58:51上传分享