全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211043431.7 (22)申请日 2022.08.29 (71)申请人 京东方科技 集团股份有限公司 地址 100015 北京市朝阳区酒仙桥路10号 (72)发明人 王炳乾  (74)专利代理 机构 北京安信方达知识产权代理 有限公司 1 1262 专利代理师 陶丽 曲鹏 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G10L 15/26(2006.01) (54)发明名称 视频问答方法、 装置、 系统及存 储介质 (57)摘要 一种视频问答方法、 装置、 系统及存储介质, 包括: 针对输入的视频提取视频特征向量, 针对 问题文本与候选答案文本提取文本特征向量; 将 视频特征向量与文本特征向量进行拼接, 得到拼 接特征向量, 将拼接特征向量输入第一预训练模 型, 第一预训练模型通过自注 意力机制学习视频 特征向量和文本特征向量之间的跨模态信息, 得 到第二拼接特征向量; 将第二拼接特征向量分成 第二视频特征向量和第二文本特征向量, 并输入 模态融合模 型, 模态融合模型通过互注意力机制 对第二视频特征向量和第二文本特征向量进行 处理, 得到视频表达式和文本表达式, 并对视频 表达式和文本表达式分别进行池化并融合, 得到 融合特征向量; 根据融合特征向量预测正确的候 选答案。 权利要求书2页 说明书10页 附图4页 CN 115391511 A 2022.11.25 CN 115391511 A 1.一种视频问答方法, 其特 征在于, 包括: 针对输入的视频提取视频特征向量, 针对问题文本与候选答案文本提取文本特征向 量, 其中, 所述问题文本用于描述问题, 所述候选答案文本用于提供多个候选答案; 将所述 视频特征向量与所述文本特征向量进行拼接, 得到拼接特征向量, 将所述拼接特征向量输 入第一预训练模型, 所述第一预训练模型通过自注意力机制, 学习 所述视频特征向量和所 述文本特 征向量之间的跨模态信息, 得到编码后的第二 拼接特征向量; 将所述第二拼接特征向量分成第 二视频特征向量和第 二文本特征向量; 将所述第 二视 频特征向量和第二文本特征向量输入模态融合模型, 所述模态融合模型通过互注意力机 制, 对所述第二视频特征向量和第二文本特征向量进行处理, 得到视频表达式和文本表达 式, 并对视频表达式和文本表达式分别进行池化并融合, 得到融合特 征向量; 将所述融合特 征向量输入解码层, 以预测正确的候选答案 。 2.根据权利要求1所述的视频问答方法, 其特征在于, 所述针对输入的视频提取视频特 征向量, 包括: 以预设速度对输入的视频进行抽帧, 采用第 二预训练模型对抽取出的帧提取视频特征 向量。 3.根据权利要求1所述的视频问答方法, 其特征在于, 所述针对问题文本与候选答案文 本提取文本特 征向量, 包括: 根据所述问题文本与候选答案文本生成序列串, 所述序列串包括多个序列, 所述问题 文本与候选答案文本中的每 个单词或字符对应一个或多个序列; 将所述序列串输入所述第一预训练模型, 得到文本特 征向量。 4.根据权利要求1所述的视频问答方法, 其特 征在于, 所述方法 之前还包括: 构建所述第一预训练模型并进行初始化; 通过多个自监督任务对所述第 一预训练模型进行预训练, 多个所述自监督任务包括标 签分类任务、 掩码语言模任务和掩码帧模任务, 所述标签分类任务用于对视频进行多标签 分类, 所述掩码语言模任务用于对文本进行随机屏蔽并预测屏蔽词, 所述掩码帧模任务用 于对视频帧进行随机屏蔽并预测屏蔽帧; 通过多个所述自监 督任务的损失加权和, 计算所述第一预训练模型的损失。 5.根据权利要求4所述的视频问答方法, 其特征在于, 基于二元交叉熵计算所述标签分 类任务和掩码语言模 任务的损失, 基于噪声对比估计 计算所述掩码帧模 任务的损失。 6.根据权利要求1所述的视频问答方法, 其特征在于, 所述第 一预训练模型为24层的深 度Transformer编码器级联神经网络, 隐藏层维度为1024, 注意力头数为16, 通过来自 Transformers的双向编码器表示BERT预训练出的参数对所述第一预训练模型进行初始化。 7.根据权利要求1所述的视频问答方法, 其特征在于, 所述通过互注意力机制, 对所述 第二视频 特征向量和第二文本特 征向量进行处 理, 包括: 将所述第二视频特征向量作为查询向量, 将所述第 二文本特征向量作为键向量和值向 量, 进行多头注意力; 将所述第二文本特征向量作为查询向量, 将所述第 二视频特征向量作为键向量和值向 量, 进行多头注意力。 8.根据权利要求1所述的视频问答方法, 其特 征在于, 所述方法 之前还包括:权 利 要 求 书 1/2 页 2 CN 115391511 A 2接收用户的语音输入; 通过语音识别, 将所述语音输入转换为所述问题文本 。 9.根据权利要求1所述的视频问答方法, 其特 征在于, 所述方法 之前还包括: 获取所述问题文本; 根据所述问题文本, 生成与所述问题文本对应的所述 候选答案文本 。 10.根据权利要求9所述的视频问答方法, 其特征在于, 所述根据 所述问题文本, 生成与 所述问题文本对应的所述 候选答案文本, 包括: 通过关键词匹配或注意力 机制模型, 从常识知识图谱中查询与 所述问题文本匹配的三 元组; 根据匹配的所述 三元组, 生成与所述问题文本对应的所述 候选答案文本 。 11.根据权利要求1所述的视频问答方法, 其特 征在于, 所述方法还 包括: 对所述视频特征向量和/或所述文本特征向量进行处理, 以使得在将所述视频特征向 量与所述文本特征向量进 行拼接时, 所述视频特征向量的维度和所述文本特征向量的维度 相同。 12.一种视频问答装置, 其特征在于, 包括存储器; 和耦接至所述存储器的处理器, 所述 处理器被配置为基于存储在所述存储器中的指令, 执行如权利要求1至11中任一项所述的 视频问答方法的步骤。 13.一种存储介质, 其特征在于, 其上存储有计算机程序, 该程序被处理器执行时实现 如权利要求1至1 1中任一项所述的视频问答方法。 14.一种视频问答系统, 其特征在于, 包括视频问答装置、 监控系统、 语音识别装置、 语 音输入装置和知识库, 其中: 所述监控系统, 被配置为获取一个或多个监控视频, 根据指令文本对所述监控视频进 行处理, 并将所述 监控视频输出至所述视频问答装置; 所述语音输入 装置, 被配置为接收语音输入, 并输出至语音识别装置; 所述语音识别装置, 被配置为通过语音识别, 将语音输入转换为指令文本或问题文本, 将所述指令文本 输入所述 监控系统, 将所述问题文本 输入所述视频问答装置; 所述知识库, 被 配置为存 储常识知识图谱; 所述视频问答装置, 被配置为接收问题文本和监控视频, 根据所述问题文本生成候选 答案文本, 其中, 所述问题文本用于描述问题, 所述候选答案文本用于提供多个候选答案; 还被配置为对接收的监控视频提取视频特征向量, 针对所述问题文本与候选答案文本提取 文本特征向量, 将所述视频特征向量与文本特征向量进 行拼接, 得到拼接特征向量, 将所述 拼接特征向量输入第一预训练模型, 所述第一预训练模型通过自注意力机制, 学习 所述视 频特征向量和所述文本特征向量之间的跨模态信息, 得到编码后的第二拼接特征向量; 将 所述第二拼接特征向量分成第二视频特征向量和 第二文本特征向量; 将所述第二视频特征 向量和第二文本特征向量输入模态融合模型, 所述模态融合模型采用互注意力机制, 对第 二视频特征向量和第二文本特征向量进行处理, 得到视频表达式和文本表达式, 并对视频 表达式和文本表达式分别进行池化并融合, 得到融合特征向量; 将所述融合特征向量输入 解码层, 以预测正确的候选答案 。权 利 要 求 书 2/2 页 3 CN 115391511 A 3

.PDF文档 专利 视频问答方法、装置、系统及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频问答方法、装置、系统及存储介质 第 1 页 专利 视频问答方法、装置、系统及存储介质 第 2 页 专利 视频问答方法、装置、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:44:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。