全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210867181.2 (22)申请日 2022.07.22 (71)申请人 华中科技大 学 地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 李玉华 杜畅 李瑞轩 辜希武  (74)专利代理 机构 华中科技大 学专利中心 42201 专利代理师 尹丽媛 (51)Int.Cl. G06F 16/735(2019.01) G06F 16/75(2019.01) G06F 16/783(2019.01) G06F 16/65(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01) G06V 10/764(2022.01) (54)发明名称 一种融合情感信息的多模态短视频标签推 荐方法 (57)摘要 本发明公开了一种融合情感信息的多模态 短视频标签推荐方法, 属于视频处理技术领域, 包括: 构建短视频样本集; 将短视频样本输入基 于多头注意力机制和自编码器的初始多模态标 签推荐模型, 以使其对短视频样本的图像、 音频、 文本进行特征提取得到内容特征和情感特征, 并 利用注意力网络进行融合得到多个候选视频标 签; 以期望视频标签为目标, 以候选视频标签与 期望视频标签的文字特征区别为损失, 训练初始 多模态标签推荐模型得到目标多模态标签推荐 模型; 将当前短视频输入目标多模态标签推荐模 型以使其生成目标视频标签。 本发 明通过融合图 像特征、 音频特征 以及文本特征, 能够充分利用 视频相关的多模态信息, 有效提高所生成的视频 标签的质量。 权利要求书2页 说明书9页 附图3页 CN 115329127 A 2022.11.11 CN 115329127 A 1.一种融合情感信息的多模态短视频 标签推荐方法, 其特 征在于, 包括: S1: 构建短视频样本集, 各短视频样本的标签包括对应的多个平台标签, 且其属性包括 对应的图像特 征、 音频特征以及文本特 征; S2: 将所述短视频样本输入基于多头注意力 机制和自编码器的初始多模态标签推荐模 型, 以使其对 所述短视频样 本的图像、 音 频、 文本进 行特征提取, 得到内容特征和情感特征, 并利用注意力网络进行融合得到多个候选视频标签; 以期望视频标签为 目标, 以所述候选 视频标签与所述期 望视频标签的文字特征区别为损失, 训练所述初始多模态 标签推荐模型 得到目标多模态标签 推荐模型; S3: 将当前短视频输入所述目标多模态标签 推荐模型以使其 生成目标视频 标签。 2.如权利要求1所述的融合情感信 息的多模态短视频标签推荐方法, 其特征在于, 所述 短视频样本集包括训练集、 验证集和 测试集; 所述S2包括: S21: 将所述训练集输入所述初始多模态标签推荐模型; 所述初始多模态标签推荐模型 包括: 内容特 征提取模块、 情感特 征提取模块和标签预测模块融合; S22: 利用所述内容特征提取模块中的预训练模型对所述训练集的图像模态和音频模 态进行特征提取, 再提取文本特征, 利用多模态Transfomer模 型对图像特征、 音 频特征和文 本特征进行融合得到对应的内容特 征; S23: 利用所述情感特征提取模块中的预训练模型对所述训练集的图像模态和音频模 态进行特征提取, 再提取文本特征, 再利用多头注意力机制对图像特征、 音频特征和文本特 征进行融合得到对应的情感特 征; S24: 利用所述标签预测模块融合所述训练集对应的内容特征、 情 感特征和标签文本特 征得到短视频融合特征, 并根据所述短视频融合特征生成若干个候选视频标签; 计算各个 所述候选视频标签和真实视频标签之间文字特征 的误差, 以便于通过不断迭代训练, 缩小 所述损失; S25: 利用所述验证集和所述测试集分别对训练过程中的初始多模态标签推荐模型进 行验证和测试, 将通过验证和测试的初始多模态标签推荐模型作为所述目标多模态标签推 荐模型。 3.如权利要求2所述的融合情感信 息的多模态短视频标签推荐方法, 其特征在于, 所述 内容特征提取模块基于模态Transfomer结构; 所述情感特征提取模块基于跨模态的多头注 意力结构; 所述标签预测模块基于注意力网络 。 4.如权利要求3所述的融合情感信 息的多模态短视频标签推荐方法, 其特征在于, 所述 内容特征提取模块包括依次连接的: 编 码器层、 堆叠块层和融合层; 所述编 码器层用于对不 同模态信息进行编码, 所述堆叠块层用于进行带有注意力机制的模态表示; 所述融合层用 于对跨模态信息进行融合得到最终的内容特征表示; 其中, 所述堆叠块层中对每个模态都 采用个堆叠块实现带有注意力机制的特征表示, 所述堆叠块包括多头注意力机制、 跨注意 力机制以及两个前馈神经网络 。 5.如权利要求3所述的融合情感信 息的多模态短视频标签推荐方法, 其特征在于, 所述 情感特征提取模块通过多模态多头注意力框架MMFA将图像特征、 音频特征以及 文本特征进 行模态间的特 征融合, 得到所述短视频样本对应的情感表示向量; 其中, MMFA中包括多头自注意力机制和多头共注意力机制。权 利 要 求 书 1/2 页 2 CN 115329127 A 26.如权利要求2所述的融合情感信 息的多模态短视频标签推荐方法, 其特征在于, 所述 S21之前, 所述S2还 包括: 通过完整性检查剔除无法正常播放的视频样本; 过滤掉时长低于时长阈值、 推文信息 低于字数阈值和/或缺失音频通道的视频样本 。 7.如权利要求1所述的融合情感信 息的多模态短视频标签推荐方法, 其特征在于, 所述 以使其对所述短视频样本的图像、 音频、 文本进行特征提取, 得到内容特征和情感特征, 包 括: 按照预设时间间隔T将所述短视频样本的音频数据划分为音频分段, 分别提取各音频 分段的特 征后, 按时间顺序将其组合 为音频特征; 按照预设视频帧数N从所述短视频样本的图像数据中抽取一帧图像, 分别对各帧图像 进行特征提取后, 按时间顺序将其组合 为图像特 征; 利用所述短视频样本的推文信 息以及原始标签信 息构建词库, 利用预训练语言模型将 所述词库中的单词表示为向量并对其进行特征提取得到文字特征; 其中, 针对长度大于长 度阈值的连接词, 利用分词工具进行分词 再通过所述预训练语言模型得到特征后, 进行平 均化得到上 下文特征。 8.如权利要求7所述的融合情感信 息的多模态短视频标签推荐方法, 其特征在于, 所述 利用所述短视频样本的推文信息以及原 始标签信息构建词库, 包括: 统计所述短视频样本的所有推文信息以及标签信息, 将其依次进行对齐、 分词和 统计 词频; 按照所述词频从 高到低的顺序对 各单词进 行排序, 取词频高于N次的单词构建所述词 库, N为预设的比例参数。 9.如权利要求8所述的融合情感信 息的多模态短视频标签推荐方法, 其特征在于, 所述 利用所述短视频样本的推文信息以及原始标签信息构建词库, 还包括: 过滤所述推文信息 以及原始标签信息中的非英文字符; 对相同词根的英文单词进行词根还原; 对于长度大于 长度阈值的连接词进行分词, 得到若干个单独单词。 10.一种电子设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115329127 A 3

PDF文档 专利 一种融合情感信息的多模态短视频标签推荐方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合情感信息的多模态短视频标签推荐方法 第 1 页 专利 一种融合情感信息的多模态短视频标签推荐方法 第 2 页 专利 一种融合情感信息的多模态短视频标签推荐方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。