全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210352426.8 (22)申请日 2022.04.05 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 申请人 国网江苏省电力有限公司电力科 学 研究院 (72)发明人 李露 李昕玮 王启鹏 华梓萱  魏素忠 周爱华 吴含前 陈锦铭  叶迪卓然 陈烨 焦昊 郭雅娟  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 杜静静 (51)Int.Cl. G06V 10/44(2022.01)G06V 10/30(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于区域感知对齐网络的多模态评价 对象抽取方法 (57)摘要 本发明公开了一种基于区域感知对齐网络 的多模态评价对象抽取方法, 该方法针对社交媒 体语料特点构建了具有编码层、 共同注意力层、 解码层的多模态评价对象抽取模 型, 在模型构建 过程中基于 社交媒体语料特点设置了RAN中超参 数, 包括句子长度、 单词长度等, 此外模型使用 Xavier方法进行参数初始化。 模型通过编码层分 别获得语料文本和图片特征, 之后通过共同注意 力层将文本和图片特征融合得到多模态特征序 列, 最后将所得到的多模态特征序列通过解码层 得到标签序列。 对比试验验证结果表明, 相较于 其他模型, 本发 明提出的多模态评价对象抽取模 型结果最优。 权利要求书2页 说明书11页 附图2页 CN 114693949 A 2022.07.01 CN 114693949 A 1.一种基于区域感知对齐网络的多模态评价对象抽取方法, 其特征在于, 该方法模型 包括编码层、 共同注 意力层以及解码层, 模 型使用Xavier方法进 行参数初始化, 模 型通过编 码层分别获得文本和图片特征, 通过共同注意力 层将文本和图片特征融合得到多模态特征 序列, 最后通过解码层由多模态特 征序列得到标签序列。 2.根据权利要求1所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述编码层包括BERT、 Char ‑CNN、 双向LSTM网络和Faster ‑RCNN共4部分, 所述 BERT部分引入外部信息, 所述Char ‑CNN部分进行字符级词向量编码, 所述双向LSTM网络从 BERT编码结果与Char ‑CNN编码结果拼接后序列中捕获文本序列信息, 所述Faster ‑RCNN捕 捉图片中出现的前 景物体作为相应的图片特 征。 3.根据权利要求2所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述BERT为BERT ‑base预训练模型, 包含12个Transformer层, 对BERT中12层 Transformer的输出向量做 平均作为BERT的最终输出, 得到的词向量维度为768, 句长为 40。 4.根据权利要求2所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述Char ‑CNN维度设置为30, 其初始化遵循( ‑0.25,0.25)的均匀分布, 词长为 30。 5.根据权利要求2所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述Faster ‑RCNN识别到的N个目标物体一维特征向量作为图片特征输入网络, 并将提取目标不足N的图片以零向量补齐。 6.根据权利要求1所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述共同注意力 层包括文字导向视觉注意力、 视觉导向文字注意力、 门控多模态 融合单元和过滤门, 所述文字导向视觉注意力和视觉导向文字注意力将文本和图片特征充 分交互, 并获得了序列任意时刻t时的文本注意力向量和图片注意力向量, 所述门控多模态 融合单元决定最 终的多模态表示分别从文本和图片中获得多少, 所述过滤门通过判断语料 中的图片和文本有 多大程度上的关联来决定如何使用上一 步获得的多模态特 征。 7.根据权利要求6所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述文字导向视 觉注意力得到t时间步时的图片注意力特 征如下式表示: 其中αt为t时间步对应的目标物体权重向量, αt,i为其中第i个值, vi为第i个位置的图片 特征。 8.根据权利要求6所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述视 觉导向文字注意力得到t时间步时的文本注意力特 征如下式表示: 其中βt为t时间步对应的文本权重向量, βt,j为其中第j个值, hj为第j个位置的文本特 征。 9.根据权利要求6所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其权 利 要 求 书 1/2 页 2 CN 114693949 A 2特征在于, 所述门控多模态融合单元首先 由全连接层将两模态向量转化至同一维度, 再分 别通过tanh激活函数进行激活, 之后通过一权重矩阵和Sigmoid激活函数获得其对于图片 向量的权重gt和对文本向量的权重1 ‑gt, 最后将两模态向量加权求和得到该时间步t上的多 模态最终表示mt。 10.根据权利要求6所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述过滤门在单词和图片毫无关联时禁止多模态特征流过, 在单词和图片相关 时视相关程度将多模态特 征汇入最终表示, 过 滤过程如下式表示: 其中st为过滤门, 其值在0和1之间, 若该单词和图片毫无关联, 则 过滤门禁止多模态特 征流过, 若单词和图片相关, 则过滤门视相关程度将多模态特征汇入最终表示, ut为经过滤 门过滤后的多模态表示, 为时间步t送入解码层的最终向量表示, 其中 和 为待训练参数, 操作符代 表连接操作, ht代表编码层的文本隐向量输出。 11.根据权利要求1所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述解码层为CRF模型, 对于序列长度为n, k种 候选类别的问题来说, CRF则将其 视作一个 kn分类问题, 即: 对 于序列x=(x1,…,xn), 找到条件概率P(y1,…,yn|x)最大的输出 序列。 12.根据权利要求1所述的一种基于区域感知对齐网络的多模态评价对象抽取方法, 其 特征在于, 所述模型训练时损失函数如下式表示: 其中YX为所有可能的标签序列, Y为真实标签序列, X为输入序列, score(x,y)表示输入 序列x时标签序列y的得分, N 为样本集的大小。权 利 要 求 书 2/2 页 3 CN 114693949 A 3

PDF文档 专利 一种基于区域感知对齐网络的多模态评价对象抽取方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于区域感知对齐网络的多模态评价对象抽取方法 第 1 页 专利 一种基于区域感知对齐网络的多模态评价对象抽取方法 第 2 页 专利 一种基于区域感知对齐网络的多模态评价对象抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。