全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210922723.1 (22)申请日 2022.08.02 (71)申请人 广西师范大学 地址 541004 广西壮 族自治区桂林市七 星 区育才路15号 (72)发明人 吴丽娟 陆广泉 李杰成 张魁  张桂衔  (74)专利代理 机构 桂林市华杰 专利商标事务所 有限责任公司 451 12 专利代理师 周雯 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/211(2020.01) G06F 40/284(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于知识增强句法异构图的方面级情感分 类方法 (57)摘要 本发明公开了一种基于知识增强句法异构 图的方面级情感分类方法, 包括如下步骤: 1) 数 据获取阶段; 2) 构建增强句法异构图阶段; 3) 获 得领域知识的局部语境下增强句法特征阶段; 4) 构建全局语义图特征阶段; 5) 特征自适应融合阶 段; 6) 特征向量输 出阶段; 7) 模型训练阶段。 这种 方法增强模 型的泛化能力, 提高对 方面文本的情 感分类能力。 权利要求书2页 说明书7页 附图1页 CN 115269847 A 2022.11.01 CN 115269847 A 1.一种基于知识增强句法异构图的方面级情感分类方法, 其特 征在于, 包括如下步骤: 1)数据获取阶段: 获取评论文本数据集; 获取外部情 感知识, 对获取的外部情 感知识进 行处理, 生成单词和分数的键值对文件; 2)构建增强句法异构 图阶段: 对于一个给定的句子, 通过spacy工具, 加载 “en_core_ web_sm”解析句子, 通过token.pos_属性得到句子中每个单词的词性信息, 将每个单词的词 性信息用一个pos列表保存, 计算句子长度通过n=len(pos)得到序列长度, 在构建异构图 时将名词、 副词和形容词信息拼接到矩阵中, 具体的, 构建一个全是1的初始化A矩阵, 大小 为 类型为float32, 然后遍历句子中的单词是否在情感词典中出现, 若出 现, 取出这个单词的情感分数Score, 转换为float类型, 否则, 将情感值赋值为0, 句子中的 每个单词视为一个节点, 将依赖树中词与词的依赖关系表示为边, 为了增强句 子的情感信 息表达, 使用Sent icNet5情感知识中情感词的得分, 丰富邻接矩阵的表 示, 若两个词之间存 在着依赖边, 这个边的值就为1+Score, 然后更新初始化A矩阵, 本次构图中, 认为存在依赖 关系的父节点和子节点之间的关系是相互的, 导出的增强依赖图为无向图Ai,j=Aj,i, 得到 增强的依赖图, 通过观察, 评论句子中的方面词的词性是名词居多, 而 方面词在情感分类任 务中是很重要的, 所以更加关注句 子中名词性的单词, 一个句 子中对方面词的描述通常为 形容词, 所以, 形容词在句子中也很重要, 评论句 子中会出现肯定或者否定的副词, 出现否 定副词“不、 没”的时候, 方面词的情感极性会相反, 具体的, 利用列表m保存名词 “NOUN”和形 容词“ADJ”、 副词“ADP”的名称, 遍历句子若pos[i]= “NOUN”, Ai,‑3的值置为1, 若pos[i]= “ADJ”, Ai,‑2的值置为1, 若pos[i]= “ADP”, Ai,‑1的值置为1, 最后导出句子的增强句法异构图 矩阵 3)获得领域知识的局部语境下增强句法特征阶段: 利用Tokenizer4Bert将[CLS]+文本 +[SEP]形式的输入生成向量, 在通过pad_and_truncate将向量填充到同样长度, 为如下E的 形式, E={w1,..,wi.,wa1,wai,...,wk}, 其中k为设定的最大长度, wi表示第i+1个单词, wai是 第i个方面项, 将异构图经过np.pad处理后得到句子异构图的大小为 将E输入到 经过领域内的预训练BERT ‑ADA中, 得到句子向量表示 其中BERT ‑ADA是经过亚 马逊笔记本电脑评论数据集和Yelp数据集挑战评论语料库中微调得到的BERT模型, 利用每 个token的位置与方面词的位置得到token与方面词的相对距离, 即首先初始化一个全1的 加权矩阵V, 得到方面词的长度x和方面词的起始位置asp_begin, 然后得到方面词的平均中 心位置Avga=(asp_begin+asp_len)/2, 计算句子中每个上下文词和方面词之间的相 对距 离 利用这个相对距离对BERT编码后的句 子向量进一步加权处理, 若 Pi小于设置的阈值3, 将保留它本身的语义信息, 若大于阈值3, 将语义的上下文词 构造加权 向量 来对特征进行加权, 根据单词的语义相对距离更新输入序列的加权矩阵V =[V0,V1…Vk], 将经过BERT_ADA的初步特征 与加权矩阵V进行相乘torch.mul ()操作, 即Hl=Hbert·V, Hl是局部动态权重层的输出, 利用图卷积网络, 即GCN得到具有领权 利 要 求 书 1/2 页 2 CN 115269847 A 2域内知识的局部上下文的特征表示Hl与增强的句法异构图矩阵Ah做为输入, 然后经过一个 激活函数ReLU得到领域内知识局部语境下的增强句法依赖信息: Hs_loc=ReLU(GCN(Ah,Hl,W)), 其中, GCN的公式为Hl=σ(AhHl‑1Wl‑1+bl‑1), Wl‑1和bl‑1是模型的第l ‑1层的线性变换权重 和偏置项参数, σ 是一个非线性 函数通常 设置为ReLU, 初始输入H0是句子表示Hl; 4)构建全局语义图特征阶段: 将评 论文本和方面词以 “[CLS]+文本+[SEP]+方面+[SEP] ” 利用Tokenizer4Bert得到text_bert_ind ices的向量表示, 为了区别评论文本和方面词, 重新 生成一个索引表示, 将前半句话[CLS]+文本+[SEP]索引位置利用0表示, 方面+[SEP]的位置用 1来表示, 得到一个bert_segmen ts_indicesx向量, 将text_bert_indices和bert_segments_ indicesx输入到领域内的预训练BERT ‑ADA中, 得到全局句子的向量表示Hg, 接着, 将Hg输入到 多头注意力中, 每一个注意力头得到一个特征 将h个 头的注意力矩阵拼接后除上h得到语义矩阵 充分得到每 个单词在全局句子的语义信息, 为了防止过拟合, 经过一个Dropout层得到Mse=Dropout (Mse), 在构造语义图时, 将Mse对角线上的值利用两次torch.diag后置为0, 再利用 torch.eye将对角线上的元素设置为1, 而每个单词和自己的语义相关性是百分之百的, 至 此, 得到邻域知识的句子全局语义图, 即得到语义GCN的输入, Hglo=Relu(GCN(Mse,Hg,W)), 利用图卷积网提取 更新全局语义信息特 征Hglo; 5)特征自适应融合阶段: 将领域内知识的局部语境下增强句法依赖信息Hs_loc与全局语 义信息Hglo拼接, 即X=torc.cat(Hs_loc+Hglo), 得到考虑领域知识的局部语境下增强句法信 息和句子的全局语义信息, 然后通过残差多层感知机后输入自注意力层中进行自适应融 合, 得到适 合任务的特 征表示; 6)特征向量输出阶段: 将融合的特征向量通过BERT池化操作后, 输出最终的向量表示, 通过一个softmax分类 器得到积极、 消极和中性的情感极性 概率; 7)模型训练阶段: 采用交叉熵损失函数作为损失函数, 通过Adam算法优化网络, 即训练 分类器的目标 是最小化预测情感分布和真实情感分布之间的交叉熵损失: 其中, S为训练样本数, C为极性类数, 是样本的真实情感分布, y是预测样本的情感分 布, λ是L2正则化项的权 重, Θ表示所有可训练的参数。权 利 要 求 书 2/2 页 3 CN 115269847 A 3

.PDF文档 专利 基于知识增强句法异构图的方面级情感分类方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识增强句法异构图的方面级情感分类方法 第 1 页 专利 基于知识增强句法异构图的方面级情感分类方法 第 2 页 专利 基于知识增强句法异构图的方面级情感分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:43:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。