全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210066218.1 (22)申请日 2022.01.20 (71)申请人 序跋网络科技 (上海) 有限公司 地址 200000 上海市长 宁区万航渡路2452 号B101室 (72)发明人 丁晓静 卓胜祥 范华俊 左宁  (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于BERT的多特征细粒度中文短文本 情感分类方法 (57)摘要 本发明公开了一种基于BERT的多特征细粒 度中文短文本情感分类方法, 包含以下步骤: 步 骤A、 多维度特征综合表达: 模型的输入有效特征 包括4种: 独热编码特征、 位置编码特征、 字形特 征、 拼音特征; 四种特征均有相同的维度大小, 进 一步求平均后得到一个综合性的特征表达, 该特 征经过BERT模型后得到最终的特征表达; BERT   Transformer叠加了多个多头自注意与前向神经 网络模块, 本发 明加入的字形与拼音特征一定程 度上可兼容输入文本中的字形相似或者同音字 的错误, 即使发生了这类错误也可正确提取相关 语义, 使模型可自适应于真实世界中的错误文 本, 提高模型 预测的准确度。 权利要求书2页 说明书5页 附图3页 CN 114443845 A 2022.05.06 CN 114443845 A 1.一种基于BERT的多特征细粒度中文短文本情感分类方法, 其特征在于, 包含以下步 骤: 步骤A、 多维度特征综合表达: 模型的输入有效特征包括4种: 独热编码特征、 位置编码 特征、 字形特征、 拼音特征; 四种特征均有相同的维度大小, 进一步求平均后得到一个综合 性的特征表达, 该特征经过BERT模型后得到最终的特征表达; BERT  Transformer  叠加了多 个多头自注 意与前向神经网络模块, 其中自注意模块使用双向注 意机制, 即每个t oken同时 关注到其左右侧的上下文, 多头自注意模块公式为MultiHead  (Q ,K ,V)=Conc at(head1   ,...,headh  )W0, headi=Attention(QWiQ ,KWiK,VWiV), W0为head拼接后还原维度的权重 矩阵, WiQ, WiK, WiV分别为Q, K, V的权重矩阵, 其中中Attention的计算公式为 , Q, K, V分别为输入query、 key、 value向量, dk为向 量度, 多头自注意模块 通过减少维度来降低计算所消耗的资源; 步骤B、 文本向量特征到情 感分类概率化特征的映射: 通过一个分类层实现上一步得到 的文本向量特征到情感分类特征的映射, 此时得到一个class_size的特征表示, 经过 softmax层将该表 示概率化, 即实现每一 维度值处于0 ‑1之间且所有维度值加和等于1, 分类 层公式为 S=(WT X+b), W为n ×j的全连接权重矩阵, b为偏置项, X是特征提取层输出的向 量, 得到的S进入softmax层, 公式为  , 其中Pi为文本类别i的概率, Si为分类层输 出的第i个神经 元内的数值, j为预测类别数; 步骤C、 模型融合: 将通过不 通超参数设置得到的前3个模型 预测结果进行加权平均。 2.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法, 其 特征在于, 所述独热编码特征是生成了一个vocab_size*embedding_size的编码矩阵, 由 token的字典id在编码矩阵中进行查询得到 。 3.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法, 其 特征在于, 所述位置编码特征继承自BERT预训练模型中的512*embedding_size的编码矩 阵, 最多可对512长度的文本进行编码。 4.根据权利要求3所述的一种基于BERT的多特征细粒度中文短文本情感分类方法, 其 特征在于, 所述字形特征采用了三种字体: 仿宋、 行楷和隶书, 图形化表达进行卷积与池化 操作得到 。 5.根据权利要求4所述的一种基于BERT的多特征细粒度中文短文本情感分类方法, 其 特征在于, 所述 拼音特征是将汉字的全拼字母进行 embedding映射后求平均得到 。 6.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法, 其 特征在于, 所述BERT模 型结构是一系列Transformer编码器的叠加, 旨在通过联合调节所有 层中的上 下文来预 先训练深度双向表示。 7.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法, 其 特征在于, 所述分类层为embed ding_size* class_size的前向网络 。 8.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法, 其 特征在于, 模型的训练过程分为两步:权 利 要 求 书 1/2 页 2 CN 114443845 A 2Mask ML无监督训练, 对于特定领域未标注文本, 通过Mask  ML策略构造训练数据, 对模 型进行预训练, 即对于每一个句子中的to ken: 85%的概率, 保留原词不变; 15%的概率, 使用以下 方式替换: 80%的概率, 使用字符[MASK], 替换当前to ken; 10%的概率, 使用词表随机抽取的to ken, 替换当前to ken; 10%的概率, 保留原词不变; 2) 文本分类的有监督训练: 根据标注标签计算在[CLS]位置输出的概率结果与真实标 注结果的交叉熵损失, 再通过梯度的反向传播计算各个参数的梯度, 进行参数 更新。权 利 要 求 书 2/2 页 3 CN 114443845 A 3

PDF文档 专利 一种基于BERT的多特征细粒度中文短文本情感分类方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于BERT的多特征细粒度中文短文本情感分类方法 第 1 页 专利 一种基于BERT的多特征细粒度中文短文本情感分类方法 第 2 页 专利 一种基于BERT的多特征细粒度中文短文本情感分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。