全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210063804.0 (22)申请日 2022.01.20 (71)申请人 长沙一扬电子科技有限公司 地址 410000 湖南省长 沙市开福区芙蓉北 路街道金马路377号福天兴业大楼综 合楼407房 (72)发明人 刘聆 彭波 曹丹  (74)专利代理 机构 长沙大珂知识产权代理事务 所(普通合伙) 4323 6 代理人 伍志祥 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) (54)发明名称 一种基于综合表示嵌入的文本分类方法 (57)摘要 本发明公开了一种基于综合表示嵌入的文 本分类方法, 包括以下步骤: 将句子进行文本分 词; 获得文本分词的综合表示嵌入; 训练基于综 合表示嵌入的文本句子分类模型; 使用训练好的 文本分类模 型对待分类文本句子进行分类; 所述 的综合表 示嵌入包括文本的词表达嵌入、 词性表 达嵌入和上下文表达嵌入; 所述的文本分类模型 包括输入层, 处理层和输出层, 所述的输入层接 收输入, 输入为文本句子的综合表示嵌入, 处理 层依序为卷积层、 最大池化层、 第一全连接层、 LSTM层、 第二全连接层和softmax分类层, 输 出层 输出分类结果。 本发明方法充分利用文本分词的 多种属性嵌入, 使得分类效果更好, 简单的分类 步骤, 使得分类 速度更快。 权利要求书1页 说明书3页 附图1页 CN 114428856 A 2022.05.03 CN 114428856 A 1.一种基于综合表示嵌入的文本分类方法, 其特 征在于, 包括以下步骤: 将句子进行文本分词; 获得文本分词的综合表示嵌入; 训练基于综合表示嵌入的文本句子分类模型; 使用训练好的文本分类模型对待分类文本句子进行分类; 所述的综合表示嵌入 包括文本的词表达嵌入、 词性表达嵌入和上 下文表达嵌入; 所述的文本分类模型包括输入层, 处理层和输出层, 所述的输入层接收输入, 输入为文 本句子的综合表 示嵌入, 处理层依序为卷积层、 最大池化层、 第一全连接层、 LSTM层、 第二全 连接层和softmax分类层, 输出层输出分类结果。 2.根据权利要求1所述的一种基于综合表示嵌入的文本分类方法, 其特征在于, 所述的 获得文本分词的综合表示嵌入, 包括以下步骤: 获取文本分词基于词典索引的词嵌入向量Embed1(IndexD(Ci)), 其中Ci为文本分词, IndexD为文本分词的词典索引, Embed1表示基于词典索引的词嵌入; 获取文本分词基于词性索引的词嵌入向量Emb ed2(IndexP(P(Ci))), P为获取文本分词 的词性, I ndexP为文本分词的词性索引, Embed2表示基于词性索引的词嵌入; 将同一文本分词基于词典索引的词嵌入向量和基于词性索引的词嵌入向量进行拼接: Embed1(IndexD(Ci))||Embed2(IndexP(P(Ci))); 将句子中的文本分词的拼接词向量分别以顺序和反序的方式输入双向长短期记忆神 经网络模型中, 分别获得正序的词向量front(0)至fr ont(n), 以及反序的词向量back(0)至 back(n), 0 至n分别表示句子的n+1个分词; 将正序的词向量和反序的词向量进行拼接, 拼接方式为front(t)连接back(n ‑t), 由此 得到vec(0)至vec(n)的综合表示词向量。 3.根据权利要求1所述的一种基于综合表示的文本分类方法, 其特征在于, 在所述的文 本句子分类模型中, 将文本分词的综合表示嵌入按序输入输入层, 所述的卷积层使用综合 表示嵌入的维度为宽度的卷积核来获取不同的特征向量, 所述的最大池化层用于对卷积层 中的特征向量进行选取, 在所述的第二全连接层中, 对输入向量进行Dropout操作正则化, 在softmax分类层中采用softmax分类 器进行分类。权 利 要 求 书 1/1 页 2 CN 114428856 A 2一种基于综合表示嵌入的文本分类方 法 技术领域 [0001]本发明属于文本分类技 术领域, 尤其涉及一种基于综合表示的文本分类方法。 背景技术 [0002]随着技术的发展, 将自然语言文档自动分类成若干主题的类别这一项工作作为新 兴的学科发展了起来, 称为自动文本分类(Automatic  Text Classification), 为简洁起 见, 本文将自动文本分类简称为文本分类(Text  Classification)。 文本分类的主要任务是 在给定的分类体系 下, 根据文本的内容自动地确定与文本关联的类别。 文本分类技术不仅 仅解决了用户准确查找数据的需求, 也在很大程度上降低了网络信息的杂乱特征。 所以, 文 本分类技 术的出现受到 了计算机和自动化领域内专 家、 学者和工程师们的广泛重 视。 [0003]文本分类被认识为许多技术的基础, 如 搜索引擎、 信息过滤、 情报分析、 情感分析, 等等。 因此, 文本分类技 术有着广泛的应用前 景, 是一项具有较大研究价 值的关键性 技术。 [0004]事实上, 文本分类一直被作为一个基本科学问题, 被人工智能和语言学学者研究, 如何提高文本分类的准确 性和文本分类的速度, 一直是作为研究的评价指标, 这也指导着 相关的学术界和工程界不停地 寻找新的分类方法。 发明内容 [0005]有鉴于此, 提供一种高效且准确的文本分类方法, 是解决现有技术问题的关切点。 本发明的目的在于提供一种基于综合表示的文本分类方法, 所述方法充分利用文本 分词的 多种属性嵌入, 使得分类效果更好, 简单的分类步骤, 使得分类速度更 快。 [0006]本发明的目的是这样实现的, 一种基于综合表示的文本分类方法, 包括以下步骤: [0007]将句子进行文本分词; [0008]获得文本分词的综合表示嵌入; [0009]训练基于综合表示嵌入的文本句子分类模型; [0010]使用训练好的文本分类模型对待分类文本句子进行分类; [0011]所述的综合表示嵌入 包括文本的词表达嵌入、 词性表达嵌入和上 下文表达嵌入; [0012]所述的文本分类模型包括输入层, 处理层和输出层, 所述的输入层接收输入, 输入 为文本句子的综合表 示嵌入, 处理层依序为卷积层、 最大池化层、 第一全连接层、 LSTM层、 第 二全连接层和softmax分类层, 输出层输出分类结果。 [0013]具体地, 所述的获得文本分词的综合表示嵌入, 包括以下步骤: [0014]获取文本分词基于词典索引的词嵌入向量Embed1(IndexD(Ci)), 其中Ci为文本分 词, IndexD为文本分词的词典索引, Embed1表示基于词典索引的词嵌入; [0015]获取文本分词基于词性索引的词嵌入向量Embed2(IndexP(P(Ci))), P为获取文本 分词的词性, I ndexP为文本分词的词性索引, Embed2表示基于词性索引的词嵌入; [0016]将同一文本分词基于词 典索引的词嵌入向量和基于词性索引的词嵌入向量进行 拼接: Embed1(IndexD(Ci))||Embed2(IndexP(P(Ci)));说 明 书 1/3 页 3 CN 114428856 A 3

PDF文档 专利 一种基于综合表示嵌入的文本分类方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于综合表示嵌入的文本分类方法 第 1 页 专利 一种基于综合表示嵌入的文本分类方法 第 2 页 专利 一种基于综合表示嵌入的文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。