(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211315936.4
(22)申请日 2022.10.26
(71)申请人 思创数码科技股份有限公司
地址 330000 江西省南昌市高新区火炬 大
道681号
(72)发明人 倪勇勇 陈聪 闵红星
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 何世磊
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06Q 50/26(2012.01)
(54)发明名称
政务资源目录主题分类方法及系统
(57)摘要
本发明公开了一种政务资源目录主题分类
方法及系统, 本发明先对政务资源目录主题文本
编码处理, 将编码结果输入至预训练的ERNIE模
型中, 然后将通过ERNIE模型得到的词向量集合
输入到两种特征提取模型中, 通过用TextCNN模
型 得 到 文 本 特 征 向 量 ,通 过 B i G R U ‑
SelfAttention模型得到语义特征向量, 采用不
同的模型针对性的分别提取文本特征向量和语
义特征向量, 联合两种特征向量进行文本主题分
类, 能够有效减低短文本特征稀疏性的影响, 从
而兼顾有效提取文本特征和有效获取文本上下
文关系信息, 提升 了分类结果的准确性。
权利要求书3页 说明书9页 附图1页
CN 115374285 A
2022.11.22
CN 115374285 A
1.一种政务资源目录主题分类方法, 其特 征在于, 包括:
对待分类的政务资源目录主题文本进行编码处理, 获得编码结果, 并将编码结果输入
至预训练的ERNIE模型中, 取ERNIE模型中最后一层隐藏层的输出, 得到政务资源目录主题
文本的词向量 集合;
将词向量集合输入至TextCNN模型中, 通过TextCNN模型输出文本特征向量, 以及将词
向量集合输入至Bi GRU‑SelfAttention模型中, 通过Bi GRU‑SelfAttention模型输 出语义特
征向量;
将TextCNN模型输出的文本特征向量和BiGRU ‑SelfAttention模型输出的语义特征向
量分别输入至对应的全连接层以得到第一特征向量和 第二特征向量, 将第一特征向量和 第
二特征向量相加得到联合特 征向量;
将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值, 选取概率值
最大的主题作为输出。
2.根据权利要求1所述的政务资源目录主题分类方法, 其特征在于, 对待分类的政务资
源目录主题文本进行编码处理, 获得编码结果, 并将编码结果输入至预训练的ERNIE模型
中, 取ERNIE模 型中最后一层隐藏层的输出, 得到政务资源目录主题文本的词向量集合的步
骤具体包括:
采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符, 并将政务资源
目录主题文本的字符总长度调整为预设长度;
将字符转换为ERN IE词表中词的序号, 并生成输入序列标记索引;
根据政务资源目录主题文本的原 始字符长度和填充字符长度生成长度标记索引;
将字符的分段 标记索引定义 为0;
获得编码结果, 并将编码结果输入至预训练的ERNIE模型中, 所述编码结果包括输入序
列标记索引、 长度标记索引以及分段标记索引, 取ERNIE模型中最后一层隐藏层的输出, 得
到每个字符对应的词向量, 并形成词向量集合S, 其中, S=(w1,w2,…,wn), w1、 w2、 wn分别表示
第1个字符、 第2个字符、 第n个字符对应的词向量。
3.根据权利要求2所述的政务资源目录主题分类方法, 其特征在于, 将词向量集合输入
至TextCN N模型中, 通过TextCN N模型输出文本特 征向量的步骤具体包括:
将词向量集合输入至TextCNN模型中, TextCNN模型使用大小为(2,3,4)的卷积核分别
对词向量集合中的各个元素进行特征提取, 提取的结果为C1、 C2、 C3, 其中, C1、 C2、 C3分别为三
种不同卷积大小提取的特征, 再对C1、 C2、 C3进行拼接, 最终输出文本特征向量C, C=cat([C1、
C2、 C3], dim=‑1), 其中, cat为张量 拼接函数, dim= ‑1表示按最后一个维度进行拼接 。
4.根据权利要求3所述的政务资源目录主题分类方法, 其特征在于, 将词向量集合输入
至BiGRU‑SelfAttention模型中, 通过Bi GRU‑SelfAttention模型输 出语义特征向量的步骤
具体包括:
将词向量集合S输入至B iGRU‑SelfAttention模型中, 词向量集合S先经过具有双向GRU
的BiGRU层, 对于S中的第i个词向量wi, 由FW‑GRU输出前向计算结果
、 以及由BW ‑GRU输出
反向计算结果
, 将
和
拼接得到结果之和
, 最后由
BiGRU层输出计算结果H=(H1,H2,…,Hi,…,Hn), 其中, H1、 H2、 Hi、 Hn分别表示S中 的第1个词向权 利 要 求 书 1/3 页
2
CN 115374285 A
2量、 第2个词向量、 第i个词向量、 第n个词向量对应的结果之和;
采用SelfAttention机制对BiGRU层输出 的H进行重新分配权重, 其中, SelfAttention
层先对注意力权重进行计算得到权重向量M, 再计算BiGRU层输出的每个词向量的权重, 然
后将所有词向量的权重 向量进行加权求和, 得到语义特征向量并进行输出, 语义特征向量
AttBiGRU=MV, 其中, V表示内容矩阵, V= WvH, Wv表示与内容矩阵对应的需要学习的参数矩阵,
, K表示索引矩阵, T表示转置, Q表示查询矩阵, Softmax为指数归一化函
数, d表示词向量的维度。
5.根据权利要求4所述的政务资源目录主题分类方法, 其特征在于, 将联合特征向量输
入至预设的Softmax分类器中计算各个主题的概率值, 选取概率值最大的主题作为输出的
步骤中, 采用下式计算各个主题的概 率值:
其中, pk表示第k个主题的概率值, j表示第j个主题, m表示主题的总 数, zk表示第k个主
题对应的联合特 征向量中的元 素, zj表示第j个主题对应的联合特 征向量中的元 素。
6.一种政务资源目录主题分类系统, 其特 征在于, 包括:
第一输入模块, 用于对待分类的政务资源目录主题文本进行编码处理, 获得编码结果,
并将编码结果输入至预训练的ERNIE模型中, 取ERNIE模型中最后一层隐藏层的输出, 得到
政务资源目录主题文本的词向量 集合;
第二输入模块, 用于将词向量集合输入至TextCNN模型中, 通过TextCNN模型输出文本
特征向量, 以及将词向量集合输入至BiGRU ‑SelfAttention模型中, 通过BiGRU ‑
SelfAttention模型输出语义特 征向量;
第三输入模块, 用于将TextCNN模型输出的文本特征向量和 BiGRU‑SelfAttention模型
输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和 第二特征向量, 将
第一特征向量和第二特 征向量相加得到联合特 征向量;
计算输出模块, 用于将联合特征向量输入至预设的Softmax分类器中计算各个主题的
概率值, 选取概 率值最大的主题作为输出。
7.根据权利要求6所述的政务资源目录主题分类系统, 其特征在于, 所述第 一输入模块
具体用于:
采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符, 并将政务资源
目录主题文本的字符总长度调整为预设长度;
将字符转换为ERN IE词表中词的序号, 并生成输入序列标记索引;
根据政务资源目录主题文本的原 始字符长度和填充字符长度生成长度标记索引;
将字符的分段 标记索引定义 为0;
获得编码结果, 并将编码结果输入至预训练的ERNIE模型中, 所述编码结果包括输入序
列标记索引、 长度标记索引以及分段标记索引, 取ERNIE模型中最后一层隐藏层的输出, 得
到每个字符对应的词向量, 并形成词向量集合S, 其中, S=(w1,w2,…,wn), w1、 w2、 wn分别表示
第1个字符、 第2个字符、 第n个字符对应的词向量。
8.根据权利要求7所述的政务资源目录主题分类系统, 其特征在于, 所述第 二输入模块权 利 要 求 书 2/3 页
3
CN 115374285 A
3
专利 政务资源目录主题分类方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:39:59上传分享