专利政务资源目录主题分类方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211315936.4 (22)申请日 2022.10.26 (71)申请人思创数码科技股份有限公司地址 330000 江西省南昌市高新区火炬大道681号 (72)发明人倪勇勇　陈聪　闵红星　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师何世磊 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06Q 50/26(2012.01) (54)发明名称政务资源目录主题分类方法及系统 (57)摘要本发明公开了一种政务资源目录主题分类方法及系统，本发明先对政务资源目录主题文本编码处理，将编码结果输入至预训练的ERNIE模型中，然后将通过ERNIE模型得到的词向量集合输入到两种特征提取模型中，通过用TextCNN模型得到文本特征向量，通过 B i G R U ‑ SelfAttention模型得到语义特征向量，采用不同的模型针对性的分别提取文本特征向量和语义特征向量，联合两种特征向量进行文本主题分类，能够有效减低短文本特征稀疏性的影响，从而兼顾有效提取文本特征和有效获取文本上下文关系信息，提升了分类结果的准确性。权利要求书3页说明书9页附图1页 CN 115374285 A 2022.11.22 CN 115374285 A 1.一种政务资源目录主题分类方法，其特征在于，包括：对待分类的政务资源目录主题文本进行编码处理，获得编码结果，并将编码结果输入至预训练的ERNIE模型中，取ERNIE模型中最后一层隐藏层的输出，得到政务资源目录主题文本的词向量集合；将词向量集合输入至TextCNN模型中，通过TextCNN模型输出文本特征向量，以及将词向量集合输入至Bi GRU‑SelfAttention模型中，通过Bi GRU‑SelfAttention模型输出语义特征向量；将TextCNN模型输出的文本特征向量和BiGRU ‑SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量，将第一特征向量和第二特征向量相加得到联合特征向量；将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值，选取概率值最大的主题作为输出。 2.根据权利要求1所述的政务资源目录主题分类方法，其特征在于，对待分类的政务资源目录主题文本进行编码处理，获得编码结果，并将编码结果输入至预训练的ERNIE模型中，取ERNIE模型中最后一层隐藏层的输出，得到政务资源目录主题文本的词向量集合的步骤具体包括：采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符，并将政务资源目录主题文本的字符总长度调整为预设长度；将字符转换为ERN IE词表中词的序号，并生成输入序列标记索引；根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引；将字符的分段标记索引定义为0；获得编码结果，并将编码结果输入至预训练的ERNIE模型中，所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引，取ERNIE模型中最后一层隐藏层的输出，得到每个字符对应的词向量，并形成词向量集合S，其中， S=(w1,w2,…,wn)， w1、 w2、 wn分别表示第1个字符、第2个字符、第n个字符对应的词向量。 3.根据权利要求2所述的政务资源目录主题分类方法，其特征在于，将词向量集合输入至TextCN N模型中，通过TextCN N模型输出文本特征向量的步骤具体包括：将词向量集合输入至TextCNN模型中， TextCNN模型使用大小为(2,3,4)的卷积核分别对词向量集合中的各个元素进行特征提取，提取的结果为C1、 C2、 C3，其中， C1、 C2、 C3分别为三种不同卷积大小提取的特征，再对C1、 C2、 C3进行拼接，最终输出文本特征向量C， C=cat([C1、 C2、 C3], dim=‑1)，其中， cat为张量拼接函数， dim= ‑1表示按最后一个维度进行拼接。 4.根据权利要求3所述的政务资源目录主题分类方法，其特征在于，将词向量集合输入至BiGRU‑SelfAttention模型中，通过Bi GRU‑SelfAttention模型输出语义特征向量的步骤具体包括：将词向量集合S输入至B iGRU‑SelfAttention模型中，词向量集合S先经过具有双向GRU 的BiGRU层，对于S中的第i个词向量wi，由FW‑GRU输出前向计算结果、以及由BW ‑GRU输出反向计算结果，将和拼接得到结果之和，最后由 BiGRU层输出计算结果H=(H1,H2,…,Hi,…,Hn)，其中， H1、 H2、 Hi、 Hn分别表示S中的第1个词向权　利　要　求　书 1/3 页 2 CN 115374285 A 2量、第2个词向量、第i个词向量、第n个词向量对应的结果之和；采用SelfAttention机制对BiGRU层输出的H进行重新分配权重，其中， SelfAttention 层先对注意力权重进行计算得到权重向量M，再计算BiGRU层输出的每个词向量的权重，然后将所有词向量的权重向量进行加权求和，得到语义特征向量并进行输出，语义特征向量 AttBiGRU=MV，其中， V表示内容矩阵， V= WvH， Wv表示与内容矩阵对应的需要学习的参数矩阵，， K表示索引矩阵， T表示转置， Q表示查询矩阵， Softmax为指数归一化函数， d表示词向量的维度。 5.根据权利要求4所述的政务资源目录主题分类方法，其特征在于，将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值，选取概率值最大的主题作为输出的步骤中，采用下式计算各个主题的概率值：其中， pk表示第k个主题的概率值， j表示第j个主题， m表示主题的总数， zk表示第k个主题对应的联合特征向量中的元素， zj表示第j个主题对应的联合特征向量中的元素。 6.一种政务资源目录主题分类系统，其特征在于，包括：第一输入模块，用于对待分类的政务资源目录主题文本进行编码处理，获得编码结果，并将编码结果输入至预训练的ERNIE模型中，取ERNIE模型中最后一层隐藏层的输出，得到政务资源目录主题文本的词向量集合；第二输入模块，用于将词向量集合输入至TextCNN模型中，通过TextCNN模型输出文本特征向量，以及将词向量集合输入至BiGRU ‑SelfAttention模型中，通过BiGRU ‑ SelfAttention模型输出语义特征向量；第三输入模块，用于将TextCNN模型输出的文本特征向量和 BiGRU‑SelfAttention模型输出的语义特征向量分别输入至对应的全连接层以得到第一特征向量和第二特征向量，将第一特征向量和第二特征向量相加得到联合特征向量；计算输出模块，用于将联合特征向量输入至预设的Softmax分类器中计算各个主题的概率值，选取概率值最大的主题作为输出。 7.根据权利要求6所述的政务资源目录主题分类系统，其特征在于，所述第一输入模块具体用于：采用tokenize方法将待分类的政务资源目录主题文本切分成多个字符，并将政务资源目录主题文本的字符总长度调整为预设长度；将字符转换为ERN IE词表中词的序号，并生成输入序列标记索引；根据政务资源目录主题文本的原始字符长度和填充字符长度生成长度标记索引；将字符的分段标记索引定义为0；获得编码结果，并将编码结果输入至预训练的ERNIE模型中，所述编码结果包括输入序列标记索引、长度标记索引以及分段标记索引，取ERNIE模型中最后一层隐藏层的输出，得到每个字符对应的词向量，并形成词向量集合S，其中， S=(w1,w2,…,wn)， w1、 w2、 wn分别表示第1个字符、第2个字符、第n个字符对应的词向量。 8.根据权利要求7所述的政务资源目录主题分类系统，其特征在于，所述第二输入模块权　利　要　求　书 2/3 页 3 CN 115374285 A 3

专利 政务资源目录主题分类方法及系统

专利政务资源目录主题分类方法及系统