(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210090519.8
(22)申请日 2022.01.25
(71)申请人 中国人民解 放军国防科技大 学
地址 410003 湖南省长 沙市开福区德雅路
109号
(72)发明人 周晓磊 王芳潇 范强 张骁雄
严浩 江春
(74)专利代理 机构 南京华鑫君辉专利代理有限
公司 3254 4
专利代理师 王方超
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/295(2020.01)
G06F 16/36(2019.01)
G06F 16/33(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种面向试验数据的文本语义特征提取方
法及系统
(57)摘要
本发明公开一种面向试验数据的文本语义
特征提取方法及系统, 所述方法包括如下步骤:
利用文本预处理技术对试验数据生语料库进行
处理和加工, 将所述生语料库转换为熟语料库;
构建基于 条件随机场的抽取模型, 在初始标注语
料基础上训练模 型; 熟语料输入词向量表示模型
得到词向量信息, 将词向量信息输入DHNN深度混
合神经网络模型训练; 将注意力机制与SE ‑LSTM
神经网络模 型相结合获得训练模 型, 把初始训练
语料输入所述训练模型训练; 将训练好的装备实
体识别模型、 装 备文本深层语义 建模方法和装备
实体关系抽取模 型分别输入, 得到装 备文本语义
特征提取系统; 基于训练好的文本语义特征提取
系统, 得到 语义理解结果。
权利要求书3页 说明书10页 附图6页
CN 114841169 A
2022.08.02
CN 114841169 A
1.一种面向试验数据的文本语义特 征提取方法, 其特 征在于, 包括如下步骤:
步骤101), 装备熟语料库 生成步骤, 包括: 利用文本预处理技术对试验数据生语料库进
行处理和加工, 将所述 生语料库转换为熟语料库;
步骤102), 装备实体识别模型训练步骤, 包括: 利用装备实体的命名规则对语料进行回
标, 构建初始标注语料; 设计特征模板, 构建基于条件随机场的抽取模型, 在初始标注语料
基础上训练模型, 获得装备实体识别模型;
步骤103), 装备文本深层语义建模方法步骤, 包括: 熟语料输入词向量表示模型得到词
向量信息, 将词向量信息输入DHNN深度混合神经网络模型训练, 获得装备文本深层语义建
模方法;
步骤104), 装备实体关系抽取模型训练步骤, 包括: 利用远监督学习算法在 现有熟语料
库的基础上构建大规模初始训练语料, 将注意力机制与SE ‑LSTM神经网络模型相结合获得
训练模型, 把初始训练语料输入所述训练模型训练, 获得装备实体关系抽取模型;
步骤105), 装备文本语义特征提取系统搭建步骤, 包括: 将训练好的装备实体识别模
型、 装备文本深层语义建模方法和装备实体关系抽取模型分别输入, 得到装备文本语义特
征提取系统;
步骤106), 语义特征提取输入步骤, 包括: 输入搭建好的文本语义特征提取系统, 输入
待提取特征的装备文本数据;
步骤107), 语义特征提取输出步骤, 包括: 基于训练好的文本语义特征提取系统, 得到
语义理解结果, 将处理结果分别存储至装备实体数据库、 装备语义数据库和装备实体关系
模式库。
2.根据权利要求1所述的一种面向试验数据的文本语义特征提取方法, 其特征在于, 所
述步骤101)中的装备熟语料库生成步骤具体包括: 对生语料库中的装 备文本数据进 行格式
处理、 中文分词和词性标注, 将所述 生语料库转换为熟语料库。
3.根据权利要求1所述的一种面向试验数据的文本语义特征提取方法, 其特征在于, 所
述步骤102)中的装备实体识别模型训练步骤具体包括: 在得到初始标注语料后, 根据词特
征、 词性特征、 左右 边界词特性以及中心词特性建立特征模板, 即在条件随机场的参数化形
式中确定转移特征tk(yi‑1,yi,x,i)和状态特征sl(yi,x,i)的取值, 当满足条件时取值为1,
否则为0; 再将构建好的特征模板代入条件随机场的参数化形式中, 设P(Y|X)为条件随机
场, 则在随机变量X 取值为x的条件下, 随机变量Y取值 为y的条件概 率具有如下 形式:
其中,
其中, λk和 μl是对应的权值, Z(x)是规范化因子, 求和是在所有可能的输出序列上进行
的; 再将初始标注语料输入得到的条件随机场模型中训练, 最后获得相 应的装备实体识别
模型。
4.根据权利要求1所述的一种面向试验数据的文本语义特征提取方法, 其特征在于, 所权 利 要 求 书 1/3 页
2
CN 114841169 A
2述步骤103)中的装备文本深层语义建模方法步骤具体包括: 所述深度混合神经网络模型
DHNN包括位于底层的双向LSTM神经网络模块、 位于顶层的动态卷积神经网络模型模块
DCNN; 所述双向LSTM神经网络模块, 执行获取长距离上下文信息, 抽取输入文本的初 级语义
特征; 所述动态卷积神经网络模 型模块DCNN, 通过一 维宽卷积操作和动态 k‑Max采样算子进
一步抽取文本的高级语义特征, 通过获取文本中长距离相关性信息, 实现对不同粒度文本
单元的语义建模。
5.根据权利要求2所述的一种面向试验数据的文本语义特征提取方法, 其特征在于, 所
述步骤104)中装备实体关系抽取模型训练步骤具体包括:
所述远监督学习算法通过将文本与 大规模知识图谱进行实体对齐, 利用知识图谱已有
的实体间关系对文本进行标注, 如果从知识图谱中能获取三元组R(E1, E2), 且E1和E2共现于
句子S中, 则S表达了E1和E2间的关系R, 标注为训练正例; 其中, R代表关系, E1、 E2代表两个实
体;
所述注意力机制与SE ‑LSTM神经网络模型相结合获得的训练模型如下:
M=tanh(H)
α =softmax(wTM)
r=HαT
H是SE‑LSTM神经网络模型的输出, size为v ×T,v是词向量的维度, T是序列的长度, H首
先通过tanh函数激活得到M, 再通过全连接层+softmax层得到,w的size是v ×1,所以α 的
size是1×T; 最后H乘以权重, 得到的输出r,size为v ×1; 最后经过tanh函数激活得到最后
输出
size为v×1; 得到输出后, 直接作为softmax层的输入, 就能得到相应预测标签的输
出。
6.一种面向试验数据的文本语义特征提取系统, 其特征在于, 包括: 模型训练装置、 模
型训练电子设备、 文本语义特 征提取执行装置、 文本语义特 征提取执行电子设备。
7.根据权利要求6所述的一种面向试验数据的文本语义特征提取系统, 其特征在于, 所
述模型训练装置包括:
文本预处理模块, 具体执行: 将装备生语料库中的装备文本数据进行格 式处理、 中文分
词和词性标注, 将所述 生语料库转换为模型训练可用的装备文本熟语料库;
条件随机场抽取模型训练模块, 具体执行: 将输入的装备文本熟语料库利用装备实体
的命名规则对语料进行回标, 构建初始标注语料; 再通过针对装备实体特征设计的特征模
板, 构建出基于条件随机场的抽取模型, 并在 初始标注语料 上进行模型训练;
深度混合神经网络训练模块, 具体执行: 将输入的装备文本熟语料输入词向量表示模
型得到词向量信息, 将词向量信息 输入深度混合神经网络DHN N模型进行训练;
注意力改进LSTM神经网络训练模块, 具体执行: 将输入的装备文本熟语料输入远监督
学习算法构建出大规模初始训练语料, 将初始训练预料输入注意力机制改进LSTM神经网络
模型进行训练。
8.根据权利要求6所述的一种面向试验数据的文本语义特征提取系统, 其特征在于, 所
述模型训练电子设备包括: 训练文本语料库存储器; 模型训练算法处理器; 模型输出接口;权 利 要 求 书 2/3 页
3
CN 114841169 A
3
专利 一种面向试验数据的文本语义特征提取方法及系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:45上传分享