全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210090519.8 (22)申请日 2022.01.25 (71)申请人 中国人民解 放军国防科技大 学 地址 410003 湖南省长 沙市开福区德雅路 109号 (72)发明人 周晓磊 王芳潇 范强 张骁雄  严浩 江春  (74)专利代理 机构 南京华鑫君辉专利代理有限 公司 3254 4 专利代理师 王方超 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 16/36(2019.01) G06F 16/33(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种面向试验数据的文本语义特征提取方 法及系统 (57)摘要 本发明公开一种面向试验数据的文本语义 特征提取方法及系统, 所述方法包括如下步骤: 利用文本预处理技术对试验数据生语料库进行 处理和加工, 将所述生语料库转换为熟语料库; 构建基于 条件随机场的抽取模型, 在初始标注语 料基础上训练模 型; 熟语料输入词向量表示模型 得到词向量信息, 将词向量信息输入DHNN深度混 合神经网络模型训练; 将注意力机制与SE ‑LSTM 神经网络模 型相结合获得训练模 型, 把初始训练 语料输入所述训练模型训练; 将训练好的装备实 体识别模型、 装 备文本深层语义 建模方法和装备 实体关系抽取模 型分别输入, 得到装 备文本语义 特征提取系统; 基于训练好的文本语义特征提取 系统, 得到 语义理解结果。 权利要求书3页 说明书10页 附图6页 CN 114841169 A 2022.08.02 CN 114841169 A 1.一种面向试验数据的文本语义特 征提取方法, 其特 征在于, 包括如下步骤: 步骤101), 装备熟语料库 生成步骤, 包括: 利用文本预处理技术对试验数据生语料库进 行处理和加工, 将所述 生语料库转换为熟语料库; 步骤102), 装备实体识别模型训练步骤, 包括: 利用装备实体的命名规则对语料进行回 标, 构建初始标注语料; 设计特征模板, 构建基于条件随机场的抽取模型, 在初始标注语料 基础上训练模型, 获得装备实体识别模型; 步骤103), 装备文本深层语义建模方法步骤, 包括: 熟语料输入词向量表示模型得到词 向量信息, 将词向量信息输入DHNN深度混合神经网络模型训练, 获得装备文本深层语义建 模方法; 步骤104), 装备实体关系抽取模型训练步骤, 包括: 利用远监督学习算法在 现有熟语料 库的基础上构建大规模初始训练语料, 将注意力机制与SE ‑LSTM神经网络模型相结合获得 训练模型, 把初始训练语料输入所述训练模型训练, 获得装备实体关系抽取模型; 步骤105), 装备文本语义特征提取系统搭建步骤, 包括: 将训练好的装备实体识别模 型、 装备文本深层语义建模方法和装备实体关系抽取模型分别输入, 得到装备文本语义特 征提取系统; 步骤106), 语义特征提取输入步骤, 包括: 输入搭建好的文本语义特征提取系统, 输入 待提取特征的装备文本数据; 步骤107), 语义特征提取输出步骤, 包括: 基于训练好的文本语义特征提取系统, 得到 语义理解结果, 将处理结果分别存储至装备实体数据库、 装备语义数据库和装备实体关系 模式库。 2.根据权利要求1所述的一种面向试验数据的文本语义特征提取方法, 其特征在于, 所 述步骤101)中的装备熟语料库生成步骤具体包括: 对生语料库中的装 备文本数据进 行格式 处理、 中文分词和词性标注, 将所述 生语料库转换为熟语料库。 3.根据权利要求1所述的一种面向试验数据的文本语义特征提取方法, 其特征在于, 所 述步骤102)中的装备实体识别模型训练步骤具体包括: 在得到初始标注语料后, 根据词特 征、 词性特征、 左右 边界词特性以及中心词特性建立特征模板, 即在条件随机场的参数化形 式中确定转移特征tk(yi‑1,yi,x,i)和状态特征sl(yi,x,i)的取值, 当满足条件时取值为1, 否则为0; 再将构建好的特征模板代入条件随机场的参数化形式中, 设P(Y|X)为条件随机 场, 则在随机变量X 取值为x的条件下, 随机变量Y取值 为y的条件概 率具有如下 形式: 其中, 其中, λk和 μl是对应的权值, Z(x)是规范化因子, 求和是在所有可能的输出序列上进行 的; 再将初始标注语料输入得到的条件随机场模型中训练, 最后获得相 应的装备实体识别 模型。 4.根据权利要求1所述的一种面向试验数据的文本语义特征提取方法, 其特征在于, 所权 利 要 求 书 1/3 页 2 CN 114841169 A 2述步骤103)中的装备文本深层语义建模方法步骤具体包括: 所述深度混合神经网络模型 DHNN包括位于底层的双向LSTM神经网络模块、 位于顶层的动态卷积神经网络模型模块 DCNN; 所述双向LSTM神经网络模块, 执行获取长距离上下文信息, 抽取输入文本的初 级语义 特征; 所述动态卷积神经网络模 型模块DCNN, 通过一 维宽卷积操作和动态 k‑Max采样算子进 一步抽取文本的高级语义特征, 通过获取文本中长距离相关性信息, 实现对不同粒度文本 单元的语义建模。 5.根据权利要求2所述的一种面向试验数据的文本语义特征提取方法, 其特征在于, 所 述步骤104)中装备实体关系抽取模型训练步骤具体包括: 所述远监督学习算法通过将文本与 大规模知识图谱进行实体对齐, 利用知识图谱已有 的实体间关系对文本进行标注, 如果从知识图谱中能获取三元组R(E1, E2), 且E1和E2共现于 句子S中, 则S表达了E1和E2间的关系R, 标注为训练正例; 其中, R代表关系, E1、 E2代表两个实 体; 所述注意力机制与SE ‑LSTM神经网络模型相结合获得的训练模型如下: M=tanh(H) α =softmax(wTM) r=HαT H是SE‑LSTM神经网络模型的输出, size为v ×T,v是词向量的维度, T是序列的长度, H首 先通过tanh函数激活得到M, 再通过全连接层+softmax层得到,w的size是v ×1,所以α 的 size是1×T; 最后H乘以权重, 得到的输出r,size为v ×1; 最后经过tanh函数激活得到最后 输出 size为v×1; 得到输出后, 直接作为softmax层的输入, 就能得到相应预测标签的输 出。 6.一种面向试验数据的文本语义特征提取系统, 其特征在于, 包括: 模型训练装置、 模 型训练电子设备、 文本语义特 征提取执行装置、 文本语义特 征提取执行电子设备。 7.根据权利要求6所述的一种面向试验数据的文本语义特征提取系统, 其特征在于, 所 述模型训练装置包括: 文本预处理模块, 具体执行: 将装备生语料库中的装备文本数据进行格 式处理、 中文分 词和词性标注, 将所述 生语料库转换为模型训练可用的装备文本熟语料库; 条件随机场抽取模型训练模块, 具体执行: 将输入的装备文本熟语料库利用装备实体 的命名规则对语料进行回标, 构建初始标注语料; 再通过针对装备实体特征设计的特征模 板, 构建出基于条件随机场的抽取模型, 并在 初始标注语料 上进行模型训练; 深度混合神经网络训练模块, 具体执行: 将输入的装备文本熟语料输入词向量表示模 型得到词向量信息, 将词向量信息 输入深度混合神经网络DHN N模型进行训练; 注意力改进LSTM神经网络训练模块, 具体执行: 将输入的装备文本熟语料输入远监督 学习算法构建出大规模初始训练语料, 将初始训练预料输入注意力机制改进LSTM神经网络 模型进行训练。 8.根据权利要求6所述的一种面向试验数据的文本语义特征提取系统, 其特征在于, 所 述模型训练电子设备包括: 训练文本语料库存储器; 模型训练算法处理器; 模型输出接口;权 利 要 求 书 2/3 页 3 CN 114841169 A 3

PDF文档 专利 一种面向试验数据的文本语义特征提取方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向试验数据的文本语义特征提取方法及系统 第 1 页 专利 一种面向试验数据的文本语义特征提取方法及系统 第 2 页 专利 一种面向试验数据的文本语义特征提取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。