全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210066022.2 (22)申请日 2022.01.20 (71)申请人 中国地质大 学 (武汉) 地址 430000 湖北省武汉市洪山区鲁磨路 388号 (72)发明人 傅乐乐 林雨麒 李冰怡 万波  (51)Int.Cl. G06F 40/279(2020.01) G06F 16/28(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种地质文本实体关系联合抽取方法及系 统 (57)摘要 本发明涉及地质文本分析领域, 提供一种地 质文本实体关系联合抽取方法及系统, 包括: S1: 获得句子文本集; S2: 获得筛选后的句子文本集; S3: 获得各句子的词向量; 获得各句子的词标签; 获得依存关系树; S4: 获得每个词联系上下文的 连续嵌入表示; S5: 获得每个词当前时间步的包 含上下文信息的隐藏层状态向量; S6: 获得包含 丰富邻域信息和语义特征的词向量表示; S7: 获 得训练好的提取模型; S8: 将所述测试样本集输 入所述训练好的提取模型, 获得所述测试样本集 的实体间关系的三元组。 本发明使大量非结构化 数据得以有效利用, 并且可以通过训练大量数据 自动获取模型, 而不需要人工提取特征, 节省了 大量时间与人工成本 。 权利要求书3页 说明书8页 附图2页 CN 114548088 A 2022.05.27 CN 114548088 A 1.一种地质文本实体关系联合抽取 方法, 其特 征在于, 包括 步骤: S1: 获取地质文本资料, 对所述地质文本资料进行数据清洗、 分句和分词操作, 获得句 子文本集; S2: 划分实体的类别, 确定各实体间的关系类别, 通过所述关系类别 对所述句子文本集 进行筛选, 获得筛 选后的句子文本集; S3: 对所述筛选后的句子文本集中的各句子进行词级切分, 获得各句子的词向量; 通过 所述实体和所述关系类别对各句 子进行标注, 获得各句 子的词标签; 通过依存解析器对各 句子进行依存分析, 获得依存关系树; 将所述筛选后的句 子文本集分为训练样本集和测试 样本集; S4: 获取提取模型, 所述提取模型包括: BERT预训练模型、 双向长短期记忆神经网络Bi ‑ LSTM、 图卷积神经网络GCN和CRF模 型; 将所述训练样 本集中, 各所述句子的词向量输入 所述 BERT预训练模型, 获得每 个词联系上 下文的连续嵌入表示; S5: 将各所述词联系上下文的连续嵌入表示输入所述双向长短期记忆神经网络Bi ‑ LSTM进行 上下文特征提取, 获得每 个词当前时间步的包 含上下文信息的隐藏层状态向量; S6: 通过所述依存关系树获得词语间关系图的邻接矩阵, 将所述词语间关系图的邻接 矩阵和各所述词当前时间步的包含上下文信息的隐藏层状态向量输入所述图卷积神经网 络GCN, 获得包 含丰富邻域信息和语义特 征的词向量表示; S7: 将所述包含丰富邻域信息和语义特征的词向量表示和各所述句子的词标签输入所 述CRF模型进 行训练, 当获得各标签的概率时表示所述提取模型训练完成, 获得训练好的提 取模型; S8: 将所述测试样本集输入所述训练好的提取模型, 获得所述测试样本集的实体间关 系的三元组。 2.根据权利要求1所述的地质文本实体关系联合抽取方法, 其特征在于, 步骤S2具体 为: S21: 设置待抽取的实体的类别, 确定各实体间的关系类别, 所述实体的类别包括: 岩 体、 标志性 地区、 地质构造和地层; S22: 各所述实体间的关系类别包括: 包 含关系、 方向关系和位置关系; S23: 将不属于所述关系类别的句子从所述句子文本集中剔除, 获得所述筛选后的句子 文本集。 3.根据权利要求1所述的地质文本实体关系联合抽取方法, 其特征在于, 步骤S3中, 通 过所述实体和所述关系类别对各句子进行 标注, 获得 各句子的词标签具体为: 各句子的词标签的标注样式均为: < “entity”, [{“type”:“E‑type”,“start“: E‑S, “end”: E‑E}]>, <“relation ”, [{“type”:“R‑type”,“head“: R‑S,“tail”: R‑E}]>, 其中 entity表示实体的名称, E ‑type表示实体的类别, E ‑S表示实体在句子中的开始位置索引, Loc_2表示实体在句子中的结束位置索引, R ‑type表示实体对应的关系词类型, R ‑S和R‑E分 别表示关系词对应的头实体与尾实体索引。 4.根据权利要求1所述的地质文本实体关系联合抽取方法, 其特征在于, 步骤S4具体 为: S41: 所述句子的词向量hN表示为: hN=WT+WS+WP; 其中WT表示词嵌入矩阵, WS表示句子嵌权 利 要 求 书 1/3 页 2 CN 114548088 A 2入矩阵, WP表示位置嵌入矩阵; S42: 将所述句子的词向量输入所述BERT预训练模型进行计算, 获得输出句向量; S43: 将所述输出句向量的隐藏层状态通过所述BERT预训练模型的transformer编码器 进行N次转换, 具体公式表示为: hα=Trans(hα‑1), α ∈[1, N]; 其中α 表示转换层数, hα表示第α 层转换时输出句向量的隐藏层状态, Trans表示transformer编码器的转换函数, N表示转换 的总次数; S44: 将所述输出句向量的隐藏层状态进行N次转换后, 获得各所述词联系上下文 的连 续嵌入表示。 5.根据权利要求1所述的地质文本实体关系联合抽取方法, 其特征在于, 步骤S5具体 为: S51: 通过所述双向长短期记忆神经网络Bi ‑LSTM对各所述词联系上下文的连续嵌入表 示进行从后向前的特 征学习, 具体公式表示 为: 其中, t表示计算时间, 表示t时刻的从后向前的特 征学习获得的特 征向量, 表示t时 刻的从后向前的单元状态, LSTM表示特征提取函数, xt表示t时刻的信息输入, 表示t‑1 时刻的从后向前的特 征学习获得的特 征向量, 表示t‑1时刻的从后向前的单 元状态; S52: 通过所述双向长短期记忆神经网络Bi ‑LSTM对各所述词联系上下文的连续嵌入表 示进行从前向后的特 征学习, 具体公式表示 为: 其中, 表示t时刻的从前向后的特征学习获得的特征向量, 表示t时刻的从前向后 的单元状态, 表示t‑1时刻的从前向后的特征学习获得的特征向量, 表示t‑1时刻 的从前向后的单 元状态; S53: 通过拼接 和 获得在t时刻的各所述词当前时间步的包含上下文信息的隐藏层 状态向量, 表示 为: 6.根据权利要求1所述的地质文本实体关系联合抽取方法, 其特征在于, 步骤S6具体 为: S61: 获取所述依存关系树中的所有节点, 将每一个节点的特征信息经过变换后发送给 邻居节点; S62: 将各节点的邻居节点的特 征信息聚集 起来, 获得节点特 征信息集 合; S63: 对所述节点特 征信息集 合进行非线性变换, 获得非线性的节点特 征信息集 合; S64: 将所述非线性的节点特征信息集合和所述词当前时间步的包含上下文信息的隐 藏层状态向量, 输入所述图卷积神经网络 GCN, 计算 获得所述包含丰富邻域信息和语义特征 的词向量表示, 具体公式表示 为: 其中, N(v)表示结点v最邻近结点的集合, u表示在N(v)集合中的节点编号, l表示图卷权 利 要 求 书 2/3 页 3 CN 114548088 A 3

PDF文档 专利 一种地质文本实体关系联合抽取方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种地质文本实体关系联合抽取方法及系统 第 1 页 专利 一种地质文本实体关系联合抽取方法及系统 第 2 页 专利 一种地质文本实体关系联合抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。