(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221074086 0.3
(22)申请日 2022.06.27
(71)申请人 华中科技大 学
地址 430000 湖北省武汉市洪山区珞喻路
1037号
(72)发明人 郑渤龙 毕蕾 席瑞洁 万静意
(74)专利代理 机构 成都众恒智合专利代理事务
所(普通合伙) 51239
专利代理师 张洪
(51)Int.Cl.
G06F 16/25(2019.01)
G06F 16/2452(2019.01)
G06F 16/242(2019.01)
G06F 40/242(2020.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于智能语义补全的数据库自然语言
接口系统
(57)摘要
本发明公开了一种基于智能语义补全的数
据库自然语言接口系统, 涉及计算机查询技术领
域, 包括关系感知型编码器、 抽取生成型集束解
码器、 历史查询桥接机制以及动态上下文向量构
建模块; 关系感知型编码器包括文本联合嵌入模
块、 表感知查询编码器以及查询感知表编码器,
文本联合 嵌入模块基于预训练语言模 型构建, 表
感知查询编码器以及查询感知表编码器均融合
了注意力机制; 抽取生成型集束解码器包括抽取
生成动作选择模块、 计划采样 机制和多样化集束
搜索模块。 本发 明能够降低非专业人士检索数据
库的门槛, 减少人机交互障碍, 具有实用性, 可以
在人工智能交互和 智能问答、 搜索引擎的优化以
及企业运营成本的节约等场景得到广泛应用。
权利要求书5页 说明书17页 附图5页
CN 115048447 A
2022.09.13
CN 115048447 A
1.一种基于智能语义补全的数据库自然语言接口系统, 其特征在于, 包括关系感知型
编码器、 抽取生成型集束解码器、 历史查询桥接 机制以及动态上 下文向量构建模块;
历史查询桥接机制用于将自然语言查询与 数据库历史查询桥接, 输出历史查询桥接状
态向量;
关系感知型编码器包括文本联合嵌入模块、 表感知查询编码器以及查询感知表编码
器, 文本联合嵌入模块基于预训练语言模型构建, 表感知查询编码器以及查询感知表编码
器均融合了注意力机制;
文本联合嵌入模块用于将自然语言查询分词和数据库模式分词分别转化为自然语言
查询的嵌入向量和数据库模式的嵌入向量; 表感知查询编 码器用于将自然语言查询的嵌入
向量转化为可以感知数据库模式的自然语言查询状态向量; 查询感知表编 码器用于将数据
库模式的嵌入向量 转化为可以感知自然语言查询的数据库模式状态向量;
动态上下文向量构建模块用于基于时间步、 历史查询桥接状态向量、 自然语言查询状
态向量和数据库模式状态向量计算得到动态上 下文向量;
抽取生成型集束解码器包括抽取生成动作选择模块、 计划采样机制和多样化集束搜索
模块;
抽取生成动作选择模块用于基于动态上下文向量, 计算输出从自然语言查询中抽取的
概率, 以及从结构化 查询语言 关键字词典和数据库模式 中生成的概 率;
计划采样机制用于基于从自然语言查询中抽取的概率, 和从SQL关键字词典和数据库
模式中生成的概 率, 计算得到生成词的概 率;
多样化集束搜索模块用于基于得到生成词的概率, 得到可执行的SQL查询语句集合, 并
返回给用户。
2.根据权利要求1所述基于智能语义补全的数据库自然语言接口系统, 其特征在于, 文
本联合嵌入模块将自然语言查询分词和数据库模式分词分别转化为自然语言查询的嵌入
向量和数据库模式的嵌入向量的方法包括:
将自然语言查询分词和数据库模式分词进行拼接, 得到模型输入的表达为
Input=[CLS,X,SEP,T1,SEP,T2,SEP,...],
其中, Input表示输入序列, CLS和SEP表示特殊字符, X表示自然语言查询, Ti表示数据库
模式;
将输入序列Input输入到预训练的双向编码器表示模型(Bidirectional Encoder
Representati ons from Transformers, BERT)中, 最后输出 得到
{EX,ES}=BERT(I nput),
其中,
是自然语言查询的嵌入向量, n是自然语言查询的长度, ES是
数据库模式的嵌入向量。
3.根据权利要求2所述基于智能语义补全的数据库自然语言接口系统, 其特征在于, 表
感知查询编码器包括第一层双向长短时记忆网络(Bi ‑directional Long Short‑Term
Memory, Bi ‑LSTM)、 数据库模式注意力机制层和第二层 Bi‑LSTM;
获取可以感知数据库模式的自然语言查询状态向量的方法为:
使用表感知查询编码器的第一层Bi ‑LSTM对自然语言查询的嵌入向量进行编码, 得到权 利 要 求 书 1/5 页
2
CN 115048447 A
2嵌入向量HB;
通过数据库模式注意力机制层捕获自然语言查询中与数据库模式强相关的自然语言
单词, 将经过数据库模式注意力机制后的向量Hschema与嵌入向量HB进行拼接, 将拼接后的向
量使用表感知查询编码 器的第二层Bi ‑LSTM编码得到可以感知数据库模式的自然语言查询
状态向量HX。
4.根据权利要求3所述基于智能语义补全的数据库自然语言接口系统, 其特征在于, 查
询感知表编码器包括第一层双向长短时记忆网络、 数据库模式自注意力机制层、 自然语言
查询注意力机制层和第二层 双向长短时记 忆网络;
获取可以感知自然语言查询的数据库模式状态向量的方法为:
使用查询感知表编码器的第一层双向长短时记忆网络数据库模式的嵌入向量进行编
码, 然后使用数据库模式自注意力机制层提取多表间关系;
使用自然语言查询注意力机制层建模数据库模式语句与自然语言查询语句之间的关
系, 再将数据库模式自注 意力机制层的向量Hself与自然语 言查询注 意力机制层的输出Hquery
进行拼接, 拼接后得到的向量Hcat使用查询感知表编码器的第二层双向长短时记忆网络进
行编码, 得到可以感知自然语言查询的数据库模式状态向量HS。
5.根据权利要求4所述基于智能语义补全的数据库自然语言接口系统, 其特征在于, 获
取历史查询桥接状态向量的方法具体包括:
使用预训练语言模型BERT对数据库历史查询进行编码得到嵌入向量EQ, 然后使用Bi ‑
LSTM对嵌入向量EQ进行编码, 得到向量
其中μ表示历史查询语
句的长度;
计算历史影响因子
然后, 对历史影响因子
进行归一 化,
计算历史查询桥接状态向量HQ,
6.根据权利要求5所述基于智能语义补全的数据库自然语言接口系统, 其特征在于, 获
取动态上 下文向量的方法包括:
计算当前时间步t解码器隐藏状态
和单个自然语言查询词的编码最终隐藏状态
之
间的对齐分数
其中,
为可学习参数;
计算解码时间步t之前的自然查询词的聚合对齐分数
得到归一化之后
的具有局部依赖性的对齐分数
权 利 要 求 书 2/5 页
3
CN 115048447 A
3
专利 一种基于智能语义补全的数据库自然语言接口系统
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 01:02:21上传分享