全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210847126.7 (22)申请日 2022.07.19 (71)申请人 东北大学 地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人 郑子昂 冯玺匀 贾同 陈馨怡  (74)专利代理 机构 沈阳东大知识产权代理有限 公司 21109 专利代理师 李在川 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/31(2019.01) G06F 16/25(2019.01) G06F 16/951(2019.01) G06F 40/35(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于BERT模型的新冠知识智能问答系统及 方法 (57)摘要 本发明提供一种基于BERT模型的新冠知识 智能问答系统及方法, 所述系统包括数据采集模 块、 数据存储模块、 自然语言处理模块、 服务器模 块、 网页前端模块; 通过BERT模型将非结构化数 据提取为特征向量, 然后通过Milvus对这些特征 向量进行计算并建立向量索引, 最后利用IVF_ SQ8算法实现对非结构化数据的检索。 本发明一 方面用BERT模型提高了特征词向量转化的准确 度, 去除了繁杂的预处理工作, 解决了传统NLP 模 型训练速度较慢、 计算量大、 人工操作复杂、 词向 量转换效果较差的问题, 另一方面用高性能 Milvus向量搜索引擎实现了高维向量的存储与 检索工作, 应用IVF_SQ8基于量化的索引算法提 升了匹配精准度, 并减小了内存, 降低了人力、 时 间、 资金等成本 。 权利要求书2页 说明书10页 附图3页 CN 115238053 A 2022.10.25 CN 115238053 A 1.一种基于BERT模型的新冠知识智能问答系统, 其特征在于, 包括: 数据采集模块、 数 据存储模块、 自然语言处 理模块、 服 务器模块、 网页前端模块; 所述数据采集模块用于采集有关新冠疫情日常防护、 治疗、 新冠疫苗及新冠病理特征 的问题和答案; 所述数据存 储模块用于将采集到的问题和答案一 一对应存 储在数据库中; 所述自然语言处理模块用于将 非结构化数据转换为特征向量, 并将特征向量与数据库 中问题进行相似度检索处 理; 所述服务器模块用于前后端交 互, 根据用户输入的问题返回数据库数据给 前端; 所述网页前端模块用于生成新冠疫情防控的聊天界面, 实现以对话形式的问答功能。 2.根据权利要求1所述的一种基于BERT模型的新冠知识智能问答系统, 其特征在于, 所 述自然语言处 理模块包括: 特 征向量生成模块、 向量索引建立模块、 相似度匹配模块; 所述特征向量生成模块用于通过BERT模型将非结构化数据提取为特 征向量; 所述向量索引建立模块用于通过向量搜索引擎Milvus对特征向量进行计算并建立向 量索引; 所述相似度匹配模块用于实现特 征向量的分析与检索。 3.一种基于BERT模型的新冠知识智能问答方法, 其特 征在于, 包括: 步骤1: 采集有关新冠疫情日常防护、 治疗、 新冠疫苗及新冠病理特 征的问题和答案; 步骤2: 将采集到的问题和答案一 一对应存 储在数据库中; 步骤3: 将 非结构化数据转换为特征向量, 并将特征向量与数据库中问题进行相似度检 索处理; 步骤4: 前后端交 互, 根据用户输入的问题返回数据库数据给 前端; 步骤5: 生成新冠疫情防控的聊天界面, 实现以对话形式的问答功能。 4.根据权利要求3所述的一种基于BERT模型的新冠知识智能问答方法, 其特征在于, 所 述步骤1包括: 步骤1.1: 针对全球新冠肺炎共享实战平台, 用urllib模拟浏览器向服务器发送请求, 从而获取相应网页源码; 步骤1.2: 在Pycharm中输入xpath语句解析网页源码, 解析服务器响应 的文本, 从而获 取有关新冠疫情日常防护、 治疗、 新冠疫苗及新冠病理特 征的问题和答案数据。 5.根据权利要求3所述的一种基于BERT模型的新冠知识智能问答方法, 其特征在于, 所 述步骤2包括: 步骤2.1: 首 先初始化属性, 指定 本地IP、 MySQL启动端口、 用户名、 密码、 数据库名称; 步骤2.2: 链接相应 的数据库对应 的表格, 输入本地IP、 MySQL启动端口、 用户名、 密码、 数据库名称, 规定编码格式; 步骤2.3: 连接数据库, 在数据库中生成问题和答案后, 调用数据插入方法, 创建实例化 对象, 最后设定循环次数, 在MySQ L数据库的表格中插 入一定数量的数据。 6.根据权利要求3所述的一种基于BERT模型的新冠知识智能问答方法, 其特征在于, 所 述步骤3包括: 步骤3.1: 调用BERT模型将非结构化数据转换为特 征向量; 步骤3.2: 通过Mi lvus对获取的特 征向量进行计算并建立向量索引;权 利 要 求 书 1/2 页 2 CN 115238053 A 2步骤3.3: 利用IVF_SQ8算法对特 征向量进行分析与检索。 7.根据权利要求6所述的一种基于BERT模型的新冠知识智能问答方法, 其特征在于, 所 述步骤3.1包括: 步骤3 .1 .1 : 调用包模型SentenceTransformer, 并用数据预处理工具 metricsklearn.preprocessing调用包normalize进行规范化处理, 调用模型路径MODEL_ PATH, 工具包gdo wn在网址上 下载压缩的SentenceTransformer的BERT模型; 步骤3.1.2: 提取 数据库中问题列的已有数据; 步骤3.1.3: 对从爬虫到数据库中得到的问题列的语句进行编码 操作。 8.根据权利要求6所述的一种基于BERT模型的新冠知识智能问答方法, 其特征在于, 所 述步骤3.2包括: 步骤3.2.1: 将特征向量和问题数据合并到一个列表中, 分别将特征向量导入数据预处 理函数, 问题数据导入MySQ L; 步骤3.2.2: 将特 征向量转为二维向量; 步骤3.2.3: 对特 征向量存 储并建立向量索引。 9.根据权利要求6所述的一种基于BERT模型的新冠知识智能问答方法, 其特征在于, 所 述步骤3.3包括: 步骤3.3.1: 针对用户输入的问句, 经过BERT和池化层将其转成定长特征向量, 将特征 向量转换为二维向量; 步骤3.3.2: 在Mi lvus的集 合中搜索相似向量索引。 10.根据权利要求9所述的一种基于BERT模型的新冠知识智能问答方法, 其特征在于, 所述步骤3.3.2包括: C1)将二维向量进行 标量量化; C2)用k‑means算法将n个y向量分为16384个聚类, 分别获得聚类中心c1,c2,……,c16384, 将输入特 征向量x与n个y向量的距离记为x与y向量所在的聚类中心的距离; C3)比对输入特征向量x与16384个聚类中心的距离, 找到和输入特征向量距离最小 的 16个聚类, 然后对这16个聚类中全部的向量 通过内积执 行距离比对; C4)在Milvus中检索查询记录得到与该向量组相似度最高的top_k个向量并打印其在 集合中对应的序号, 返回序号数值; C5)连接MySQL数据库, 建游标, 若表格不存在则创 建MySQL表, 将Milvus序号和镜像文 件路径批量插入MySQL, 根据Milvus序号获取镜像文件路径, 用SQL语句在对应的表格中选 择问句文本内容; C6)将对应的一系列问题返回前端, 点击相似问题会返回对应答案 。权 利 要 求 书 2/2 页 3 CN 115238053 A 3

PDF文档 专利 基于BERT模型的新冠知识智能问答系统及方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于BERT模型的新冠知识智能问答系统及方法 第 1 页 专利 基于BERT模型的新冠知识智能问答系统及方法 第 2 页 专利 基于BERT模型的新冠知识智能问答系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。