全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210079547.X (22)申请日 2022.01.24 (65)同一申请的已公布的文献号 申请公布号 CN 114416966 A (43)申请公布日 2022.04.29 (73)专利权人 山东大学第二医院 地址 250000 山东省济南市天桥区北园大 街247号 (72)发明人 宋尚玲 刘泽  (74)专利代理 机构 济南龙瑞知识产权代理有限 公司 37272 专利代理师 李颖 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01)G06F 40/186(2020.01) G06F 40/194(2020.01) G06F 40/242(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G16H 50/70(2018.01) 审查员 焦月 (54)发明名称 一种基于Simhash-BERT网络的医用耗材合 理使用分析方法 (57)摘要 本发明属于医用耗材管 理技术领域, 涉及一 种基于Simhash ‑BERT网络 的医用耗材合理使用 分析方法。 本发明通过考虑全部语义类型, 避免 长度属性造成的误差, 提出基于BERT网络, 采用 Simhash相似性进行语句判断, 从而确定文本所 在位置, 实现文本的查找与定位。 提高了语句在 文档中检索的准确性。 权利要求书3页 说明书7页 附图1页 CN 114416966 B 2022.08.26 CN 114416966 B 1.一种基于Simhash ‑BERT网络的医用耗材合理使用分析 方法, 其特 征在于, 步骤如下: 步骤S1: 利用数据分析平台的搜索功能, 确定检索用的文字、 语句, 设置调用接口,从数 据库中调用包 含待检索与匹配的文字、 语句的目标文档; 步骤S2: 将文字、 语句处 理成字符串; 步骤S3: 确定搜索的字符串和单词词典, 所述单词词典用于将不同文档中的每个语句 都划分为不同的字符串保存备用; 构建搜索网络模型BERT, 然后对由多个变压器堆叠而成 的BERT网络进行优化, 并采用token嵌入、 分割嵌入和位置嵌入, 使得BERT网络的嵌入层实 现字符的传递; 步骤S4: 在每个字符串开始位置添加分类标签token, 将BERT网络的变压器输出作为分 类过程的融合序列, 采用BERT网络的学习位置嵌入, 将融合序列的长度保持为256个token; BERT网络运行过程中产生的句子对记 为语句A和语句B, 语句A的每个token中嵌入 学习语句 X1, 语句B的每 个token中嵌入学习语句X2; 步骤S5: 对BERT网络进行深度双向表示训练, 采用随机屏蔽输入token, 对屏蔽的token 进行预测; 随机屏 蔽语句A或语句B中10%的组成部分, 进行非监督学习的训练; 为了保持变 压器中每个语句的token分布式特征和增加信息量, 在屏 蔽部分, 其中90%采用固定的模板 进行屏蔽, 5%采用随机的模板进行屏蔽, 剩余5%保持不变; 步骤S6: 重复步骤S  5直至满足BERT网络的训练目标, 所述训练目标为: 在训练句子对 中随机选择, 满足X2的语义是X1下一句的部分, 占总比例的1/4; 对剩余的3/4进行随机挑 选, 针对不同的情形, 继续学习X1和X2之间的相关性, 提高训练模型的自适应性; 步骤S7: 利用24层多类型注意机制, 将步骤S6中的输出结果传递给BERT网络默认的回 归函数, 来推导 最终的表征, 定义BERT网络语义相似度基准的性能; 步骤S8: 在步骤S7运行完成的BERT网络输出中添加由词语分割网络优化的权重P, 并对 添加权重P之后BERT网络输出的字符串进行相关池化操作, 分别采取最大池化、 最小池化以 及平均池化, 保证输出的字符串向量长度相等; 步骤S9: 采用Simhash相似度计算对池化操作后的字符串进行筛选, 设计词语分割网络 进行权重P的优化, 所述词语分割网络采用三联体网络对目标文档中的文本进行难例挖掘 策略, 所述难例挖掘策略通过构建从最小训练批次中选择积极或者消极的负例对来实现; 将所述负例代入BERT网络进行训练, 利用训练结果对权 重P进行进一 步优化; 步骤S10: 将训练后的字符串进行分词, 产生整个目标文档的特征词, 去掉噪音词, 形成 词序列, 为每 个词序列添加权 重; 步骤S11: 文本信息转化为数字信息, 将待检测的字符串通过hash算法生成对应的hash 值: 0和1; 步骤S12: 将hash值添加词序列的权重, 形成加权数字串, 根据语句中每个词所起到的 不同作用将生成的hash值作为评价, 采用熵权法计算新权重, 进而将得到的hash值进行最 大最小标准 化处理, 公式如下: = ,权 利 要 求 书 1/3 页 2 CN 114416966 B 2其中 表示第i个字符串的第j个指标标准化后的值, 表示对第i个字符串进 行最大标准化, 表示对第i个字符串 进行最小标准 化; 信息熵 的求解为将 代入下列公式: =‑ , = , 其中, L代表第 j个指标下第i个字符串的指标值的比重, 代表第i个字符串的第j 个指 标; 将所有指标 、 、 的信息熵以此求出, 各字符串的权 重值为: = , i=1、 2、 3、 、 n; hash值通过加权计算的序列值h为: , 表示hash值的第i个的值, 0或者1; 将同一语句中每个词通过获得的加权数字串对应的序列值进行叠加, 得到一个总的序 列值; 步骤S13: 把得到的总序列 值进行降维, 大于0的值替换为1, 小于0的值替换为0, 得到最 终输出结果; 步骤S14: 将不同语句的输出结果进行比较, 比较对应位置的0和1是否相等, 将不相等 的个数计为距离值, 距离值越小, 相似性越高; 步骤S15: 通过相似性计算, 根据单词字典, 遍历文档中所有语句, 找到与检索语句 Simhash距离值 最小的语句, 得到最终的输出 结果; 步骤S16: 目标文档中锁定语句关系, 同一行文本属于同一簇, 同一列文本属于同一类, 并进行余弦相似度检测, 找出已进行目标语句和前后语句的相似度对比, 判定前后语句是 否属于同一簇或者同一类的字符串输出; 步骤S17: 设定输出的字符串大小, 使其大于待检测的字符串大小, 当目标语句锁定时, 通过调节字符串的长度, 获取目标字符串所在位置前后相关的文本; 步骤S18: 通过外 部接口调用, 将搜寻到的文本信息进行输出与展示。 2.根据权利要求1所述基于Simhash ‑BERT网络的医用耗材合理使用分析方法, 其特征 在于, 步骤S3中所述字符串采用便签进行表征, 单词 词典采用词条算法进行构建。 3.根据权利要求1所述基于Simhash ‑BERT网络的医用耗材合理使用分析方法, 其特征 在于, 所述 步骤S9中采用的公式如下:权 利 要 求 书 2/3 页 3 CN 114416966 B 3

PDF文档 专利 一种基于Simhash-BERT网络的医用耗材合理使用分析方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Simhash-BERT网络的医用耗材合理使用分析方法 第 1 页 专利 一种基于Simhash-BERT网络的医用耗材合理使用分析方法 第 2 页 专利 一种基于Simhash-BERT网络的医用耗材合理使用分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。