全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210238800.1 (22)申请日 2022.03.11 (71)申请人 无锡祥生医疗科技股份有限公司 地址 214142 江苏省无锡市新吴区硕放工 业园五期51、 5 3号地块长江东路2 28号 (72)发明人 不公告发明人   (74)专利代理 机构 北京三聚阳光知识产权代理 有限公司 1 1250 专利代理师 王月 (51)Int.Cl. G16H 50/70(2018.01) G16H 10/60(2018.01) G16H 30/20(2018.01) G06F 16/23(2019.01) G06F 16/22(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 医疗数据集优化方法及设备 (57)摘要 本申请是关于一种医疗数据集优化方法及 设备, 具体涉及计算机视觉技术领域。 所述方法 包括: 获取医疗数据集; 针对每个该医疗样本数 据, 分别通过各个神经网络模型对 该医疗样本数 据进行处理, 获得该医疗样本数据对应的各个 熵; 将各个该医疗样本数据各自对应的各个熵构 建为熵矩阵; 对该医疗数据集进行划分, 获得各 个医疗数据子集; 针对每个医疗数据子集, 通过 该熵矩阵计算该医疗数据子集中样 本的多样性、 覆盖性及均衡性, 并对该医疗数据子集进行更 新, 获得目标数据子集; 基于各个该目标数据子 集, 构建优化后的医疗数据集。 通过上述方案提 高了通过优化后的医疗数据集进行神经网络模 型训练的训练效果。 权利要求书3页 说明书16页 附图6页 CN 114582518 A 2022.06.03 CN 114582518 A 1.一种医疗数据集优化方法, 其特 征在于, 所述方法包括: 获取医疗数据集; 所述医疗数据集中包 含各个医疗样本数据; 针对每个所述医疗样本数据, 分别通过各个神经网络模型对所述医疗样本数据进行处 理, 获得所述医疗样本数据对应的各个熵; 所述神经网络模型用于对所述医疗样本数据进 行推理计算; 将各个所述医疗样本数据各自对应的各个熵构建为熵 矩阵; 对所述医疗数据集进行划分, 获得 各个医疗数据子集; 针对每个医疗数据子集, 通过所述熵矩阵计算所述医疗数据子集中样本的多样性、 覆 盖性及均衡性, 并基于所述医疗数据子集中医疗样本数据的多样性、 覆盖性及均衡性对所 述医疗数据子集进行 更新, 获得目标 数据子集; 基于各个所述目标 数据子集, 构建优化后的医疗数据集。 2.根据权利要求1所述的方法, 其特征在于, 所述将各个所述医疗样本数据各自对应的 各个熵构建为熵 矩阵, 包括: 将各个所述医疗样本数据各自对应的各个熵作为元 素, 以生成为所述熵 矩阵; 所述熵矩阵的行数为所述医疗样本数据的个数; 所述熵矩阵的列数为所述神经网络模 型的个数。 3.根据权利要求2所述的方法, 其特征在于, 所述通过所述熵矩阵计算所述医疗数据子 集中样本的多样性, 包括: 在所述熵 矩阵中读取 所述医疗数据子集中各个医疗样本数据所对应的元 素值; 将医疗数据子集中各个医疗样本数据 所对应的元素值的和, 与神经网络模型的个数的 比值, 确定为所述医疗数据子集中 医疗样本数据的多样性。 4.根据权利要求2所述的方法, 其特征在于, 所述通过所述熵矩阵计算所述医疗数据子 集中样本的覆盖性及均衡性, 包括: 将所述熵矩阵的元素中, 大于目标滑动因子的元素转换为1, 并将所述熵矩阵的元素 中, 小于目标滑动因子的元 素转换为0, 以获得 更改矩阵; 针对每个神经网络模型, 在所述更改矩阵中获取所述神经网络模型对所述医疗数据子 集中各个医疗样本数据进行处 理所得到的元 素, 并求和以得到响应 计数; 计算所述更改矩阵中各个元 素的平均值, 以获得响应平均值; 计算所述响应平均值与所述响应计数之间的标准差, 以获得所述神经网络模型对应的 响应偏差; 将所述响应计数与所述响应偏差的比值, 按照神经网络模型的类别进行求和, 获得所 述医疗数据子集的均衡性; 将所述响应计数与 所述更改矩阵的元素个数的比值, 按照神经网络模型的类别进行求 和, 获得所述医疗数据子集的覆盖性。 5.根据权利要求1至4任一所述的方法, 其特征在于, 所述基于所述医疗数据子集中医 疗样本数据的多样性、 覆盖性及均衡性对所述医疗 数据子集进 行更新, 获得目标数据子集, 包括: 基于所述医疗数据子集中医疗样本数据的多样性、 覆盖性及均衡性进行加权求和, 获 得所述医疗数据子集对应的适应度;权 利 要 求 书 1/3 页 2 CN 114582518 A 2根据所述医疗数据子集的适应度, 对所述医疗数据子集进行迭代更新, 并将迭代更新 后的医疗数据子集确定为所述目标 数据子集。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述医疗数据子集的适应度, 对 所述医疗数据子集进 行迭代更新, 并将迭代更新后的医疗数据子集确定为所述目标数据子 集, 包括: 在第N轮迭代更新过程中, 将医疗数据子集中的至少一个 医疗样本数据, 替换为除所述 医疗数据子集之外的医疗样本数据, 以获得中间医疗数据子集, N的起始值 为1; 根据所述熵矩阵计算所述中间医疗数据子集的适应度, 并将所述中间医疗数据子集以 及所述医疗数据子集中适应度更高的, 确定为第N轮迭代更新后的医疗数据子集; 若N小于预设轮数时, 则再次执行将医疗数据子集中的至少一个医疗样本数据, 替换为 在所述医疗数据子集之外的医疗样本数据的操作; 若N达到所述预设轮数时, 将所述第 N轮迭代更新后的医疗数据子集确定为所述目标数 据子集。 7.根据权利要求1至4任一所述的方法, 其特征在于, 所述各个神经网络模型包括m个小 替代模型以及n个检查点模型; 所述m个小替代模型为对目标初始模型的卷积层和/或池化 层的层数缩减后得到的模型, 或者, 所述m个小替代模型为训练精度小于预设阈值的网络模 型; 所述n个检查点模型为与目标初始模型的模型 结构相同; 所述目标初始模型为对医疗样本数据进行推理计算的神经网络模型。 8.根据权利要求7所述的方法, 其特征在于, 所述针对每个所述医疗样本数据, 分别通 过各个神经网络模型对所述医疗样本数据进行处 理之前, 还 包括: 对所述目标初始模型的卷积层和/或池化层的层数进行缩 减, 获得m个小初始模型; 根据所述医疗数据集分别对m个小初始模型进行训练, 获得训练后的m个小替代模型; 根据所述医疗数据集, 对所述目标初始模型进行P轮预训练, 并根据 预训练后的目标神 经网络模型在医疗数据集中选取训练数据集; 根据所述训练数据集, 对所述目标初始模型进行T轮迭代训练, 并获取最后n轮迭代过 程中目标初始模型的模型参数; 基于最后n轮迭代过程中的目标初始模型的模型参数, 构建所述 n个检查点模型。 9.根据权利要求8所述的方法, 其特征在于, 所述根据所述医疗数据集, 对所述目标初 始模型进行P轮预训练, 并根据预训练后的神经网络模型在所述医疗数据集中选取训练数 据集, 包括: 将所述医疗数据集中随机 选择的第一数量的医疗数据移出至训练数据集; 通过所述第一数量的医疗数据训练所述目标初始模型; 获取所述医疗数据集中每 个医疗数据的信息量; 根据获取到的所述信息量将所述医疗数据集中满足预设条件的医疗数据移出至所述 训练数据集, 并通过满足所述预设条件的医疗数据再次训练所述 目标初始模型, 所述预设 条件包括信息量 排名在前m位, 或者信息量大于限定阈值; 若所述训练数据集的样本量小于预设值, 则再次执行所述获取所述医疗数据集中每个 医疗数据的信息量的步骤; 若所述训练数据集的样本量达到所述预设值 时, 将当前的训练数据集确定为最终选取权 利 要 求 书 2/3 页 3 CN 114582518 A 3

PDF文档 专利 医疗数据集优化方法及设备

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 医疗数据集优化方法及设备 第 1 页 专利 医疗数据集优化方法及设备 第 2 页 专利 医疗数据集优化方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:50:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。