全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211159742.X (22)申请日 2022.09.22 (71)申请人 凌云光技术股份有限公司 地址 100094 北京市海淀区翠湖南环路13 号院7号楼7层701室 (72)发明人 杨航 彭斌  (74)专利代理 机构 北京弘权知识产权代理有限 公司 11363 专利代理师 逯长明 温瑞鑫 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/776(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 一种数据集划分方法及装置 (57)摘要 本申请涉及图像分类技术领域, 具体而言, 涉及一种数据集划分方法及装置, 可以解决在划 分验证集时, 由于在分类任务中训练集与验证集 保证类间分布 一致比较容易实现, 但是要保证类 内分布一致或更加精细, 采用随机划分数据的方 法很难做到, 使得无法准确地监督到模型对困难 样本及独立样本的学习情况, 同时也很难监督到 对一般样 本分布的无偏监督的问题。 所述方法包 括: 在小型同任务目标网络中输入获取的训练图 像, 得到所述训练图像的图像特征; 于所述图像 特征对所述训练图像进行聚类, 得到样本簇; 将 所述一般样 本簇抽样后构成验证集, 并将所述困 难样本簇及独立样本 簇添加至所述验证集。 权利要求书2页 说明书12页 附图9页 CN 115482437 A 2022.12.16 CN 115482437 A 1.一种数据集划分方法, 其特 征在于, 所述方法包括: 在小型同任务目标网络中输入获取的训练图像, 得到所述训练图像的图像特征, 所述 图像特征包括对应于困难样本的第一特征、 对应于独立样本的第二特征及 对应于一般样本 的第三特 征, 所述小型同任务目标网络用于快速获取 所述困难样本及独立样本; 基于所述图像特征对所述训练图像进行聚类, 得到样本簇, 所述样本簇包括第一特征 对应的困难样本簇、 第二特征对应的独立样本簇、 以及第三特征对应一般样 本簇, 所述独立 样本簇为单独图像成簇的样 本簇, 所述困难样 本为输出概率低于预设阈值的样本、 和/或输 出结果错误的样本; 将所述一般样本簇抽样后构 成验证集, 并将所述困难样本簇及独立样本簇添加至所述 验证集。 2.如权利要求1所述的数据集划分方法, 其特征在于, 在所述在小型同任务目标网络中 输入获取的训练图像, 得到所述训练图像的图像特 征步骤中, 所述方法还 包括: 训练所述小型同任务目标网络, 得到特征提取器, 所述特征提取器用于提取图像的图 像特征, 所述小型同任务目标网络也用于对图像进行测试, 输出测试信息; 将获取的所述训练图像输入所述特 征提取器中, 得到所述训练图像的图像特 征。 3.如权利要求2所述的数据集划分方法, 其特征在于, 在所述将 获取的所述训练图像输 入所述特 征提取器中, 得到所述训练图像的图像特 征步骤之后, 所述方法进一 步包括: 基于所述小型同任务目标网络, 对所述训练图像进行测试, 得到先验信息, 所述先验信 息为所述小型同任务目标网络的测试结果, 所述先验信息包括所有图像的输出概率值及分 类结果; 根据所述先验信息, 得到困难样本评估信息, 所述困难样本评估信息为根据先验信息 评估出的困难样本 。 4.如权利要求3所述的数据集划分方法, 其特征在于, 在所述根据所述先验信息, 得到 困难样本 评估信息步骤中, 所述方法还 包括: 预设第一阈值, 基于所述第 一阈值, 并根据 所述先验信 息, 得到第一目标图像及第二目 标图像, 所述第一阈值为所述困难样本的输出概率值阈值, 用于界定图像是否为困难样 本, 所述第一目标图像是指 输出概率值小于所述第一阈值的图像, 所述第二目标图像是指分类 结果错误的图像; 将所述第一目标图像与第二目标图像进行整合, 得到所述困难样本评估信息, 所述第 一目标图像、 和/或第二目标图像均为困难样本 。 5.如权利要求1所述的数据集划分方法, 其特征在于, 在将所述一般样本簇抽样后构 成 验证集步骤中, 所述方法还 包括: 预设第二阈值, 基于所述一般样本簇 中的样本数量值, 并根据 所述第二阈值, 确定第一 待抽样样本簇及第二待抽样样本簇, 所述第二阈值为样本数量阈值, 用于界定所述一般样 本簇中的样本数量为多量还是少量, 所述第一待抽样样本簇为样本数量较少的一般样本 簇, 所述第二待抽样 样本簇为样本数量较多的一般样本 簇; 对所述第一待抽样 样本簇及所述第二待抽样 样本簇进行抽样。 6.如权利要求5所述的数据集划分方法, 其特征在于, 在所述对所述第 一待抽样样本簇 及所述第二待抽样 样本簇进行抽样步骤中, 所述方法还 包括:权 利 要 求 书 1/2 页 2 CN 115482437 A 2对所述第一待抽 样样本簇 中的样本进行增广, 并将增广后的样本放 回所述第 一待抽样 样本簇中; 对将所述第一待抽样 样本簇进行抽样, 并将抽取的样本放入 验证集中。 7.如权利要求5所述的数据集划分方法, 其特征在于, 在所述对所述第 一待抽样样本簇 及所述第二待抽样 样本簇进行抽样步骤中, 所述方法还 包括: 预设第三阈值, 并根据 所述第二待抽样样本簇, 确定聚类 中心及第一距离值, 所述第三 阈值是指欧氏距离阈值, 用于界定两个样本之间的差异性是否足够, 所述聚类中心是指在 聚类的中心 点所代表样 本, 所述第一距离值是指所述第二待抽样样本簇中样本与聚类中心 的欧氏距离值; 根据所述第 一距离值对所述第 二待抽样样本簇 中的所有样本进行排序, 得到样本排序 结果; 基于所述第三阈值, 并根据所述样本排序结果进行抽样, 并将抽取的样本放入验证集 中, 使抽取至验证集中的样 本避免相似, 保证对此类数据的监督性, 使同一样本簇中簇内抽 取的验证集与训练集具有差异, 以体现验证集可以对 模型泛化 性进行表达 。 8.如权利要求1所述的数据集划分方法, 其特征在于, 在所述将所述困难样本簇及独立 样本簇添加至所述验证集 步骤中, 所述方法还 包括: 基于所述困难样本簇, 得到第 一代表样本, 对所述第 一代表样本进行增广, 将增广后的 所述第一代 表样本添加至所述验证集中, 所述第一代 表样本为具有代 表性的困难样本; 基于所述独立样本簇, 得到第 二代表样本, 并对所述第 二代表样本进行增广, 将增广后 的所述第二代表样本添加至所述验证集中, 所述第二代表样本是指具有代表性的独立样 本。 9.如权利要求1所述的数据集划分方法, 其特征在于, 在所述将所述困难样本簇及独立 样本簇添加至所述验证集 步骤之后, 所述方法进一 步包括: 将所有所述独立样本 簇及所述困难样本 簇均添加至训练集中; 抽取一般样本 簇中, 验证集抽取后剩余的样本添加至训练集中。 10.一种数据集划分装置, 其特 征在于, 所述装置包括: 提取模块, 用于在小型同任务目标网络中输入获取的训练图像, 得到所述训练图像的 图像特征, 所述图像特征包括对应于困难样本的第一特征对应于独立样本的第二特征及对 应于一般样本的第三特征, 所述小型同任务目标网络用于快速获取所述困难样本及独立样 本; 处理模块, 用于基于所述图像特征对所述训练图像进行聚类, 得到样本簇, 所述样本簇 包括第一特征对应的困难样 本簇、 第二特征对应的独立样 本簇、 以及一般样 本簇, 所述独立 样本簇为单独图像成簇的样 本簇, 所述困难样 本为输出概率低于预设阈值的样本、 和/或输 出结果错误的样本; 抽样模块, 用于将所述一般样本簇抽样后构成验证集, 并将所述困难样本簇及独立样 本簇添加至所述验证集。权 利 要 求 书 2/2 页 3 CN 115482437 A 3

PDF文档 专利 一种数据集划分方法及装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据集划分方法及装置 第 1 页 专利 一种数据集划分方法及装置 第 2 页 专利 一种数据集划分方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:28上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。