全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211394661.8 (22)申请日 2022.11.09 (71)申请人 北京航空航天大 学 地址 100191 北京市海淀区学院路37号 (72)发明人 王帅 汪浩然 屈晓磊  (74)专利代理 机构 北京天汇航智知识产权代理 事务所(普通 合伙) 11987 专利代理师 高永 (51)Int.Cl. G06T 7/00(2017.01) G06V 10/30(2022.01) G06V 10/75(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于强化学习的学术图像复用检测方 法 (57)摘要 本发明公开了一种基于强化学习的学术图 像复用检测方法, 首先使用强化学习模型迭代地 选择训练样 本标注并对特征匹配参数进行调整, 得到最优匹配参数; 之后接收进行复用检测的 图 像, 使用SIFT特征提取得到其特征点图, 最后使 用最优匹配参数和双向匹配策略的特征匹配方 法对特征点进行匹配、 判定匹配结果并输出特征 点匹配图。 该方法在使用中通过主动向用户接收 反馈标注, 动态地持续学习以提升检测性能, 可 应对数据特点的迁移和新的数据类别, 自动适应 不同的实际应用场景; 采用双向匹配机制进行特 征点筛选, 鲁棒性更好, 特征点匹配置信度更高, 检测结果 查准率更高。 权利要求书2页 说明书8页 附图5页 CN 115439479 A 2022.12.06 CN 115439479 A 1.一种基于强化学习的学术图像复用检测方法, 其特 征在于, 包括以下步骤: S1, 构建强化学习模型, 所述强化学习模型包括样本选择模块和参数调整模块, 迭代训 练所述样本 选择模块和参数调整模块; S2, 使用SIFT特征提取方法对原图像和目标 图像的SIFT特征进行检测和提取, 得到原 图像和目标图像的特 征点图; S3, 初始化有效匹配比例阈值R和特异性参数T, 输入原图像和目标图像的特征点图, 判 断是否需要进行参数调整, 是则利用步骤S1训练好的强化学习模型优化调整T和R, 否则直 接进入步骤S4; S4, 依次采用正向匹配和反向匹配对特征点图进行特征点匹配检测, 利用特异性参数T 进行判断筛 选, 保留两次匹配中共同的特 征匹配点对, 得到最终的特 征匹配点对集 合; S5: 对特征匹配点对集合进行特征过滤, 去除图像边缘周围的匹配点、 离散的匹配点以 及重复的匹配点, 并统计最终保留的匹配点对数量; 判断特征匹配点对数量占特征点总 数 的比例是否大于等于有效匹配比例阈值R, 如果满足, 则在图像中绘制匹配点, 并以直线连 接, 输出有效特 征点匹配图; 如果 不满足, 则直接结束。 2.根据权利要求1所述的方法, 其特征在于, 所述步骤S1, 所述样本选择模块包括 Actor‑sample网络和Critic ‑sample网络, 参数调整模块包括Actor ‑param网络和Critic ‑ param网络 。 3.根据权利要求2所述的方法, 其特征在于, 所述步骤S1, 所述迭代训练所述样本选择 模块和参数调整模块, 包括以下子步骤: S11, 读取图像数据, 计算图像SIFT特 征, 构建训练数据集; S12, 使用图像SIFT特 征构造样本 选择特征状态S‑sample和动作空间A ‑sample; S13, Actor ‑sample网络根据S ‑sample和A ‑sample选择部分样本s用于下一 步标注; S14, Critic ‑sample网络根据S ‑sample和动作 asample给出对样本s的价值评价q ‑ sample; S15, 人工标注选择的部分样本s; S16, 使用标注后的样本s训练参数调整模块; S17, 使用奖励函数计算样本选择奖励值reward ‑sample, 并使用reward ‑sample和 q‑ sample更新Actor ‑sample和Critic ‑sample网络参数; S18, 判断标注预算是否耗尽, 若否, 则回到步骤S12, 若是, 则训练结束。 4.根据权利 要求3所述的方法, 其特征在于, 所述样本选择特征状态S ‑sample由图像样 本对的特征点图、 特征点匹配结果以及相应的图像检测结果拼接得到; 所述动作空间A ‑ sample由图像样本对的特征点图、 特征点匹配结果、 相应的图像检测结果和图像样本对与 有标注集中样本对的特 征点匹配结果 直方图的KL散度直方图拼接得到 。 5.根据权利要求 4所述的方法, 其特 征在于, 所述 价值评价q‑sample; 其中Qsample为Critic ‑sample网络, Ssample为样本选择模块中对于当前状态的描述, Asample为在一轮迭代中Actor ‑sample可能选择的所有样本对的集和, θcritic‑sample为当前 Critic‑sample网络参数;权 利 要 求 书 1/2 页 2 CN 115439479 A 2所述奖励值reward ‑sample通过 奖励函数 获得: 其中 为选出的未标注样本数量, 为检测结果, 为人工标注真值。 6.根据权利要求3 ‑5任一项所述的方法, 其特征在于, 所述步骤S16训练参数调整模块 包括以下子步骤: S16‑1, 读取初始化匹配参数T、 R; S16‑2, 将标注后的样本s加入有标注集 DL, 并使用DL准备训练数据; S16‑3, 使用训练样本的特征点数据和标注构造参数调整状态S ‑param和动作空间A ‑ param; S16‑4, Actor‑param网络根据S ‑param和A ‑param选择参数改进量ΔT和ΔR; S16‑5, Critic ‑param网络给 出对ΔT和ΔR的价 值评价q‑param; S16‑6, 使用ΔT和ΔR更新T、 R得到新匹配参数T ‑new、 R‑new; S16‑7, 使用参数T ‑new、 R‑new对训练数据进行 特征匹配; S16‑8, 根据匹配结果计算参数调整奖励值reward ‑param, 更新Actor ‑param和Critic ‑ param网络参数; S16‑9, 判断是否 达到最大迭代次数, 若否, 则回到步骤S16 ‑4, 若是, 则训练结束。 7.根据权利要求6所述的方法, 其特征在于, 所述参数调整状态S ‑param由图像样本对 的特征点图、 特征点匹配结果以及相应的图像检测结果、 人工标注真值拼接得到; 所述动作 空间A‑param为本轮参数调整中匹配参数T、 R的改变量的所有可能取值。 8.根据权利要求7所述的方法, 其特征在于, 所述奖励值reward ‑param通过奖励函数 获得: 其中m=1, 表示样本的检测结果空间为{0,1}, Ⅱ(·)是示性函数, 是检测结果的确信度softmax结果。 9.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S4, 包括以下子步骤: S41: 特征匹配, 遍历每一个特征, 计算其与剩余特征之间的距离, 取欧式距离最小和第 二小的特征向量, 距离分别记为d1和d2, 根据Lowe ’s算法, 如果d1<d2*T, 则认为这两个特征 高度相似, 保留该 特征匹配点对, 否则不保留; S42: 反向匹配, 交换检测的图像对顺序, 遍历每一个特征, 计算其与剩余特征之间的距 离, 取欧式距离最小和第二小的特征向量, 距离分别记 为d1和d2, 根据Lowe ’s算法, 如果d1< d2*T, 则认为 这两个特 征高度相似, 保留该 特征匹配点对, 否则不保留; S43, 删除两次匹配中不相同的特 征点, 仅保留其交集。权 利 要 求 书 2/2 页 3 CN 115439479 A 3

PDF文档 专利 一种基于强化学习的学术图像复用检测方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的学术图像复用检测方法 第 1 页 专利 一种基于强化学习的学术图像复用检测方法 第 2 页 专利 一种基于强化学习的学术图像复用检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:26:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。