全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210779763.5 (22)申请日 2022.07.04 (71)申请人 桂林电子科技大 学 地址 541004 广西壮 族自治区桂林市七 星 区金鸡路1号 (72)发明人 江泽涛 朱文才  (74)专利代理 机构 桂林市华杰 专利商标事务所 有限责任公司 451 12 专利代理师 周雯 (51)Int.Cl. G06V 10/424(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 一种基于RDE-Net的低照度图像描述方法 (57)摘要 本发明公开一种基于RDE ‑Net的低照度图像 描述方法, 所述方法包括如下步骤: 1) 对 图像描 述数据集进行处理和划分; 2) 构造FEX网络从特 征图中提取全局特征、 区域特征和细节特征; 3) 构造ENH网络利用细节特征强化区域特征, 增强 区域特征对细 节的感知能力; 4) 构造两阶段预测 模块和CC模块共同对图像进行描述。 这种方法中 对经过细节强化的区域特征和由低照度目标检 测器产生的对象类别词进行了利用, 保证了在低 照度下也能很好的区分相似的物体, 不会产生混 淆。 权利要求书3页 说明书10页 附图4页 CN 115294345 A 2022.11.04 CN 115294345 A 1.一种基于RDE ‑Net的低照度图像描述方法, 其特 征在于, 包括如下步骤: 1)对图像描述数据集进行处 理和划分: 过程 为: 1‑1)采用COCO数据集, COCO数据集共计12328 7张图像, 将这个数据集以8:2的比例分成 两部分, 其中80%为训练集, 共98630张图片, 20%为测试集, 共25057张图片, 收集划分情况 如表1所示, 表1: 1‑2)采用现有的CycleGAN模型对数据集中的图片进行处理: 降低图片的光照、 将数据 集中的正常照度图片转 化为低照度图片, 随后将图像大小统一缩放 为256*256; 1‑3)采用现有的IA ‑YOLO模型对低照度图片进行目标检测, 获得每张图片中对象的类 别和对应的位置, 对象 的类别表现为类别单词, 即对象类别文本信息, 位置表现为边界框坐 标; 2)构造FEX网络特 征图中提取全局特 征、 区域特 征和细节特 征: 过程为: 2‑1)FEX网络中设有针对三张特征图的映射操作和三个模块的调用, 将步骤1 ‑3)中取 得的边界框等比缩小, 获得在三个特征图中的对应位置, 三个特征图为IA ‑YOLO中送入检测 头的三个特征图, 分别记 为C3、 C4、 C5, 然后对于每个边界框, 选择生 成其坐标时采用的那一 个特征图, 采用映射的方式取 得区域特 征子图, 随后调用RFE模块、 DFE模块、 GEX模块; 2‑2)将区域特征子图输入RFE模块、 DFE模块, 将C3、 C4、 C5输入GEX模块, RFE模块和DFE 模块从区域特征子图中提取区域特征向量和细节特征向量, GEX模块从特征图中提取全局 特征向量, GEX模块、 RFE模块、 DFE模块的输出均为512维的特 征向量; 3)构造ENH网络依据细节特 征强化区域特 征: 过程为: 3‑1)ENH网络中设有SIMCAL模块和RFEN模块, 对于网络的输入, 先调用SIMCAL模块, 再 调用RFEN模块, 调用SIMCAL模块时将区域特征与细节特征送入其中进行权重计算, 输出为 有效权重和相似度权 重; 3‑2)将区域特征、 细节特征和SIMCAL模块的输出共同送入RFEN模块, 依据细节特征增 强区域特 征对细节的感知能力; 4)构造两阶段预测模块和C C模块, 共同对图像进行描述: 过程 为: 4‑1)采用步骤3 ‑2)中取得的区域特征和步骤2 ‑2)中取得的全局特征进行第一阶段描 述, 即将二者共同送入一个Transformer结构中, 记 为Tr‑s1, Tr‑s1中设有编码器和解码器, 编码器和解码器内分别设置三个编码层和三个解码层, Tr ‑s1的输出为最后一个编码层产权 利 要 求 书 1/3 页 2 CN 115294345 A 2生的经过自注意力运算的全局特征向量和最后一个解码层产生的计算结果, 分别记为Fg' 和Fh; 4‑2)设置一个线性层接收步骤4 ‑1)中得到的Fh, 随后接一个softmax函数, 输出为词表 中每个单词的概率, 每个时间步选择概率最大 的一个单词作为结果, 采用交叉熵损失作为 损失函数, 记为 其中y1:c‑1表示已经预测出的前c ‑1个单词, yc表 示准备预测的第c个单词, Pv表示概率; 4‑3)将步骤1 ‑3)中得到的对象类别文本信息进行编码, 每个单词对应一个512维词向 量, 再依据词向量构成词矩阵, 记为E, E中每一列代 表一个单词的词向量; 4‑4)第二阶段描述同样采用Transformer结构进行, 记为Tr ‑s2, 将步骤4 ‑3)中得到的 词矩阵E和步骤4 ‑1)中得到的第一阶段计算结果Fh送入Tr‑s2中, 经过编码和解码后取得第 二阶段计算结果, 将第二阶段计算结果送入步骤4 ‑2)中训练的线性层, 其结果送入softmax 函数后获得第二阶段 预测的单词概 率, 记为Fth; 4‑5)在Tr‑2中解码器的每个解码层后均设置一个CC模块, 三个解码层后均需要设置CC 模块, 最后会得到三组复制概 率, 将三组概 率求平均后作为 最终的复制概 率; 4‑6)对CC模块和第二次描述的结果进行处理, 产生当前时间步最终的预测结果, 即将 步骤4‑4)中取得的第二阶段单词预测概率和步骤4 ‑5)中取得的单词复制概率拼接, 而后从 中选择最高概率的单词作为当前时间步的预测结果, 采用交叉熵损失作为损失函数, 记为 其中y1:c‑1表示已经预测出的前c ‑1个单词, yc表示准备预测的 第c个单词, Ptg表示概率; 4‑7)整体模型在训练过程中, 最终进行训练的损失函数为两个阶段损失函数之和, 损 失函数的公式如(1)所示: 其中y1:c‑1表示已经预测出的前c ‑1个单词, yc表示准备预测的第c个 单词, Pv表示步骤 4‑ 2)中预测的概 率, Ptg表示步骤4‑6)中预测的概 率。 2.根据权利要求1所述的基于RDE ‑Net的低照度图像描述方法, 其特征在于, 步骤2 ‑2) 中所述的GEX模块、 RFE模块、 DFE模块分别为: GEX模块用于进行全局特征提取, 即将C3、 C4、 C5送入GEX模块中, 在模块内部三个特征 图依次通过Rolpool层、 最大池化层和8*8卷积层, 化为三个512维的全局特征向量作为模块 的输出; DFE模块用于进行细节特征提取, 即对于每一个由对象区域映射得到的区域特征子图, 在上面均匀的划分4个小矩形, 每个小矩形再次经过映射后作为细节特征子图, 将细节特征 子图送入Ro lpool层、 最大池化层和4*4卷积层, 获得512维的细节特 征向量; RFE模块用于进行 区域特征的提取, 在这一个过程 中依次将区域特征子图送入Rolpool 层、 最大池化层和8*8卷积层, 最终得到 512维的区域特 征向量。权 利 要 求 书 2/3 页 3 CN 115294345 A 3

PDF文档 专利 一种基于RDE-Net的低照度图像描述方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于RDE-Net的低照度图像描述方法 第 1 页 专利 一种基于RDE-Net的低照度图像描述方法 第 2 页 专利 一种基于RDE-Net的低照度图像描述方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。