(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210609728.9
(22)申请日 2022.05.31
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 郝艳宾 王志才 王硕 何向南
谢发权
(74)专利代理 机构 北京凯特来知识产权代理有
限公司 1 1260
专利代理师 郑立明 韩珂
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)G06K 9/62(2022.01)
(54)发明名称
图像空域信息的建模与捕捉方法、 系统、 设
备及存储介质
(57)摘要
本发明公开了一种图像空域信息的建模与
捕捉方法、 系统、 设备及存储介质, 本发明中, 针
对现阶段的多层感知机网络模型在处理图片空
域信息低效的问题, 创新性地设计了基于位置编
码实现的分组空域信息融合方式, 在有效提升基
线模型性能的同时, 显著的减少了模型参数量,
且仅引入很少的计算开销; 并且, 率先提出基于
泛化二次位置编码的在感知机网络中的应用, 并
从同时实现全局/局部特征建模角度提升了模型
性能, 最终设计采用了基于特征分窗设计的层级
连接网络框架, 进一步提升了感知机网络性能表
现, 使其具有相当甚至超 过基于卷积和自注意力
模型的网络性能。
权利要求书3页 说明书12页 附图4页
CN 114863132 A
2022.08.05
CN 114863132 A
1.一种图像空域信息的建模与捕捉方法, 其特 征在于, 包括:
对输入的原 始图像进行 下采样, 获得原 始的三维张量并进行分窗操作;
将窗口形式的三维张量输入至基于特征分窗设计的网络平台, 由所述网络平台采用基
于位置编 码实现的分组空域信息融合方式进 行空域信息的建模与捕捉, 获得原始图像的数
据特征张量;
其中, 所述网络平台为金字塔型层级连接框架结构, 每一层级包含若干依次连接的单
层网络, 所述单层 网络中设有基于位置编码和门控函数设计的基本模型层, 所述基本模型
层对输入信息进行分组, 将其中一组作为空域信息, 利用二次位置编码方法进行空域信息
聚合建模, 获得融合特征, 再与另一组经门控函数实现特征强化; 每一层 级输出强化后的三
维张量, 经过下采样后作为后一层级的输入, 最后一个层级的输出即为所述原始图像的数
据特征张量。
2.根据权利要求1所述的一种图像空域信息的建模与捕捉方法, 其特 征在于,
利用多层卷积层和归一化层 对输入的原始图像进 行下采样, 获得分辨率为
的
三维张量; 其中, H、 W分别表示所述原始图像的高度、 宽度, C表示所述原始图像的通道数, K
表示下采样比例;
网络平台 中不同层级之间采用单层分组卷积和归一 化层进行 下采样。
3.根据权利要求1所述的一种图像空域信 息的建模与捕捉方法, 其特征在于, 第 一层级
的输入为对原始的三 维张量进 行分窗操作后获得的窗口形式的三 维张量, 每一层级将处理
完毕的窗口形式的三 维张量组合作为所在层级输出的强化后的三 维张量, 经过下采样与分
窗操作后作为后一层级的输入; 其中, 每一层级内部的不同窗口共享 参数。
4.根据权利要求1所述的一种图像空域信 息的建模与捕捉方法, 其特征在于, 将所述单
层网络称为PosMLP层, 将所述基本模型层称为PEG单元; 每一PosMLP层包括: 依次设置的归
一化层、 第一 通道全连接层、 激活函数层、 PEG单 元与第二 通道全连接层。
5.根据权利要求4所述的一种图像空域信 息的建模与捕捉方法, 其特征在于, 所述每一
层级输出强化后的三维张量包括:
每一层级通过若干依次连接的PosMLP层对输入的窗口形式的三维张量进行处理, 获得
强化后的三维张量;
每一层级中每一个PosMLP层的输入为窗口形式的三维张量
其中,
为实
数集, M表 示窗口数量, N表示窗口内部的像素数量, C表 示所述原始图像的通道数; 通过所述
归一化层 对窗口形式的三 维张量X进 行处理; 通过所述第一通道全连接层将其从C个通道 膨
胀到γC个通道, 获得特征张量记为
其中, γ表示膨胀系数; 利用所述激活函
数层对所述特征张量X ′进行非线性激活; 将非线性激活后的特征张量输入至P EG单元, 再通
过所述第二通道全连接层将P EG单元输出的特征压缩至C个通道; 通过残差连接组合第二通
道全连接层的输出与输入的窗口形式的三维张量X, 获得第一个PosMLP层输出的强化后的
三维张量; 后一个PosMLP层以前一个PosMLP层输出的强化后的三维张量作为输入, 最后一
个PosMLP层输出的强化后的三维张量即为所在 层级输出的强化后的三维张量。
6.根据权利要求1所述的一种图像空域信 息的建模与捕捉方法, 其特征在于, 所述基本
模型层对输入信息进行分组, 将其中一组作为空域信息, 利用二次位置编码方法进行空域权 利 要 求 书 1/3 页
2
CN 114863132 A
2信息聚合建模, 获得融合特 征, 再与另一组经门控函数实现特 征强化包括:
将所述基本模型层的输入信息记为X ′, 并在通道维度上平均分为两组, 记为X ′1和X′2;
将X′1作为空域信息, 利用二次位置编码方法进行空域信息聚合 建模, 获得融合特征, 再
与X′2经门控函数实现特 征强化, 表示 为:
PEG(X′)=GGQPE(X′1)⊙X′2
其中, GGQPE表示二次位置编码方法的运算函数, 符号 ⊙表示通过门控函数实现的门控
操作。
7.根据权利要求1或6所述的一种图像空域信息的建模与捕捉方法, 其特征在于, 所述
二次位置编码方法包括:
进行空域信息聚合 建模时, 采用分组映射的方式, 将作为空域信息的一组信息 X′1分为s
组, 即X′1={x1,x2,...,xs}, 为X′1中的每一组信息xg学习一个映射矩阵Wg‑gqpe, g=1,2, …,
s;
映射矩阵Wg‑gqpe由可学习的注意力中心
和协方差矩阵
以及从注册
在内存中的位置先验张量r决定, 表示 为:
其中,
表示映射矩阵Wg‑gqpe中(i ,j)位置处的元素,
为转置符号;
为像素i与像素j的相对距离, pi、 pj分别表示像素i、 像素j的空间位置,
Softmaxj表示对于像素j所在维度进行的Softmax计算, 偏置投影向量vg中(∑g‑1Δg)1与
(∑g‑1Δg)2分别表示∑g‑1Δg计算获得的向量中的第1个元素与第2个元素,
分别表示协方差矩阵∑g的逆矩阵中第 1行第1列、 第2行第2列、 第 1行第2列元
素;
利用映射矩阵Wg‑gqpe对相应的信息xg进行映射, 信息X ′1中所有分组信息映射完毕后通
过拼接操作, 获得融合特 征, 表示为:
GGQPE(X′1)=Concat{W1‑gqpex1,...,Ws‑gqpexs}
其中, Concat表示拼接操作。
8.一种图像空域信息的建模与捕捉系统, 其特征在于, 基于权利要求1~7任一项所述
的方法实现, 该系统包括:
原始图像下采样单元, 用于对输入的原始图像进行下采样, 获得原始 的三维张量并进
行分窗操作;
基于特征分窗设计的网络平台, 其输入为原始图像下采样单元输出的窗口形式的三维
张量, 采用基于位置编码实现的分组空域信息融合方式进行空域信息的建模与捕捉, 获得
原始图像的数据特 征张量;
其中, 所述网络平台为金字塔型层级连接框架结构, 每一层级包含若干依次连接的单权 利 要 求 书 2/3 页
3
CN 114863132 A
3
专利 图像空域信息的建模与捕捉方法、系统、设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:10:19上传分享