专利图像空域信息的建模与捕捉方法、系统、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210609728.9 (22)申请日 2022.05.31 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人郝艳宾　王志才　王硕　何向南　谢发权　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 专利代理师郑立明　韩珂 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01)G06K 9/62(2022.01) (54)发明名称图像空域信息的建模与捕捉方法、系统、设备及存储介质 (57)摘要本发明公开了一种图像空域信息的建模与捕捉方法、系统、设备及存储介质，本发明中，针对现阶段的多层感知机网络模型在处理图片空域信息低效的问题，创新性地设计了基于位置编码实现的分组空域信息融合方式，在有效提升基线模型性能的同时，显著的减少了模型参数量，且仅引入很少的计算开销；并且，率先提出基于泛化二次位置编码的在感知机网络中的应用，并从同时实现全局/局部特征建模角度提升了模型性能，最终设计采用了基于特征分窗设计的层级连接网络框架，进一步提升了感知机网络性能表现，使其具有相当甚至超过基于卷积和自注意力模型的网络性能。权利要求书3页说明书12页附图4页 CN 114863132 A 2022.08.05 CN 114863132 A 1.一种图像空域信息的建模与捕捉方法，其特征在于，包括：对输入的原始图像进行下采样，获得原始的三维张量并进行分窗操作；将窗口形式的三维张量输入至基于特征分窗设计的网络平台，由所述网络平台采用基于位置编码实现的分组空域信息融合方式进行空域信息的建模与捕捉，获得原始图像的数据特征张量；其中，所述网络平台为金字塔型层级连接框架结构，每一层级包含若干依次连接的单层网络，所述单层网络中设有基于位置编码和门控函数设计的基本模型层，所述基本模型层对输入信息进行分组，将其中一组作为空域信息，利用二次位置编码方法进行空域信息聚合建模，获得融合特征，再与另一组经门控函数实现特征强化；每一层级输出强化后的三维张量，经过下采样后作为后一层级的输入，最后一个层级的输出即为所述原始图像的数据特征张量。 2.根据权利要求1所述的一种图像空域信息的建模与捕捉方法，其特征在于，利用多层卷积层和归一化层对输入的原始图像进行下采样，获得分辨率为的三维张量；其中， H、 W分别表示所述原始图像的高度、宽度， C表示所述原始图像的通道数， K 表示下采样比例；网络平台中不同层级之间采用单层分组卷积和归一化层进行下采样。 3.根据权利要求1所述的一种图像空域信息的建模与捕捉方法，其特征在于，第一层级的输入为对原始的三维张量进行分窗操作后获得的窗口形式的三维张量，每一层级将处理完毕的窗口形式的三维张量组合作为所在层级输出的强化后的三维张量，经过下采样与分窗操作后作为后一层级的输入；其中，每一层级内部的不同窗口共享参数。 4.根据权利要求1所述的一种图像空域信息的建模与捕捉方法，其特征在于，将所述单层网络称为PosMLP层，将所述基本模型层称为PEG单元；每一PosMLP层包括：依次设置的归一化层、第一通道全连接层、激活函数层、 PEG单元与第二通道全连接层。 5.根据权利要求4所述的一种图像空域信息的建模与捕捉方法，其特征在于，所述每一层级输出强化后的三维张量包括：每一层级通过若干依次连接的PosMLP层对输入的窗口形式的三维张量进行处理，获得强化后的三维张量；每一层级中每一个PosMLP层的输入为窗口形式的三维张量其中，为实数集， M表示窗口数量， N表示窗口内部的像素数量， C表示所述原始图像的通道数；通过所述归一化层对窗口形式的三维张量X进行处理；通过所述第一通道全连接层将其从C个通道膨胀到γC个通道，获得特征张量记为其中， γ表示膨胀系数；利用所述激活函数层对所述特征张量X ′进行非线性激活；将非线性激活后的特征张量输入至P EG单元，再通过所述第二通道全连接层将P EG单元输出的特征压缩至C个通道；通过残差连接组合第二通道全连接层的输出与输入的窗口形式的三维张量X，获得第一个PosMLP层输出的强化后的三维张量；后一个PosMLP层以前一个PosMLP层输出的强化后的三维张量作为输入，最后一个PosMLP层输出的强化后的三维张量即为所在层级输出的强化后的三维张量。 6.根据权利要求1所述的一种图像空域信息的建模与捕捉方法，其特征在于，所述基本模型层对输入信息进行分组，将其中一组作为空域信息，利用二次位置编码方法进行空域权　利　要　求　书 1/3 页 2 CN 114863132 A 2信息聚合建模，获得融合特征，再与另一组经门控函数实现特征强化包括：将所述基本模型层的输入信息记为X ′，并在通道维度上平均分为两组，记为X ′1和X′2；将X′1作为空域信息，利用二次位置编码方法进行空域信息聚合建模，获得融合特征，再与X′2经门控函数实现特征强化，表示为： PEG(X′)＝GGQPE(X′1)⊙X′2 其中， GGQPE表示二次位置编码方法的运算函数，符号 ⊙表示通过门控函数实现的门控操作。 7.根据权利要求1或6所述的一种图像空域信息的建模与捕捉方法，其特征在于，所述二次位置编码方法包括：进行空域信息聚合建模时，采用分组映射的方式，将作为空域信息的一组信息 X′1分为s 组，即X′1＝{x1,x2,...,xs}，为X′1中的每一组信息xg学习一个映射矩阵Wg‑gqpe， g＝1,2, …, s；映射矩阵Wg‑gqpe由可学习的注意力中心和协方差矩阵以及从注册在内存中的位置先验张量r决定，表示为：其中，表示映射矩阵Wg‑gqpe中(i ,j)位置处的元素，为转置符号；为像素i与像素j的相对距离， pi、 pj分别表示像素i、像素j的空间位置， Softmaxj表示对于像素j所在维度进行的Softmax计算，偏置投影向量vg中(∑g‑1Δg)1与 (∑g‑1Δg)2分别表示∑g‑1Δg计算获得的向量中的第1个元素与第2个元素，分别表示协方差矩阵∑g的逆矩阵中第 1行第1列、第2行第2列、第 1行第2列元素；利用映射矩阵Wg‑gqpe对相应的信息xg进行映射，信息X ′1中所有分组信息映射完毕后通过拼接操作，获得融合特征，表示为： GGQPE(X′1)＝Concat{W1‑gqpex1,...,Ws‑gqpexs} 其中， Concat表示拼接操作。 8.一种图像空域信息的建模与捕捉系统，其特征在于，基于权利要求1～7任一项所述的方法实现，该系统包括：原始图像下采样单元，用于对输入的原始图像进行下采样，获得原始的三维张量并进行分窗操作；基于特征分窗设计的网络平台，其输入为原始图像下采样单元输出的窗口形式的三维张量，采用基于位置编码实现的分组空域信息融合方式进行空域信息的建模与捕捉，获得原始图像的数据特征张量；其中，所述网络平台为金字塔型层级连接框架结构，每一层级包含若干依次连接的单权　利　要　求　书 2/3 页 3 CN 114863132 A 3

专利 图像空域信息的建模与捕捉方法、系统、设备及存储介质

专利图像空域信息的建模与捕捉方法、系统、设备及存储介质