专利一种基于非局部特征聚合神经网络的目标分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210831695.2 (22)申请日 2022.07.15 (71)申请人南京师范大学地址 210046 江苏省南京市栖霞区文苑路1 号 (72)发明人刘畅　谢非　杨继全　郑鹏飞　戴亮　张培彪　刘谦　单飞宇　刘益剑　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师向文 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/25(2022.01) G06V 10/26(2022.01)G06V 10/42(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于非局部特征聚合神经网络的目标分割方法 (57)摘要本发明公开了一种基于非局部特征聚合神经网络的目标分割方法，包括：采集目标视频，提取视频的原始分帧图像，得到小样本数据集；搭建非局部特征聚合神经网络模型，训练非局部特征聚合神经网络模型得到目标分割网络；再次采集目标视频，计算图像中每个目标的分割质量评估分数；根据分割质量评估分数判断图像质量，低质量图像继续训练，保留高质量图像中目标轮廓关键点；通过B AS‑DP轻量化算法优化目标轮廓关键点，得到目标分割结果。本发明具有精度高、训练数据量少、环境适应性强和分割效果好的优点。权利要求书4页说明书8页附图4页 CN 115223080 A 2022.10.21 CN 115223080 A 1.一种基于非局部特征聚合神经网络的目标分割方法，其特征在于，包括如下步骤： S1：采集目标视频，提取视频的原始分帧图像，得到小样本数据集，手动分割出所有目标，以不同颜色的掩码标注不同类别的目标，划分训练集和验证集； S2：搭建非局部特征聚合神经网络模型，并结合coco数据集的80分类预训练模型进行迁移学习，训练非局部特征聚合神经网络模型得到目标分割网络； S3：再次采集目标视频，提取分帧图像，输入到目标分割网络中，得到每幅图中的目标类别、分类分数、掩码轮廓关键点及掩码分数，计算图像中每个目标的分割质量评估分数； S4：根据分割质量评估分数判断图像质量，如果一幅图像中全部目标的分割质量评估分数都大于设定值则这幅图像为高质量图像，反之为低质量图像，低质量图像继续训练，保留高质量图像中目标轮廓关键点； S5：通过BAS ‑DP轻量化算法优化目标轮廓关键点，得到目标分割结果。 2.根据权利要求1所述的一种基于非局部特征聚合神经网络的目标分割方法，其特征在于，所述步骤S2中非局部特征聚合神经网络模型的搭建方法为： A1：将得到的小样本数据集输入到非局部特征聚合神经网络模型的主干神经网络进行处理，得到输入图像的特征图； A2：将得到的特征图输入到非局部特征聚合神经网络模型的区域生成网络(RPN)，得到感兴趣候选区域(Ro I)，采用Ro IAlign提取RoI特征并使Ro I特征对齐； A3：使用Ro I特征聚合网络对Ro I进一步处理，在特征图上提取Ro I全局特征； A4：将候选区域输入到R ‑CNN Head网络得到目标区域类别分数和边界框回归位置，同时输入到MaskHead网络，得到目标的预测掩码，将目标从复杂环境分离出来并对其轮廓关键点进行预测； A5：将步骤A3得到的RoI特征和步骤A4得到的预测掩码输入到MaskIoU Head网络，对真实掩码和预测掩码进行回归，计算预测掩码与真实掩码的交并比，即MaskIoU值，得到目标掩码分数，完成非局部特征聚合神经网络模型的搭建。 3.根据权利要求2所述的一种基于非局部特征聚合神经网络的目标分割方法，其特征在于，所述步骤A1 中主干神经网络包括残差网络ResNet50和特征图金字塔网络FPN；残差网络ResNet50是由一个7 ×7的输入卷积，经过3 ×3的最大池化后经过16个残差块，每个残差块为1×1、 3×3、 1×1的三层卷积层组成，所以共有50层网络；将残差网络ResNet50分为5个阶段， stage1～stage4的输出为[C2,C3,C4,C5]四种不同尺度的特征图，特征金字塔一共有五层，从第一个层提取特征后逐层传递到第五层，但尺度逐层下降一倍，生成不同尺度的特征图，再将相邻特征图相减,得到新的特征图，对应得到特征图金字塔网络FPN网络中5个不同尺度的特征图输出。 4.根据权利要求2所述的一种基于非局部特征聚合神经网络的目标分割方法，其特征在于，所述步骤A2的具体过程为： B1：将得到的特征图输入到RPN通过滑动窗口为每个位置生成9种预先设定好长宽比和面积的目标框；经过一个卷积核大小为3 ×3的卷积，分别经过卷积核大小为1 ×1输出通道数为36的卷积和卷积核大小为1×1输出通道数为 18的卷积，前者得到的结果包括四个值即目标框中心点横纵坐标和目标框的长宽，后者得到的结果进行裁剪过滤后经过softmax激活函数后可以判断目标框属于前景还是背景，并为属于前景的目标框进行坐标修正，生成权　利　要　求　书 1/4 页 2 CN 115223080 A 2RoI； B2：使用RoIAlign将RoI对齐；在原图上找到400个RoI，将这些RoI映射回特征图上，采用以下公式：其中， w和 h分别表示RoI宽度和高度； ka是这个RoI应属于的特征层尺度； k0是w＝224， h ＝224时映射的特征层尺度；使用每个RoI的长、宽除以步长，得到RoI映射到特征图上的图像大小，如果此时映射到特征图的大小为浮点数，则不进行取整操作，保留浮点数；如果要将特征图上的感兴趣区域对齐到7×7，假设映射到特征图的大小为n ×n，则将n×n这个区域分成49份，每一份大小为 (n/7)×(n/7)，设采样点数为4，再将(n/7) ×(n/7)的小区域平分成四份，每一份取其中心点位置的像素，采用双线性插值法进行计算得到四个点的像素值，取四个像素值中最大值作为这个小区域的像素值，依次类推，将49个小区域所得到得49个像素值组成大小为7 ×7 的特征图。 5.根据权利要求2所述的一种基于非局部特征聚合神经网络的目标分割方法，其特征在于，所述步骤A3的具体过程为： RoI特征聚合网络包括三个子模块：预处理模型、聚合模块、后处理模块；预处理模块是一层卷积核大小为5 ×5的卷积层，可以进一步扩大特征图的感受野，假设通过预处理后得输出为U＝[u1,u2,u3,u4]∈RH×W， H和W分别为特征图的高和宽， u1,u2,u3,u4分别为RoI映射到原特征图[C2,C 3,C4,C5]四个不同尺度下的特征，聚合运算后的结果由以下公式表示： X＝sum(U) ·ε(Fs(U)) 其中，式中m、 n分别为行、列， k为不同尺度的数量，函数Fs(·)为聚合函数， ε( ·)为ReLU 激活函数， sum(U)为四个尺度的RoI特征求和，将四个尺度的RoI特征分别采用全局平均池化后结果求和与四个尺度的Ro I特征求和后的结果相乘得到最终的聚合特征X；采用GCN作为后处理模块的非局部网络，其中每个图节点代表特征图上的单个像素，非局部模块的输出Zg可表示为： Zg＝σ(AXWg)+X 其中， A表示图节点相邻关系的邻接矩阵， Wg是权重可学习的输出变换矩阵，通过1 ×1卷积实现， σ( ·)是由BatchNorm归一化和ReLU激活函数组成的非线性函数，并增加一个聚合模块输出的聚合特征X残差连接；构造的邻接矩阵A 表示为： A＝softmax( θ(xi)Tφ(xj)) 其中， xi和xj是两个成对的图节点，每两个图节点具有成对的相似性， θ( ·)和是两个可训练的变换函数，通过1 ×1卷积实现， θ(xi)和是经过1×1卷积后的输出， softmax 为激活函数。权　利　要　求　书 2/4 页 3 CN 115223080 A 3

专利 一种基于非局部特征聚合神经网络的目标分割方法

专利一种基于非局部特征聚合神经网络的目标分割方法