专利零样本图像分类方法、系统、设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210534202.9 (22)申请日 2022.05.17 (65)同一申请的已公布的文献号申请公布号 CN 114627312 A (43)申请公布日 2022.06.14 (73)专利权人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人王子磊　胡效鸣　 (74)专利代理机构北京凯特来知识产权代理有限公司 1 1260 专利代理师郑立明　韩珂 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 110163258 A,2019.08.23 CN 110795585 A,2020.02.14 WO 20180 32354 A1,2018.02.2 2 闵少波. 《弱监督细粒度图像识别技术研究》 . 《中国优秀博硕士学位论文全文数据库（博士）信息科技辑》 .2021,(第9期),第I138- 34页. zhong ji， et al. 《F ew-shot human-object interacti on recogn ition with Semantic - guided at tentive prototypes netw ork》 . 《IEEE Transacti ons on Image Proces sing》 .2020,第3 0卷第1648-16 61页. 审查员李宇文 (54)发明名称零样本图像分类方法、系统、设备及存储介质 (57)摘要本发明公开了一种零样本图像分类方法、系统、设备及存储介质，为了建模属性中包含的具体信息，使用通道选择与空间抑制两个操作对视觉特征进行更新，从而定位视觉特征图中与语义属性相关且具有判别性的部分区域；为了建模对应于空间中多个部位关系的抽象属性，使用视觉特征与语义属性交互的方式，对抽象属性进行判别；本发明的上述方案通过动态建模来自适应地调整语义属性的表征，能够改善同一属性在不同物体上的视觉表征不一致的问题。实验结果表明本发明所提出方法在零样本图像分类任务上能够大幅提升分类准确率。权利要求书3页说明书11页附图2页 CN 114627312 B 2022.09.06 CN 114627312 B 1.一种零样本图像分类方法，其特征在于，包括：步骤1、提取输入图像的视觉特征图；步骤2、从所述视觉特征图中分别选取与已标注的每一组属性相关的通道；对每一组属性相关的通道分别通过属性原型学习操作将相应通道的视觉特征转换至语义空间，再通过空间抑制操作获得每一组属性对应的空间抑制后的特征图，结合所有组属性对应的空间抑制后的特征图，获得第一属性预测结果；步骤3、利用步骤2中学习到的属性原型与预先利用词向量模型提取的属性原型分别作为每个属性的语义表示，并分别与所述视觉特征图进行交互，获得两份注意力热图，将两份注意力热图与所述视觉特征图结合，获得第二属性预测结果；步骤4、结合第一属性预测结果与第二属性预测结果，进行图像属性分类。 2.根据权利要求1所述的一种零样本图像分类方法，其特征在于，从所述视觉特征图中分别选取与已标注的每一组属性相关的通道包括：设置多个通道选择模块，每一通道选择模块的输入均为所述视觉特征图；记所述视觉特征图的通道数、高度、宽度分别为C、 H、 W，图像标注有N条属性，每一属性的词向量维度均记为K，将同时对应物体同一部位的若干属性作为一组属性，分组获得多组属性；每一通道选择模块针对输入的视觉特征图分别进行如下处理：对输入的视觉特征图进行全局平均池化操作，得到维度为C的视觉特征图描述向量；使用通道重要性生成网络根据视觉特征图描述向量生成维度为C的通道重要性向量；所述通道重要性向量中单个分量表示对应的视觉特征图通道对于识别某一组属性的重要程度；使用门控机制从通道重要性向量中选取激活值最大的多个分量；将选取的所有分量的掩码设置为 1，表示在识别某一组属性时需要被保留的通道；将其余分量的掩码设置为0，表示将相应分量对应的通道丢弃；将选取的分量的掩码与所述视觉特征图逐元素相乘，表示仅使用被保留的通道对相应的一组属性进行识别。 3.根据权利要求1所述的一种零样本图像分类方法，其特征在于，所述对每一组属性相关的通道分别通过属性原型学习操作将相应通道的视觉特征转换至语义空间包括：为每一组属性设置对应的属性原型；对每一组属性相关的通道进行卷积操作，将相应通道的视觉特征转换至语义空间，卷积操作的卷积核为相应属性对应的属性原型，通过优化卷积操作的参数学习属性原型。 4.根据权利要求1所述的一种零样本图像分类方法，其特征在于，所述通过空间抑制操作获得每一组属性对应的空间抑制后的特征图，结合所有组属性对应的空间抑制后的特征图，获得第一属性预测结果包括：对于转换至语义空间的特征图上每一通道，在空间尺度上分别选取激活值最大的位置和另一个随机的位置，将选取的两个位置所对应的激活值以设定的随机概率乘以固定的抑制系数，获得空间抑制后的特征图；将所有组属性对应的空间抑制后的特征图进行全局平均池化操作，获得第一属性预测结果。 5.根据权利要求1所述的一种零样本图像分类方法，其特征在于，所述利用步骤2中学习到的属性原型与预先利用词向量模型提取的属性原型分别作为每个属性的语义表示，并分别与所述视觉特征图进行交互，获得两份注意力热图，将两份注意力热图与所述视觉特权　利　要　求　书 1/3 页 2 CN 114627312 B 2征图结合，获得第二属性预测结果包括：对所述视觉特征图分别进行四种不同的卷积操作；通过两种不同的卷积操作获得维度为C的特征图，以及维度为K的特征图；其中，维度C 等于所述视觉特征图的通道数C，维度K等于图像标注中每一属性的词向量维度；将维度为C 的特征图与步骤2中学习到的属性原型进行交互，得到尺度为N* （H*W）的针对每个属性的空间尺度的注意力热图，称为第一注意力热图；将维度为K的特征图与词向量模型提取的属性原型进行交互，得到尺度为N* （H*W）的针对每个属性的空间尺度的注意力热图，称为第二注意力热图；其中， N 为图像标注的属性数目， H、 W分别为视觉特征图的高度、宽度；通过第三种卷积操作捕捉所述视觉特征图的空间线索，获得维度为H*W的特征图，将维度为H*W的特征图与第一注意力热图及第二注意力热图分别相乘，获得两个属性激活图；通过第四种卷积操作将所述视觉特征图变换至语义空间，并与所述两个属性激活图相加后进行全局平均池化操作，获得第二属性预测结果。 6.根据权利要求1所述的一种零样本图像分类方法，其特征在于，将所述步骤1通过深度神经网络实现，将所述步骤2通过属性定位分支网络实现，将所述步骤3通过视觉语义交互分支网络实现，将所述步骤4通过分类器实现；由所述深度神经网络、属性定位分支网络、视觉语义交互分支网络与分类器构成零样本图像分类模型；训练阶段利用交叉熵分类损失和梯度提升损失构造总的损失函数；利用所述总的损失函数对所述零样本图像分类模型进行训练，更新所述深度神经网络、属性定位分支网络与视觉语义交互分支网络的参数。 7.根据权利要求6所述的一种零样本图像分类方法，其特征在于，所述利用交叉熵分类损失和梯度提升损失构造总的损失函数包括：将所述属性定位分支网络对应的第一属性预测结果分别与各个类别的标签语义属性相乘，将所述视觉语义交互分支网络对应的第二属性预测结果分别与各个类别的标签语义属性相乘，得到两个分支网络对输入图像的类别预测结果，每一分支网络对输入图像的类别预测结果即为输入图像对应各个类别的激活值得分；使用交叉熵损失分别约束两个分支网络的类别预测结果，构建两个交叉熵损失函数；根据两个分支网络对输入图像的类别预测结果，选出激活值得分最高的k个非标签类别，在标签类别与k个非标签类别所组成的类别集合中计算交叉熵损失作为梯度提升损失，构建两个梯度提升损失项函数；为每一交叉熵损失函数以及每一梯度提升损失项函数分别设置相应的权重，计算两个交叉熵损失函数以及两个梯度提升损失项函数的加权和，作为总的损失函数。 8.一种零样本图像分类系统，其特征在于，该系统包括零样本图像分类模型，由所述零样本图像分类模型基于权利要求1~7任一项所述的方法实现零样本图像分类，所述零样本图像分类模型包括：深度神经网络，用于提取输入图像的视觉特征图；属性定位分支网络，用于从所述视觉特征图中分别选取与已标注的每一组属性相关的通道；对每一组属性相关的通道分别通过属性原型学习操作将相应通道的视觉特征转换至语义空间，再通过空间抑制操作获得每一组属性对应的空间抑制后的特征图，结合所有组属性对应的空间抑制后的特征图，获得第一属性预测结果；视

专利 零样本图像分类方法、系统、设备及存储介质

专利零样本图像分类方法、系统、设备及存储介质