(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210534202.9
(22)申请日 2022.05.17
(65)同一申请的已公布的文献号
申请公布号 CN 114627312 A
(43)申请公布日 2022.06.14
(73)专利权人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 王子磊 胡效鸣
(74)专利代理 机构 北京凯特来知识产权代理有
限公司 1 1260
专利代理师 郑立明 韩珂
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 110163258 A,2019.08.23
CN 110795585 A,2020.02.14
WO 20180 32354 A1,2018.02.2 2
闵少波. 《弱监 督细粒度图像识别技 术研
究》 . 《中国优秀博硕士学位 论文全文数据库 (博
士) 信息科技 辑》 .2021,(第9期),第I138- 34页.
zhong ji, et al. 《F ew-shot human-object
interacti on recogn ition with Semantic -
guided at tentive prototypes netw ork》 .
《IEEE Transacti ons on Image Proces sing》
.2020,第3 0卷第1648-16 61页.
审查员 李宇文
(54)发明名称
零样本图像分类方法、 系统、 设备及存储介
质
(57)摘要
本发明公开了一种零样 本图像分类方法、 系
统、 设备及存储介质, 为了建模属性中包含的具
体信息, 使用通道选择与空间抑制两个操作对视
觉特征进行更新, 从而定位视觉特征图中与语义
属性相关且 具有判别性的部分区域; 为了建模对
应于空间中多个部位关系的抽象属性, 使用视觉
特征与语义属性交互的方式, 对抽象属性进行判
别; 本发明的上述方案通过动态建模来自适应地
调整语义属性的表征, 能够改善同一属性在不同
物体上的视觉表征不一致的问题。 实验结果表明
本发明所提出方法在零样本图像分类任务上能
够大幅提升分类准确率。
权利要求书3页 说明书11页 附图2页
CN 114627312 B
2022.09.06
CN 114627312 B
1.一种零样本图像分类方法, 其特 征在于, 包括:
步骤1、 提取输入图像的视 觉特征图;
步骤2、 从所述视觉特征图中分别选取与已标注的每一组属性相关的通道; 对每一组属
性相关的通道分别通过属性原型学习操作将相应通道的视觉特征转换至语义空间, 再通过
空间抑制操作获得每一组属性对应的空间抑制后的特征图, 结合所有组属性对应的空间抑
制后的特 征图, 获得第一属性预测结果;
步骤3、 利用步骤2中学习到的属性原型与预先利用词向量模型提取的属性原型分别作
为每个属性的语义表示, 并分别与所述视觉特征图进 行交互, 获得两份注意力热图, 将 两份
注意力热图与所述视 觉特征图结合, 获得第二属性预测结果;
步骤4、 结合第一属性预测结果与第二属性预测结果, 进行图像属性分类。
2.根据权利要求1所述的一种零样本图像分类方法, 其特征在于, 从所述视觉特征图中
分别选取与已标注的每一组属性相关的通道包括:
设置多个通道选择模块, 每一通道选择模块的输入均为所述视觉特征图; 记所述视觉
特征图的通道数、 高度、 宽度分别为C、 H、 W, 图像标注有N条属性, 每一属性的词向量维度均
记为K, 将同时对应物体同一部位的若干属性作为 一组属性, 分组获得多组属性;
每一通道选择模块针对输入的视觉特征图分别进行如下处理: 对输入的视觉特征图进
行全局平均池化操作, 得到维度为C的视觉特征图描述向量; 使用通道重要性生成网络根据
视觉特征图描述向量生成维度为C的通道重要性向量; 所述通道重要性向量中单个分量表
示对应的视觉特征图通道对于识别某一组属性的重要程度; 使用门控机制从通道重要性向
量中选取激活值最大的多个分量; 将选取的所有分量的掩码设置为 1, 表示在识别某一组属
性时需要被保留的通道; 将其余分量的掩码设置为0, 表示将相应分量对应的通道丢弃; 将
选取的分量的掩码与所述视觉特征图逐元素相乘, 表示仅使用被保留的通道对相应的一组
属性进行识别。
3.根据权利要求1所述的一种零样本图像分类方法, 其特征在于, 所述对每一组属性相
关的通道分别通过属性原型 学习操作将相应通道的视 觉特征转换至语义空间包括:
为每一组属性设置对应的属性原型; 对每一组属性相关的通道进行卷积操作, 将相应
通道的视觉特征转换至语义空间, 卷积操作的卷积核为相应属 性对应的属 性原型, 通过优
化卷积操作的参数 学习属性原型。
4.根据权利要求1所述的一种零样本图像分类方法, 其特征在于, 所述通过空间抑制操
作获得每一组属性对应的空间抑制后的特征图, 结合所有组属性对应的空间抑制后的特征
图, 获得第一属性预测结果包括:
对于转换至语义空间的特征图上每一通道, 在空间尺度 上分别选取激活值最大的位置
和另一个随机的位置, 将选取的两个位置所对应的激活值以设定的随机概率乘以固定的抑
制系数, 获得空间抑制后的特 征图;
将所有组属性对应的空间抑制后的特征图进行全局平均池化操作, 获得第 一属性预测
结果。
5.根据权利要求1所述的一种零样本 图像分类方法, 其特征在于, 所述利用步骤2中学
习到的属性原型与预先利用词向量模型提取的属性原型分别作为每个属性的语义表示, 并
分别与所述视觉特征图进行交互, 获得两份注意力热图, 将两份注意力热图与所述视觉特权 利 要 求 书 1/3 页
2
CN 114627312 B
2征图结合, 获得第二属性预测结果包括:
对所述视 觉特征图分别进行四种不同的卷积 操作;
通过两种不同的卷积操作获得维度为C的特征图, 以及维度为K的特征图; 其中, 维度C
等于所述视觉特征图的通道数C, 维度K等于图像标注中每一属性的词向量 维度; 将维度为C
的特征图与步骤2中学习到的属性原型进行 交互, 得到尺度为N* (H*W) 的针对每个属性的空
间尺度的注意力热图, 称为第一注意力热图; 将维度为K的特征图与词向量模型提取的属性
原型进行 交互, 得到尺度为N* (H*W) 的针对每个属性的空间尺度的注意力热图, 称为第二注
意力热图; 其中, N 为图像标注的属性数目, H、 W分别为视 觉特征图的高度、 宽度;
通过第三种卷积操作捕捉所述视觉特征图的空间线索, 获得维度为H*W的特征图, 将维
度为H*W的特征图与第一注意力热图及第二注意力热图分别相乘, 获得两个属性激活图;
通过第四种卷积操作将所述视觉特征图变换至语义空间, 并与 所述两个属性激活图相
加后进行全局平均池化操作, 获得第二属性预测结果。
6.根据权利要求1所述的一种零样本 图像分类方法, 其特征在于, 将所述步骤1通过深
度神经网络实现, 将所述步骤2通过属性定位分支网络实现, 将所述步骤3通过视觉语义交
互分支网络实现, 将所述步骤4通过分类器实现; 由所述深度神经网络、 属性定位分支网络、
视觉语义交互分支网络与分类器构成零样本图像分类模型; 训练阶段利用交叉熵分类损失
和梯度提升损失构 造总的损失函数; 利用所述总的损失函数对所述零样本图像分类模型进
行训练, 更新所述深度神经网络、 属性定位分支网络与视 觉语义交 互分支网络的参数。
7.根据权利要求6所述的一种零样本图像分类方法, 其特征在于, 所述利用交叉熵分类
损失和梯度提升损失构造总的损失函数包括:
将所述属性定位分支网络对应的第一属性预测结果分别与各个类别的标签语义属性
相乘, 将所述视觉语义交互分支网络对应的第二属性预测结果分别与各个类别的标签语义
属性相乘, 得到两个分支网络对输入图像的类别预测结果, 每一分支网络对输入图像的类
别预测结果即为输入图像对应各个类别的激活值得分; 使用交叉熵损失分别约束两个分支
网络的类别预测结果, 构建两个交叉熵损失函数;
根据两个分支网络对输入图像的类别预测结果, 选出激活值得分最高的k个非标签类
别, 在标签类别与k个非标签类别所 组成的类别集合中计算交叉熵损失作为梯度提升损失,
构建两个梯度提升损失项函数;
为每一交叉熵损失函数以及每一梯度提升损失项函数分别设置相应的权重, 计算两个
交叉熵损失函数以及两个梯度提升损失项函数的加权和, 作为总的损失函数。
8.一种零样本图像分类系统, 其特征在于, 该系统包括零样本图像分类模型, 由所述零
样本图像分类模型基于权利要求1~7任一项所述的方法实现零样本图像分类, 所述零样本
图像分类模型包括:
深度神经网络, 用于提取输入图像的视 觉特征图;
属性定位分支网络, 用于从所述视觉特征图中分别选取与已标注的每一组属性相关的
通道; 对每一组属性相关的通道分别通过属性原型学习操作将相应通道的视觉特征转换至
语义空间, 再通过空间抑制操作获得每一组属 性对应的空间抑制后的特征图, 结合所有组
属性对应的空间抑制后的特 征图, 获得第一属性预测结果;
视
专利 零样本图像分类方法、系统、设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:10:36上传分享