(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210317680.4
(22)申请日 2022.03.29
(71)申请人 河南工业大 学
地址 450001 河南省郑州市高新 技术产业
开发区莲 花街100号
(72)发明人 朱春华 李雪 周飞 郭歆莹
杨静 杨卫东 许德刚 李智
张闻强 魏蔚 梁义涛 张雪萍
(74)专利代理 机构 南京北辰联和知识产权代理
有限公司 323 50
专利代理师 陆中丹
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 10/42(2022.01)
G06V 10/44(2022.01)G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于注意力调制上下文空间信息的表情识
别方法
(57)摘要
本发明公开了一种基于注意力调制上下文
空间信息的表情识别方法, 具体步骤为: S1: 获取
待训练的自然场景人脸表情图像公共 数据集, 对
人脸表情图像进行预处理; S2: 构建用于自然场
景人脸表情识别的注意力调制上下文空间信息
网络模型; S3: 利用预处理过的人脸表情图像对
上下文空间信息(ACSI)网络模型进行训练; S4:
重复步骤S3的模型训练, 直至达到设定的训练次
数, 得到训练后的深度残差网络模型, 利用训练
后的深度残差网络模型进行人脸表情识别。 上下
文卷积和协调注意力的联合可以显著提高表情
识别性能。 在公开的表情数据集上, 与同类的算
法相比, ACSI具有更高的识别性能。
权利要求书3页 说明书13页 附图3页
CN 114758383 A
2022.07.15
CN 114758383 A
1.一种基于注意力调制上下文空间信息的表情识别方法, 其特征在于, 具体包括以下
步骤:
S1: 获取待训练的自然场景 人脸表情图像公共数据集, 对人脸表情图像进行 预处理;
S2: 构建用于自然场景 人脸表情识别的注意力调制上 下文空间信息网络模型ACSI;
S3: 利用预处 理过的人脸表情图像对上 下文空间信息网络模型ACSI进行训练;
S4: 重复步骤S3的模型训练, 直至达到设定的训练次数, 得到训练后的深度残差 网络模
型, 利用训练后的深度残差网络模型进行 人脸表情识别。
2.根据权利要求1所述的基于注意力调制上下文空间信息的表情识别方法, 其特征在
于, 所述步骤S2具体包括以下步骤:
S21: 利用上下文卷积块替换残差块的中间卷积层, 形成上下文卷积残差模块构建上下
文卷积残差网络;
S22: 使用协调 注意力构 建协调注意力CA模块对所述步骤S2 1中构建的上下文卷积残差
网络CoResNet提取的多尺度特 征分配注意力权 重以强化特 征表征能力。
3.根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法, 其特征在
于, 所述步骤S21具体为:
S211: 上下文卷积块接收输入特征图Min, 其在不同层级L={ 1,2,3,...,n}应用具有不
同膨胀率的卷积核D={d1,d2,d3,...,dn}, 即leveli上的卷积核具有膨胀率di,
S212: 在不同上下文卷积的级别level上, 上下文卷积均输出多个特征图
对于所
有i∈L, 每 个图具有宽度Wout和高度Hout;
S213: 保持残差结构将层间的相关性结合 起来, 得到上 下文卷积残差模块;
S214: 根据特征图的尺寸调整每层中上下文卷积块的级别, 从而构建上下文卷积残差
网络。
4.根据权利要求3所述的基于注意力调制上下文空间信息的表情识别方法, 其特征在
于, 所述步骤S21中上下文卷积的可学习 参数和浮点运算的数量采用公式(1)和(2)进行计
算;
params=Min·Kw·Kh·Mout (1);
FLOPs=Min·Kh·Kw·Mout·Wout·Hout (2);
其中, Min和Mout表示输入和输出特征映射的数量, Kw和Kh表示卷积核的宽度和高度, 最
后, Wout和Hout表示输出 特征映射的宽度和高度。
5.根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法, 其特征在
于, 所述步骤S22具体为:
S221: 将CoResNet提取的特征记为X, 首先使用尺寸(H,1)和(1,W)的平均池化核沿着水
平坐标方向和竖直坐标方向对每个通道进行编码, 高度为h的第c个通道的编码输出
由
公式(3)计算:
该公式(3)计算水平坐标方向上高度为h时的第c个通道的编码输出, 沿宽度i, 对输入权 利 要 求 书 1/3 页
2
CN 114758383 A
2特征进行求和运 算; 宽度为 w的第c个通道的编码输出
由公式(4)计算:
该公式(4)计算竖直坐标方向上高度 为w时的第 c个通道的编码输出, 沿高度j, 0≤j≤H
对输入特 征进行求和运 算;
S222: 将步骤S221中的两个变换沿着两个空间方向进行特征聚合, 返回一对方向感知
注意力图;
S223: 将所述步骤S222中生成的一对方向感知注意力图连接起来, 将其送入一个1 ×1
的卷积变换函数 F中;
f= δ(F([yh,yw])) (5);
其中, [, ]表示沿着空间维度的拼接操作, δ为非线性的sigmoid激活函数, f∈RC/r×(H+W)
为水平方向和垂直方向对空间信息进行编码的中间特 征映射;
S224: 继续沿着空间维把f分解成两个 单独的张量fh∈RC/r×H和fw∈RC/r×W, 对其使用两个
1×1卷积变换 Fh和Fw将fh和fw分别变换为相同通道数的张量, 采用公式(6)和(7);
mh= δ(Fh(fh)) (6);
mw= δ(Fw(fw)) (7);
其中, δ为sigmoid函数, 输出的mh和mw作为注意力权值, 最后协调注意力模块的输出Z,
由公式(8)所示:
其中zc(i,j)为输出, xc(i,j)为输入,
和
为注意力权值。
6.根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法, 其特征在
于, 所述步骤S1具体为: 首先将 输入图像尺 寸调整为256 ×256, 然后对其进 行上下左右以及
中心的裁剪, 获得五张224 ×224的人脸图像, 它们拥有相同的表情标签, 再以0.5的概率对
其进行水平翻转。
7.根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法, 其特征在
于, 所述步骤S3的具体步骤为:
S31: 通过上下文卷积残差网络CoResNet对输入的人脸表情图像进行多尺度特征提取
和上下文空间信息整合;
S32: 在每个上下文卷积残差模块 中嵌入注意力 模块以关注显著尺度特征, 对CoResNet
输出特征使用协调注 意力对提取的特征进 行注意力加权, 分别在两个空间方向上捕捉到表
情信息的相关性和保留人脸关键区域信息;
S33: 将注意力加权后的特 征进行下采样操作, 对下采样后的特 征进行分类处 理。
8.根据权利要求7所述的基于注意力调制上下文空间信息的表情识别方法, 其特征在
于, 所述步骤S3中的上下文空间信息网络模型ACSI包括依次相连的卷积层、 bn层、 relu层、
Maxpool层、 四个上下文残差模块、 协调注意力CA模块、 全局平均池化层、 fc层和Softmax分
类层; 所述卷积层将输入的人脸表情图像经过3*3标准卷积操作提取特征; bn层对提取的特
征进行批量归一化防止梯度消失或爆炸; 然后所述relu层对其进行非线性激活; 最大池化权 利 要 求 书 2/3 页
3
CN 114758383 A
3
专利 基于注意力调制上下文空间信息的表情识别方法
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:11:25上传分享