全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211084706.1 (22)申请日 2022.09.06 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市海港区河北 大街438号 (72)发明人 孔维航 刘嘉宇 李贺  (74)专利代理 机构 石家庄众志华清知识产权事 务所(特殊普通 合伙) 13123 专利代理师 周胜欣 (51)Int.Cl. G06V 20/52(2022.01) G06V 10/42(2022.01) G06V 10/82(2022.01) G06T 7/73(2017.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于transformer和CN N的人群计数方法 (57)摘要 本发明公开基于transformer和CNN的人群 计数方法, 包括: 获取训练样本, 并进行预处理增 强; 将增强后的RGB图像输入模型主干网络, 得到 不同分辨率的全局特征图; 将不同分辨率全局特 征图上采样之后进行通道叠加, 得到聚合特征 图; 将聚合特征图输入多分支卷积神经网络, 得 到多尺度特征图, 然后在通道维度相加, 得到多 尺度聚合特征图; 将多尺度聚合特征图输入密度 图回归层 进行平滑降维并输出密度图; 使用最优 传输损失进行训练, 最终进行预测。 本发明将金 字塔transformer与多分支卷积神经网络相结 合, 增大了模型的感受野, 有效降低尺度多变的 影响, 提升 了预测准确性。 权利要求书2页 说明书5页 附图2页 CN 115457464 A 2022.12.09 CN 115457464 A 1.基于transformer和CN N的人群计数方法, 其特 征在于: 包括如下步骤: (1) 获取训练样本, 得到多场景的人群RGB图像, 并对人群RGB图像进行 预处理增强; (2) 将增强后人群RGB图像输入模型的主干网络进行计算, 主干网络包括由四个阶段组 成的金字塔tr ansformer, 增强后人群RGB图像依次经过主干网络的四个阶段, 得到不同分 辨率的全局特 征图; 其中, 每一个阶段都包括 一个重叠图像块嵌入层和一个编码器; (3) 将不同分辨 率全局特 征图上采样之后进行通道叠加, 得到聚合特 征图; (4) 将聚合特征图输入多分支卷积神经网络, 得到多尺度特征图, 然后在通道维度相 加, 得到多尺度聚合特 征图; (5) 将多尺度聚合特 征图输入密度图回归层进行平 滑降维并输出密度图; (6) 使用最优传输损失进行训练, 最终进行 预测。 2.根据权利要求1所述的基于transformer和CNN的人群计数方法, 其特征在于: 所述步 骤 (1) 进行预处理增强前先获取人群RGB图像的标注数据, 在每个人头位置进行像素点标 注, 像素点的数量代 表了该场景中的总人 数。 3.根据权利要求1所述的基于transformer和CNN的人群计数方法, 其特征在于: 所述步 骤 (1) 的预 处理增强具体包括随机水平或垂 直翻转, 并进 行标准化, 训练 时将训练图像裁切 为256×256图像块进行训练。 4.根据权利要求1所述的基于transformer和CNN的人群计数方法, 其特征在于: 所述步 骤 (2) 具体包括: 在重叠图像块嵌入层中, 输入图像在一个卷积层中被分为相互重叠的图像块, 然后进 行卷积操作输出二维特征图, 然后输出 的二维特征图展开为一维向量并进行正则化, 作为 编码器输入; 第一阶段中重叠图像块嵌入层的卷积层卷积核大小为7 ×7, 步长为4; 其余三 阶段重叠图像块嵌入层中卷积层的卷积核 大小为3×3, 步长为2; 四层卷积层输出维度 依次 为: 64, 128, 320, 512; 通过控制卷积层步长 输出金字塔型的不同分辨 率特征图; 在编码器中, 输入向量经过多个block进行自注意力计算, 每个block包括一个自注意 力计算层和一个前向传播层, 每层都采用跳跃连接的方式进 行连接; 每个阶段中block个数 依次为: 3, 8, 27, 3; 每个阶段中多头自注意力层的头数分别 为1, 2, 5, 8; 经过编码器计算之 后的向量被重塑二维特征图, 并作为下一阶段的输入; 最终四个阶段输出四组分辨率不同 的全局特 征图, 分辨 率依次为输入的增强后人群RGB图像分辨 率的1/4, 1/8, 1/16, 1/ 32。 5.根据权利要求1所述的基于transformer和CNN的人群计数方法, 其特征在于: 所述步 骤 (3) 具体包括: 首先将步骤 (2) 中提取的四组不同分辨率全局特征图上采样到相同的分辨率, 同时保 持通道数不变, 通过双线性插值的方法, 将最后三个阶段 的特征图上采样至第一阶段特征 图的分辨 率, 即增强后人群RGB图像的1/4大小; 然后将四个阶段的特征图进行聚合, 聚合方法为将四个阶段的所有特征图在通道维度 进行叠加, 总的通道数为四个阶段特征图通道数的总和, 即64+128+320+512=1024, 最后获 得通道数为1024的聚合特 征图。 6.根据权利要求5所述的基于transformer和CNN的人群计数方法, 其特征在于: 所述步 骤 (4) 具体包括: 多分支卷积神经网络模块包括三个分支, 每个分支包括一个卷积层, 第一个分支卷积权 利 要 求 书 1/2 页 2 CN 115457464 A 2核大小为3×3, 第二个 分支卷积核 大小为5×5, 第三个 分支卷积核 大小为7×7; 每一个分支 的输出通道数都为256, 并且每一个分支的卷积层后面都有一个批正则化层和一个ReLU激 活函数层; 经过三个分支计算之后, 得到三组分辨率和通道数都相同的多尺度特征图; 然后将多 尺度特征图在 对应通道上进行逐像素相加, 具体为每个对应通道上三张特征图对应位置像 素进行相加, 最后得到的多尺度聚合特 征图通道数为25 6。 7.根据权利要求1所述的基于transformer和CNN的人群计数方法, 其特征在于: 所述步 骤 (5) 具体包括: 密度图回归层包括两层卷积层, 第一层卷积层卷积核大小为3 ×3, 步长为1, 输出通道 数为64, 第二层卷积层的卷积核大小为1 ×1, 步长为1, 输出通道数为1, 每层卷积层之后有 一层批正则化层和ReLU激活函数, 最终输出 人群密度估计图和人群 计数结果。 8.根据权利要求1所述的基于transformer和CNN的人群计数方法, 其特征在于: 所述步 骤 (6) 具体包括: 使用最优传输损失进行训练, 对人群密度估计图和总人数进行回归, 优化模型参数, 然 后将损失最小的模型参数保存; 预测时则加载保存的最小损失模型参数, 直接获取人群密 度估计图和人群 计数结果作为预测结果。权 利 要 求 书 2/2 页 3 CN 115457464 A 3

PDF文档 专利 基于transformer和CNN的人群计数方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于transformer和CNN的人群计数方法 第 1 页 专利 基于transformer和CNN的人群计数方法 第 2 页 专利 基于transformer和CNN的人群计数方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:16:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。