全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210529776.7 (22)申请日 2022.05.16 (71)申请人 国网冀北电力有限公司信息通信分 公司 地址 100053 北京市西城区枣林前街32号 申请人 国家电网有限公司 (72)发明人 苏丹 那琼澜 贺惠民 杨艺西  邢宁哲 庞思睿 李信 金燊  来骥 万莹 张辉 任建伟 吴舜  刘昀 于然 赵欣 魏秀静 赵琦  王艺霏 纪雨彤 张实君 赵子兰  尚芳剑 杨睿 于蒙 申昉  李欣怡 曾婧 张翼 温馨  张天颖 张海明 李宇鹏 (74)专利代理 机构 北京卓岚智财知识产权代理 事务所 (特殊普通合伙) 11624 专利代理师 任漱晨 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 一种基于图像分层视觉的机房人员检测方 法 (57)摘要 本发明公开了一种基于图像分层视觉的机 房人员检测方法, 该方法具体为基于移位窗口分 层视觉Transformer的级联检测器。 本申请设计 一种实用的自注意力方法, 通过深度卷积缩减输 入令牌的尺寸, 来降低自注意力计算的复杂度, 对V值的计算采用通道交互模块可以解决局部窗 口自注意力缺乏方向感知和位置信息的问题。 其 次, 采用平衡的L1损失并且在总损失函数中配置 不同阶段损失的权重来解决简单样本和困难样 本不平衡问题。 改进的方法相对于原始Swin   Transformer检测精度[email protected]提升了3.2%。 权利要求书3页 说明书8页 附图1页 CN 115063833 A 2022.09.16 CN 115063833 A 1.一种基于 图像分层视觉的机房人员检测方法, 其特征在于, 该方法的网络结构由四 部分组成, 包括Swin  Transformer骨干网络、 特征金字塔(Feature  Pyramid Networks, FPN)、 区域提议网络(Region  Proposal Network, RPN)和级联检测头, Swin  Transformer用 于提取关于机房人员的图像特征, FPN主要用于提取多尺度特征, RPN是几个卷积层的组合, 它产生可能存在对象的感兴趣区域(Region  Of Interest, ROI), 级联检测头对感兴趣区域 进行分类和定位, 并输出最终的检测结果, 在 级联检测头中, FC是全连接层, C是分类概率, B 是候选框的回归; 在Swin Transformer骨干网络中标准的基于窗口的多头自注意力(W ‑MSA)模块中增加 两个关键设计: (1)设计一种计算量更小自注 意力机制, 减少自注 意力机制计算复杂度; (2) 考虑到卷积层旨在模拟局部关系, 通过添加通道交互模块, 使用并行的深度卷积(全局计 算)和基于局部窗口的自注意力计算, 来解决局部窗口自注意力缺 乏方向感知和位置信息 的问题; 另外, 采用平衡的L1损失并且在总损失函数中配置不同阶段损失的权重来解决简单样 本和困难样本梯度不平衡问题; 其中, 设计一种计算 量更小自注意力机制, 减少自注意力机制计算复杂度, 具体包括: 通过对输入令牌 线性投影得到查询 其中n=H ×W, 然后将输 入 重塑为空间向量(dm, H, W), 通过卷积核大小为s ×s、 步长为s的深度卷积 (DW1)来减少输入X的尺寸, 令牌的尺寸由(dm, H, W)变为 将高和宽度都缩减s 倍, 经过线性转换得到 通过深度卷积缩减输入令牌的尺寸, 来 降低自注 意力计算的复杂度; 其中, X是输入令牌, n是块数量, H是输入图像高方向图像块的 数量, W是输入图像宽方向图像块的数量, dm是每个图像块嵌入 维度, 查询向量维度、 关键向 量和值向量的嵌入维度是dk, n′是块数量。 2.根据权利要求1所述的方法, 其特征在于, 考虑到卷积层旨在模拟局部关系, 通过添 加通道交互模块, 使用并行 的深度卷积(全局计算)和基于局部窗口的自注意力计算, 来解 决局部窗口自注意力缺乏方向感知和位置信息的问题, 具体包括: 对于V的值, 我们加入通道交互模块来计算, 受通道注意力(SE)启发, 通道交互包含一 个深度卷积、 一个全局平均池化层(GAP), 然后是两个连续的1 ×1卷积层、 批量归一化(BN) 和它们之间的激活函数(SILU), 最后, 我们使用Sigmoid在通道维度上产生注 意力, V的计算 公式如下 所示, V=FC(LN(DW1(X))).Sigmoid(conv(SILU(BN(co nv(GAP(DW2(x))))))) (1) 其中, FC是全连接, BN是批量归一化, DW1是深度卷积, X是输入令牌向量, conv是1 ×1卷 积, GAP是全局平均池化, DW2是深度卷积; 最终得到 其中DW2是卷积核为3 ×3的深度卷积, 这里需要注 意DW1和DW2的区别, 经过DW1后输入X尺寸缩小s倍, 经过DW2后不改变输入X的尺寸和通道数, 保留更多通道信息, co nv是1×1的卷积, 然后, 通过以下公式计算 Q、 K和V的自注意 函数:权 利 要 求 书 1/3 页 2 CN 115063833 A 2最后通过线性变换与X相加得到最终输出, 通道 交互模块和SE层的设计相似, 但它们主 要有以下两点区别: 首先, 模块的输入不同, 注意两个深度卷积并没有共享权重, 通道交互 的输入来自另一个并行的分支。 其次, 将通道交互应用于局部窗口自注意力模块中的V 值计 算, 而不是像SE层那样 将其应用于模块的输出。 3.根据权利要求1所述的方法, 其特征在于, 采用平衡的L1损失并且在总损失函数中配 置不同阶段损失的权 重来解决简单样本和困难样本梯度不平衡问题, 具体包括: (1)RPN分类损失和级联检测头损失, 本文使用多元交叉熵损失函数, 边界框分类的目 标对每一个边界框分配C+1个类别标签, 用概率p表 示, 其中, C是所有的类别, 还有一个是背 景, 对于训练样本xi和yi, 其中yi是输入xi的真实标签值, 多元交叉熵损失函数如公式(3): 其中, Wj如公式(4): (2)RPN边界框回归损失, 边界框回归旨在使用回归函数将候选边界框b=(bx, by, bw, bh) 回归到目标边界框g=(gx, gy, gw, gh), 最小化损失函数LBIoc(bi, gi)为: 其中, Smooth L1损失被定义 为: 其中, Nreg表示锚位置的个数, 当候选框为正样本时 为1, 当候选框为负样本时 为0, bi表示预测第i个锚的边界框回归参数, gi表示第i个锚 对应的真实框; (3)级联检测头边界框回归损失, 直接增大定位损失(即回归损失)的权重会导致模型 对一些定位异常的值更加敏感, 在Smooth  L1损失的导数方程中加入梯度限制后, 平衡L1损 失的梯度公式可以定义如下: 其中α 表示异常值的贡献, γ是异常值 误差的上限, 本文L1balanced如下: 其中参数b用于保证 在 处是连续的, C是一个常数, 参数之间的条件如 下: α ln(b+1)=γ                  (10) 其中, α和γ为超参数, 默认值设置为0.5和1.5, 小的α使得反向传播的梯度更大, γ调权 利 要 求 书 2/3 页 3 CN 115063833 A 3

PDF文档 专利 一种基于图像分层视觉的机房人员检测方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图像分层视觉的机房人员检测方法 第 1 页 专利 一种基于图像分层视觉的机房人员检测方法 第 2 页 专利 一种基于图像分层视觉的机房人员检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。