全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210344247.X (22)申请日 2022.04.02 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 康文雄 周泳鑫 曾明 张雄  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 周春丽 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种结合标签语义嵌入和注意力融合的食 物识别方法 (57)摘要 本发明提供了一种结合标签语义嵌入和注 意力融合的食物识别方法, 包括以下步骤: 窗口 注意力融合模块利用tran sformer自带的自注意 力机制来自适应的选择判别区域, 不需要额外的 框的标注训练。 该模 块融合Swin  Transformer的 窗口注意力, 从原始图像中裁剪出注 意力区域并 放大, 作为下一个网络的输入, 以学习更多的判 别的特征, 食物类别的名称包含重要的文本信 息, 如主要成分, 产地, 烹饪方法等, 对于食品识 别来说是容易获取且有帮助的。 因此, 本发明提 出了上下文敏感语义中心损失, 利用了食物标签 的语义嵌入作为特征空间的中心, 以此来引导图 像表达学习细粒度语义信息。 两者的结合提高食 物识别精度。 权利要求书4页 说明书10页 附图3页 CN 114743020 A 2022.07.12 CN 114743020 A 1.一种结合标签 语义嵌入和注意力融合的食物 识别方法, 其特 征在于, 包括以下步骤: S1、 根据食品数据集, 结合标签 语义嵌入和注意力融合训练骨干网络; S2、 将原始图像输入到训练好的骨干网络里, 得到第一个分类结果向量; S3、 用窗口注意力融合模块提取骨干网络每一层的窗口注意力权重并融合, 生成注意 力掩膜; 基于注意力掩膜上最大 连通图区域范围裁 剪原始图像, 得到局部图; S4、 将局部图输入到骨干网络, 得到第二个分类结果向量; S5、 将两个分类结果相加得到最终的分类向量, 取最终的分类向量中数值最大的序号, 通过查序号 ‑类别表, 得到当前食物最终的类别名。 2.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法, 其特 征在于, 结合标签 语义嵌入和注意力融合训练骨干网络分为两个阶段, 包括以下步骤: S1.1、 第一阶段, 在训练集中随机采样N张原始图片, 每个图片缩放到统一的大小, 再进 行预处理; S1.2、 将每个图片都输入到骨干网络, 得到对应的1*c维的 图像特征向量x1以及1*n维的 预测类别向量 n表示训练集包 含的食品类别数量; S1.3、 将预测类别向量 与其对数相乘并求和得到第一个分类损失Lcls1, 分类损失Lcls 公式如下: 其中n表示类别数量, l og()表示对数运 算, 表示类别向量 第i个数值; S1.4、 使用双向编码表示的变换器模型BERT提取图片对应类别标签y的语义嵌入, BERT 模型的倒数第二层输出经过一个全连接层之后得到语义嵌入t1, 将语义嵌入t1与图像特征 向量x1作差, 并求平方和, 得到第一个 语义中心损失Lsc1: 其中xj表示一个训练批次batc h里第j个图像特 征, tj表示对应的语义嵌入; S1.6、 第二阶段, 将局部图缩放到统一大小, 并做预处理, 输入到骨干 网络, 得到第二阶 段的1*c维的图像特征向量x2以及1*n维的预测类别向量 n表示训练集包含的食品类别 数量; S1.7、 重复步骤S1.3~步骤S1.4, 计算得到第二阶段局部图像的分类损失Lcls2和语义中 心损失Lsc2; S1.8将步骤S1.3、 步骤S1.4、 步骤S1.7的损失加权求和, 反向传播更新骨干网络参数; 步骤S1.2具体为: 基于偏移窗口的层次化变换器Swin  Transformer网络利用局部窗口 划分输入的图像, 并且在局部窗口内计算分块patch的自注 意力, 其利用偏移窗口划分将上 一层窗口的相邻区域划为同一个窗口, 在计算自注意力时间接为该区域引入其他窗口信 息, 使用偏移窗口划分后, 两个连续变换器块Transformer  blocks的计算如下:权 利 要 求 书 1/4 页 2 CN 114743020 A 2其中 和zl表示第l块的(偏移)窗口多头自注意力模块(S)W_MSA和多层感知机模块MLP 的输出特征, 对应的W ‑MSA和SW‑MSA表示分别使用窗口和偏移窗口划分 的窗口多头自注意 力的变换器; MLP表示多层感知机; L N表示特征层归一 化; 基于偏移窗口 的层次化变换器在窗口自注意力计算中引入相对位置偏差 其中 是查询(qu ery)、 关键(key)和价值(valu e)向量, 表示维 度为M2×d的实数域; d为维度, M2表示一个窗口内patch分块的数量; Attention(Q, K)表示V 对应位置的注 意力值, 其大小表 示响应程度; 相对位置在每个轴上的范围为[ ‑M+1, M‑1], 基 于偏移窗口的层次化变换器参数化一个偏差矩阵 相对位置偏差B值通 过查表的方式, B的数值表示位置, 在 的对应位置获取偏差值, 图片序列化之后会丢失空间 位置信息, 因而引入相对位置偏差, 加入到注意力A ttention中, 促使注意力图有所偏重 。 3.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法, 其特 征在于, 步骤S3具体为: 将每个变换器块Transformer  block的窗口注意力权重提取出来, 第l层第h个窗口 的自注意力权 重表达如下: l∈[1, 2, . .., L], h∈[1, 2, . .., H] 其中Q和K分别表示查询向量Quer y vectors和关键向量Key  vectors, d为Q、 K的维度, P 表示窗口内分块p atch的数量, H表示第l层的窗口数量总数, wP表示第P个分块的注意力权 重值, 表示p个分块patch的第k个头的注意力权重值, B表示窗口内每个分块patch之间 的相对位置偏差; L表示骨干网络层数。 4.根据权利要求3所述的一种结合标签语义嵌入和注意力融合的食物识别方法, 其特 征在于, 每 个窗口内第p个分块patc h的注意力权 重对多头维度求平均, 表示如下: 其中k表示多头的数量, 用于分别提取不同的特 征。 5.根据权利要求1所述的一种结合标签语义嵌入和注意力融合的食物识别方法, 其特权 利 要 求 书 2/4 页 3 CN 114743020 A 3

PDF文档 专利 一种结合标签语义嵌入和注意力融合的食物识别方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种结合标签语义嵌入和注意力融合的食物识别方法 第 1 页 专利 一种结合标签语义嵌入和注意力融合的食物识别方法 第 2 页 专利 一种结合标签语义嵌入和注意力融合的食物识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。