全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210110008.8 (22)申请日 2022.01.29 (71)申请人 新疆爱华盈通信息技 术有限公司 地址 830000 新疆维吾尔自治区乌鲁 木齐 市经济技术开 发区 (头屯河区) 喀纳斯 湖北路455号新疆软件园E2栋8层801 室 (72)发明人 申啸尘 周有喜  (51)Int.Cl. G06V 10/44(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 图像识别模型的训练方法、 装置、 网络和图 像识别方法 (57)摘要 本申请涉及图像识别模型的训练方法、 装 置、 网络和图像识别方法, 该训练方法包括通过 得到卷积神经网络对应的预测标签值, 将卷积神 经网络中多个中间层输出的特征图分别输入到 各自对应的预设ViT网络进行特征提取, 以得到 各个预设ViT网络对应的预测标签值和第一预设 损失函数值, 然后分别对各个预设ViT网络进行 权重和偏 置更新, 根据卷积神经网络对应的预测 标签值和各个预设ViT网络对应的预测标签值计 算得到整合后的预测标签值, 根据整合后的预测 标签值、 卷积神经网络对应的第二预设损失函数 和真实标签值计算得到卷积神经网络对应的第 二预设损失函数值生成图像识别模 型, 能够将传 统的卷积神经网络结构和ViT网络进行融合。 权利要求书2页 说明书7页 附图6页 CN 114463559 A 2022.05.10 CN 114463559 A 1.一种图像识别模型的训练方法, 其特 征在于, 包括: 通过卷积神经网络对输入的训练图像数据集进行特征提取, 以得到所述卷积神经网络 对应的预测标签值; 获取所述卷积神经网络中多个中间层输出的特 征图; 将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取, 以得 到各个预设ViT网络对应的预测标签值和第一预设损失函数值; 根据各自对应的第一预设损失函数值, 分别对各个预设ViT网络进行权 重和偏置更新; 根据所述卷积神经网络对应的预测标签值和各个预设ViT 网络对应的预测标签值计算 得到整合后的预测标签值; 根据所述整合后的预测标签值、 所述卷积神经网络对应的第 二预设损失函数和真实标 签值计算得到所述卷积神经网络对应的第二预设损失函数值; 根据所述第二预设损失函数值对所述卷积神经网络进行权 重和偏置更新; 循环执行上述步骤, 直至所述第二预设损失函数收敛以生成对应的图像识别模型。 2.根据权利要求1所述的训练方法, 其特征在于, 所述中间层为池化层, 所述将各个中 间层输出的特征图分别输入到各自对应的预设V iT网络进 行特征提取, 以得到各个预设ViT 网络对应的预测标签值和第一预设损失函数值的步骤 包括: 将所述多个池化层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取, 以获取各个预设ViT网络对应的预测标签值; 根据第一预设损失函数、 各个预设ViT网络对应的预测标签值和真实标签值, 计算得到 各个预设ViT网络各自对应的第一预设损失函数值。 3.根据权利要求1所述的训练方法, 其特征在于, 所述第 二预设损失函数采用交叉熵损 失函数, 所述通过卷积神经网络对输入的训练图像数据集进行特征提取, 以生成对应的预 测标签值的步骤之前还 包括: 基于所述交叉熵损失函数, 将所述训练图像数据集输入到初始卷积神经网络进行训 练, 直至所述交叉熵损失函数收敛, 得到训练收敛后的卷积神经网络 。 4.根据权利要求1所述的训练方法, 其特征在于, 所述将各个中间层输出的特征图分别 输入到各自对应的预设V iT网络进行特征提取, 以得到各个预设V iT网络对应的预测标签值 和第一预设损失函数值的步骤之前还 包括: 基于第一预设损失函数, 将所述训练图像数据集输入到分别输入到各个初始ViT网络 进行训练, 直至各自对应的第一预设损失函数收敛, 得到训练收敛后的各个预设ViT网络 。 5.根据权利要求1所述的训练方法, 其特征在于, 所述根据 所述卷积神经网络对应的预 测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值的步骤包 括: 将所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值进行加 权处理, 以计算得到整合后的预测标签值。 6.一种图像识别模型的训练网络, 其特 征在于, 包括: 卷积神经网络处理单元, 用于通过卷积神经网络对输入的训练图像数据集进行特征提 取, 以得到所述卷积神经网络对应的预测标签值; ViT网络处理单元, 与所述卷积神经网络处理单元中的多个 中间层的输出端相连接, 用权 利 要 求 书 1/2 页 2 CN 114463559 A 2于将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取, 以得到 各个预设ViT网络对应的预测标签值和第一预设损失函数值; 所述ViT网络处理单元还用于根据各自对应的第一预设损失函数值, 分别对各个预设 ViT网络进行权 重和偏置更新; 所述卷积神经网络处理单元还用于根据所述卷积神经网络对应的预测标签值和各个 预设ViT网络对应的预测标签值计算得到整合后的预测标签值, 根据所述整合后的预测标 签值、 所述卷积神经网络对应的第二预设损失函数和真实标签值计算得到所述卷积神经网 络对应的第二预设损失函数值, 根据所述第二预设损失函数值对所述卷积神经网络进 行权 重和偏置更新, 直至所述第二预设损失函数收敛以生成对应的图像识别模型。 7.一种图像识别模型的训练装置, 其特 征在于, 包括: 标签值生成单元, 用于通过卷积神经网络对输入的训练图像数据集进行特征提取, 以 得到所述卷积神经网络对应的预测标签值; 特征图获取 单元, 用于获取 所述卷积神经网络中多个中间层输出的特 征图; ViT网络特征提取单元, 用于将各个中间层输出的特征图分别输入到各自对应的预设 ViT网络进行特征提取, 以得到各个预设ViT网络对应的预测标签值和第一预设损失函数 值; 第一更新单元, 用于根据各自对应的第一预设损失函数值, 分别对各个预设ViT网络进 行权重和偏置更新; 标签值整合单元, 用于根据所述卷积神经网络对应的预测标签值和各个预设ViT网络 对应的预测标签值计算得到整合后的预测标签值; 损失函数值生成单元, 用于根据所述整合后的预测标签值、 所述卷积神经网络对应的 第二预设损失函数和真实标签值计算得到所述卷积神经网络对应的第二预设损失函数值; 第二更新单元, 用于根据所述第 二预设损失函数值对所述卷积神经网络进行权重和偏 置更新; 模型生成单 元, 用于当所述第二预设损失函数收敛时生成对应的图像识别模型。 8.一种图像识别方法, 其特征在于, 采用权利要求1至5中任一项所述的训练方法所训 练得到的图像识别模型进行图像识别。 9.一种设备终端, 其特征在于, 所述设备终端包括处理器和存储器, 所述存储器用于存 储计算机程序, 所述处理器运行所述计算机程序以使 所述设备终端 执行权利要求1至5中任 一项所述的训练方法。 10.一种可读存储介质, 其特征在于, 所述可读存储介质存储有计算机程序, 所述计算 机程序在被处 理器执行时实施权利要求1至 5中任一项所述的训练方法。权 利 要 求 书 2/2 页 3 CN 114463559 A 3

PDF文档 专利 图像识别模型的训练方法、装置、网络和图像识别方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像识别模型的训练方法、装置、网络和图像识别方法 第 1 页 专利 图像识别模型的训练方法、装置、网络和图像识别方法 第 2 页 专利 图像识别模型的训练方法、装置、网络和图像识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。