专利图像识别模型的训练方法、装置、网络和图像识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210110008.8 (22)申请日 2022.01.29 (71)申请人新疆爱华盈通信息技术有限公司地址 830000 新疆维吾尔自治区乌鲁木齐市经济技术开发区（头屯河区）喀纳斯湖北路455号新疆软件园E2栋8层801 室 (72)发明人申啸尘　周有喜　 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称图像识别模型的训练方法、装置、网络和图像识别方法 (57)摘要本申请涉及图像识别模型的训练方法、装置、网络和图像识别方法，该训练方法包括通过得到卷积神经网络对应的预测标签值，将卷积神经网络中多个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取，以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值，然后分别对各个预设ViT网络进行权重和偏置更新，根据卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值，根据整合后的预测标签值、卷积神经网络对应的第二预设损失函数和真实标签值计算得到卷积神经网络对应的第二预设损失函数值生成图像识别模型，能够将传统的卷积神经网络结构和ViT网络进行融合。权利要求书2页说明书7页附图6页 CN 114463559 A 2022.05.10 CN 114463559 A 1.一种图像识别模型的训练方法，其特征在于，包括：通过卷积神经网络对输入的训练图像数据集进行特征提取，以得到所述卷积神经网络对应的预测标签值；获取所述卷积神经网络中多个中间层输出的特征图；将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取，以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值；根据各自对应的第一预设损失函数值，分别对各个预设ViT网络进行权重和偏置更新；根据所述卷积神经网络对应的预测标签值和各个预设ViT 网络对应的预测标签值计算得到整合后的预测标签值；根据所述整合后的预测标签值、所述卷积神经网络对应的第二预设损失函数和真实标签值计算得到所述卷积神经网络对应的第二预设损失函数值；根据所述第二预设损失函数值对所述卷积神经网络进行权重和偏置更新；循环执行上述步骤，直至所述第二预设损失函数收敛以生成对应的图像识别模型。 2.根据权利要求1所述的训练方法，其特征在于，所述中间层为池化层，所述将各个中间层输出的特征图分别输入到各自对应的预设V iT网络进行特征提取，以得到各个预设ViT 网络对应的预测标签值和第一预设损失函数值的步骤包括：将所述多个池化层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取，以获取各个预设ViT网络对应的预测标签值；根据第一预设损失函数、各个预设ViT网络对应的预测标签值和真实标签值，计算得到各个预设ViT网络各自对应的第一预设损失函数值。 3.根据权利要求1所述的训练方法，其特征在于，所述第二预设损失函数采用交叉熵损失函数，所述通过卷积神经网络对输入的训练图像数据集进行特征提取，以生成对应的预测标签值的步骤之前还包括：基于所述交叉熵损失函数，将所述训练图像数据集输入到初始卷积神经网络进行训练，直至所述交叉熵损失函数收敛，得到训练收敛后的卷积神经网络。 4.根据权利要求1所述的训练方法，其特征在于，所述将各个中间层输出的特征图分别输入到各自对应的预设V iT网络进行特征提取，以得到各个预设V iT网络对应的预测标签值和第一预设损失函数值的步骤之前还包括：基于第一预设损失函数，将所述训练图像数据集输入到分别输入到各个初始ViT网络进行训练，直至各自对应的第一预设损失函数收敛，得到训练收敛后的各个预设ViT网络。 5.根据权利要求1所述的训练方法，其特征在于，所述根据所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值的步骤包括：将所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值进行加权处理，以计算得到整合后的预测标签值。 6.一种图像识别模型的训练网络，其特征在于，包括：卷积神经网络处理单元，用于通过卷积神经网络对输入的训练图像数据集进行特征提取，以得到所述卷积神经网络对应的预测标签值； ViT网络处理单元，与所述卷积神经网络处理单元中的多个中间层的输出端相连接，用权　利　要　求　书 1/2 页 2 CN 114463559 A 2于将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取，以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值；所述ViT网络处理单元还用于根据各自对应的第一预设损失函数值，分别对各个预设 ViT网络进行权重和偏置更新；所述卷积神经网络处理单元还用于根据所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值，根据所述整合后的预测标签值、所述卷积神经网络对应的第二预设损失函数和真实标签值计算得到所述卷积神经网络对应的第二预设损失函数值，根据所述第二预设损失函数值对所述卷积神经网络进行权重和偏置更新，直至所述第二预设损失函数收敛以生成对应的图像识别模型。 7.一种图像识别模型的训练装置，其特征在于，包括：标签值生成单元，用于通过卷积神经网络对输入的训练图像数据集进行特征提取，以得到所述卷积神经网络对应的预测标签值；特征图获取单元，用于获取所述卷积神经网络中多个中间层输出的特征图； ViT网络特征提取单元，用于将各个中间层输出的特征图分别输入到各自对应的预设 ViT网络进行特征提取，以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值；第一更新单元，用于根据各自对应的第一预设损失函数值，分别对各个预设ViT网络进行权重和偏置更新；标签值整合单元，用于根据所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值；损失函数值生成单元，用于根据所述整合后的预测标签值、所述卷积神经网络对应的第二预设损失函数和真实标签值计算得到所述卷积神经网络对应的第二预设损失函数值；第二更新单元，用于根据所述第二预设损失函数值对所述卷积神经网络进行权重和偏置更新；模型生成单元，用于当所述第二预设损失函数收敛时生成对应的图像识别模型。 8.一种图像识别方法，其特征在于，采用权利要求1至5中任一项所述的训练方法所训练得到的图像识别模型进行图像识别。 9.一种设备终端，其特征在于，所述设备终端包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述设备终端执行权利要求1至5中任一项所述的训练方法。 10.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序在被处理器执行时实施权利要求1至 5中任一项所述的训练方法。权　利　要　求　书 2/2 页 3 CN 114463559 A 3

专利 图像识别模型的训练方法、装置、网络和图像识别方法

专利图像识别模型的训练方法、装置、网络和图像识别方法