GB-T 45225-2025 人工智能深度学习算法评估

ICS35.100.05 CCSL79 中华人民共和国国家标准 GB/T45225—2025 人工智能深度学习算法评估 Artificialintelligence—Deeplearningalgorithmsevaluation 2025-01-24发布 2025-01-24实施国家市场监督管理总局国家标准化管理委员会发布目次前言 Ⅲ ………………………………………………………………………………………………………… 1 范围 1 ……………………………………………………………………………………………………… 2 规范性引用文件 1 ………………………………………………………………………………………… 3 术语和定义 1 ……………………………………………………………………………………………… 4 评估指标体系 2 …………………………………………………………………………………………… 5 评估等级 7 ………………………………………………………………………………………………… 6 评估流程 8 ………………………………………………………………………………………………… 附录A(资料性) 深度学习算法评估指标选取和阈值设定 17 …………………………………………… 附录B(资料性) 深度学习算法评估指标权重计算方法 21 ……………………………………………… 附录C(资料性) 深度学习算法评估实施案例 24 ………………………………………………………… 参考文献 26 …………………………………………………………………………………………………… ⅠGB/T45225—2025 前言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本文件的起草单位:中国电子技术标准化研究院、中国科学院软件研究所、中科南京软件技术研究院、北京航空航天大学、北京软件产品质量检测检验中心有限公司、北京航天自动控制研究所、中国南方电网有限责任公司超高压输电公司、上海计算机软件技术开发中心、中国科学技术大学、北京眼神科技有限公司、上海商汤智能科技有限公司、电装智能科技(上海)有限公司、中电科大数据研究院有限公司、浪潮电子信息产业股份有限公司、中国移动通信集团有限公司、北京声智科技有限公司、广电运通集团股份有限公司、上海文鳐信息科技有限公司、杭州海康威视数字技术股份有限公司、卡斯柯信号有限公司、阿里云计算有限公司、天津(滨海)人工智能创新中心、中国兵器工业信息中心、上海燧原科技股份有限公司、上海市人工智能行业协会、深圳云天励飞技术股份有限公司、四川长虹电子控股集团有限公司、中国船舶集团有限公司综合技术经济研究院、北京计算机技术及应用研究所、香港科技大学、中国科学院空间应用工程与技术中心、浙江大学、中国航空工业集团公司沈阳飞机设计研究所、北京邮电大学、南瑞集团有限公司、重庆国科础智信息技术有限公司、国科础石(重庆)软件有限公司、重庆建设工业 (集团)有限责任公司。本文件主要起草人:鲍薇、叶珩、孟令中、薛云志、马骋昊、高卉、刘祥龙、孔昊、王洋、王宁、陈文捷、张兰、杨春林、吴庚、朱健、董乾、杨光、蔡惠民、杜国光、王珂琛、聂锦燃、陈孝良、徐天适、芮子文、任文奇、周庭梁、吴涛、史殿习、谢晚冬、梅敬青、陈曦、饶雪、曹钰、吴立金、徐哲炜、宋金珂、刘艾杉、郭晋阳、王金波、纪守领、温晓玲、程祥、陈徯、胡艳玲、罗勇军、张洋。 ⅢGB/T45225—2025 人工智能深度学习算法评估 1 范围本文件确立了人工智能深度学习算法的评估指标体系,描述了评估方法等内容。本文件适用于指导深度学习算法开发方、用户方以及第三方等相关组织对深度学习算法及其训练得到的深度学习模型开展评估工作。 2 规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T35273—2020 信息安全技术个人信息安全规范 GB/T40660—2021 信息安全技术生物特征识别信息保护基本要求 GB/T41867—2022 信息技术人工智能术语 3 术语和定义 GB/T41867—2022界定的以及下列术语和定义适用于本文件。 3.1 深度学习 deeplearning 通过训练具有许多隐藏层的神经网络来创建丰富层次表示的方法。注:深度学习是机器学习的一个子集。 [来源:GB/T41867—2022,3.2.27] 3.2 深度学习算法 deeplearningalgorithm 使用深度神经网络结构进行学习和推理、以完成特定功能的代码片段。 3.3 深度学习模型 deeplearningmodel 基于输入数据或信息产生推理或预测结果的数学架构。 3.4 测试数据 testdata 用于评估最终机器学习模型性能的数据。 [来源:GB/T41867—2022,3.2.3] 3.5 对抗样本 adversarialexamples 在数据集中添加细微干扰形成的输入样本,能以较高概率诱导深度学习算法给出错误的输出,甚至是给出特定结果。 1GB/T45225—2025 4 评估指标体系 4.1 评估指标构成深度学习算法的评估指标体系包括基础性能、效率、正确性、兼容性、可解释性、鲁棒性、安全性、公平性8个质量特性,见图1。在实施评估过程中,应根据不同类型的深度学习算法,在不同质量特性下设置具体评估指标。图1 深度学习算法评估指标体系 4.2 基础性能基础性能指深度学习算法执行过程中的性能特征,不同算法可能涉及不同性能指标。基础性能的评估指标应包括但不限于以下。 a) 准确率:预测正确的样本数占总样本数的比率。 b)精度:预测类别为正样本的集合中真实类别为正样本的比率。 c)召回率:被正确预测的正样本占全部正样本的比率。 d)错误率:对于给定的数据集,预测错误的样本占总样本的比率。 e)精度和召回率的调和平均数(F1值):衡量二分类模型精度的一种指标,兼顾了分类模型的精度和召回率。 f)两个概率分布间的差异的非对称性度量(KL散度):它比较了真实分布和理论(拟合)分布之间的差异。 g)受试者工作特性曲线(ROC曲线):由不同设定条件下的真正率和假正率值画出的响应曲线,是反映敏感性和特异性连续变量的综合指标。 h)精度召回率曲线(PRC曲线):一种同时显示不同阈值下深度学习算法精度和召回率的图形化方法。一般x轴表示召回率,y轴表示精度。 i)累积响应曲线(CRC曲线):也称为增益曲线或增益图,是显示跨多个阈值的总数据中真阳性率和阳性预测百分比的图形方法。附录A给出了深度学习算法针对不同任务选取的基础性能指标示例。 4.3 效率效率指深度学习算法在达到给定性能目标时所消耗的资源与时间的多少。效率的评估指标应包括但不限于以下。 a) 时间特性:深度学习算法执行其功能时,响应时间、处理时间及吞吐率满足需求的程度。可使用平均响应时间、平均周转时间、平均吞吐量等指标来表示。 1) 平均响应时间:响应一个用户任务的平均时间,计算方法见公式(1)。 T=∑n i=1(Ti)/n …………………………(1) 2GB/T45225—2025

GB-T 45225-2025 人工智能 深度学习算法评估

GB-T 45225-2025 人工智能深度学习算法评估