全网唯一标准王
人工智能高质量数据集 建设指南 中国信息通信研究院人工智能研究所 清华大学计算社会科学与国家治理实验室 中国人工智能产业发展联盟数据委员会 2025年7月 版权声明 本报告版权属于中国信息通信研究院 、清华大学计算社 会科学与国家治理实验室 、中国人工智能产业发展联盟 ,并 受法律保护 。转载、摘编或利用其它方式使用本 报告文字或 者观点的,应注明 “来源:中国信息通信研究院 、清华大学 计算社会科学与国家治理实验室 、中国人工智能产业发展联 盟”。违反上述声明者, 编者将追究其相关法律责任。 前言 党中央和国家高度重视推动数据赋能人工智能高质量发展。 2025 年4月25日,中央政治局就加强人工智能发展和监管进行第二十次 集体学习 ,习近平总书记指出 ,要“深化数据资源开发利用和开放共 享”,要“全面推进人工智能科技创新 、产业发展和赋能应用 ”。近 年来,国家相关部委和地方政府围绕高质量数据集建设和运营、 数据 标注产业发展等出台系列政策,并通过投资奖补、标准制定和验证 、 样板案例建设等举措积极推进高质量数据集政策落地 。党中央和国家 的政策部署为业界推进高质量数据集建设提供了方向指引和根本遵 循。 随着大模型技术的迅猛发展 ,数据集作为人工智能核心三要素之 一,在算法趋同 、算力普惠的竞争环境中正在构建难以复制的差异化 壁垒。人工智能发展正在进入 “数据驱动 ”新阶段,高质量数据集的 建设不仅是提升 AI模型性能的关键 ,也是推动 “人工智能 +”行动落 地的重要保障 。然而现阶段 ,大量机构在高质量数据集建设中面临目 标定位模糊化 、实施路径碎片化与技术底座薄弱化三重挑战, 不知道 需要什么数据集 、如何建设数据集 、怎样评估数据集质量 ,制约了人 工智能应用落地 。《人工智能高质量数据集建设指南 》正是在此背景 下启动起草 ,旨在为业界建设高质量数据集提供有实操价值的指导和 参考。 指南从政策 、技术、产业层面介绍了当前高质量数据集建设的背 景,梳理了高质量数据集的定义 、特征、分类、建设主体以及 “三大 建设难点 ”,提出了人工智能数据工程的 “五大核心要素 ”和企业建 设高质量数据集 “三步走”战略,分析了高质量数据集建设的核心技 术,展示了科学 、通信、交通、铁塔、医疗、文化等领域高质量数据 集建设实践 ,最后从工程能力 、技术创新 、质量评估 、版权合规 、基 础制度创新等层面对未来高质量数据集建设的趋势进行了展望, 并提 出了对政府部门和企业机构的建议, 为业界推进 高质量数据集 建设提 供有力支撑。 目录 一、高质量数据集成为人工智能应用升级的核心要素 ........................................... 1 (一)政策层面:“ 人工智能+ 数据要素” 政策协同布局 .................................. 1 (二)技术层面:人工智能技术演进重构数据工程范式 ................................ 3 (三)产业层面:数据成为人工智能行业应用的护城河 ................................ 7 二、高质量数据集建设的现状和难点 ....................................................................... 8 (一)高质量数据集的“ 三高”特征....................................................................... 8 (二)高质量数据集分类维度 ............................................................................ 10 (三)高质量数据集建设主体 ............................................................................ 13 (四)高质量数据集建设难点 ............................................................................ 14 三、搭建人工智能数据工程能力核心要素 ............................................................. 15 (一)管理体系 .................................................................................................... 16 (二)开发维护 .................................................................................................... 17 (三)质量控制 .................................................................................................... 18 (四)资源运营 .................................................................................................... 22 (五)合规可信 .................................................................................................... 23 四、高质量数据集建设路径设计 ............................................................................. 24 (一)体系规划阶段——构建高质量数据集认知框架 .................................... 24 (二)工程建设阶段——打造高质量数据集生产体系 .................................... 26 (三)质量监测阶段——构建高质量数据集全流程管控机制 ........................ 27 五、高质量数据集“ 炼化”流程和技术 ...................................................................... 29 (一)数据设计和采集 ........................................................................................ 29 (二)数据治理 .................................................................................................... 30 (三)数据标注 .................................................................................................... 31 (四)数据质检 .................................................................................................... 32 (五)数据运营 .................................................................................................... 33 六、总结展望和建议 ................................................................................................. 34 (一)建立 AI数据工程体系 .............................................................................. 34 (二)推动 AI数据技术创新 .............................................................................. 35 (三)搭建全流程 AI数据质量管理体系 .......................................................... 35 (四)加快 AI数据开发利用机制突破 .............................................................. 36 附件行业高质量数据集建设代表性实践 ............................................................... 42 (一)教育领域:高等教育学科高质量数据集建设实践 ................................ 42 (二)科学领域:材料科

.pdf文档 信通院 人工智能高质量数据集建设指南

文档预览
中文文档 73 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共73页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
信通院 人工智能高质量数据集建设指南 第 1 页 信通院 人工智能高质量数据集建设指南 第 2 页 信通院 人工智能高质量数据集建设指南 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-08-29 21:51:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。