全网唯一标准王
ICS 01.140.20 CCS L 70 23 黑龙江省 地方 标准 DB 23/T 3857—2024 人工智能数据标注总体框架规范 2024 - 08 - 30发布 2024 - 09 - 29实施 黑龙江省市场监督管理局 发布 DB 23/T 3857 —2024 I 前言 本文件按照 GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起 草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由中共黑龙江省委网络安全和信息化委员会办公室提出 并归口。 本文件起草单位: 黑龙江省网络空间研究中心 本文件主要起草人: 白瑞、呼大永、方舟、曲家兴、杨霄璇、宋雪、李锐、 李晗、徐雪吟、 刘颖、 孟鸽、孙腾 DB 23/T 3857 —2024 1 人工智能数据标注总体框架规范 1 范围 本文件规定了人工智能数据标注 的要求、总体框架、任务 规划、任务实施 、任务评审、交付验收、 总结和后期维护 。 本文件适用于面向人工智能学习、研发或应用等需要实施数据标注的 行政主管部门、高校、科研院 所和企事业单位, 其他行业和机构可参照执行。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 35295 信息技术 大数据 术语 GB/T 25069 信息安全技术 术语 3 术语和定义 下列术语和定义适用于本文件。 数据标注 对准备使用人工智能研究的文本、图像、音频和视频等数据进行特征标注以满足正常可用的过程 。 数据标签 用于标识出数据特征并建立标注数据与人工智能可用数据之间联系 的信息。 数据标注工具 能够进行数据标注及在数据标注过程中进行管理、控制等过程中发挥作用 软件的统称。 数据标注技术 对数据进行转写、切割、提取、选择、富集标注、点标注、线标注、框标注、区域标注等操作的技 术。 数据标注合格率 标注任务中,符合标注规则要求的已标注数据总量与 所有已标注数据总量的比值。 4 基本要求 标注人员 参与数据标注的人员应具备 相应的资质,对 确定符合要求的人员培训 ,应做到: DB 23/T 3857 —2024 2 a) 根据标注任务说明 ,对标注人员进行岗前能力培训。 培训合格者,参与标注任务 ; b) 建立标注人员能力档案 ,记录标注人员承担标注任务的相关内容 ,用于进行标注人员能力评估 与标注质量追踪 。 明确职责 应规定参与人工智能数据标注的所有角色的职能 ,并做到: a) 设立人工智能数据管理岗位。该 岗位要求 对业务、法律法规比较熟悉 ,能够根据业务实际需 要确定承担数据管理工作的部门或人员 ; b) 明确各环节角色的职责。应明确 数据标注 人员、数据标注培训 人员、数据标注质量控制 人员 以及与人工智能数据标注相关的其他角色的职责。 合法合规 应出台规章制度保障人工智能数据标注 任务的合法合规性 ,并做到: a) 学习并严格执行与数据保护、数据安全相关的法律法规、制度等 ; b) 正确对个人隐私和敏感数据进行处理,确保标注过程合法合规 ; c) 建立跨部门、跨组织数据标注、传输的保护制度 。 保障质量 应确保人工智能数据标注的质量 ,并做到: a) 确保人工智能数据标注的准确性、可用性、完整性 ; b) 建立质量保障制度, 提高数据标注合格 率; c) 建立定期抽查,不定期检测的质量控制制度。 标注范围 最小化 应确保数据标注相关角色对数据掌握范围的最小化, 并做到: a) 数据标注任务开始前,明确数据接触范围及使用范围; b) 提供技术或建立制度保证数据标注过程中,数据范围不扩散; c) 数据标注任务完成后,及时回收数据操作权限。 数据安全 应从以下几方面做好数据保密,确保数据安全: a) 数据分发 ,使用必要的安全方式确保人工智能数据分发过程的安全性要求 ; b) 数据存储 ,建立访问控制制度 和加密机制确保人工智能数据存 储保密性要求 ; c) 加密数据的标注 ,使用加密算法对加密人工智能数据进行运算标注,如同态加密算法等 ; d) 数据汇总 ,使用数据隔离等方式确保人工智能数据汇总时满足保密性要求 ; e) 密码密钥的安全 ,建立人工智能数据密码密钥管理系统 。 数据完整 为确保标注过程 数据完整性,应做到: a) 接收人工智能数据可验证,保证接收的数据已通过认证 ; b) 人工智能数据传输过程完整性,保证标注活动数据完整性 ; c) 数据标注可靠性,确保 标注过程只执行批准的范围 ; d) 数据储存完整性,确保数据标注存储及备份完整 性。 DB 23/T 3857 —2024 3 数据可审计 应对数据标注各环节建立审计机制或制度,确保数据标注全过程 可审计,并做到: a) 对数据标注过程信息记录,并保证记录过程真实可靠 ; b) 利用合理的技术方案确保数据标注的所有过程和行为可溯源。 其他要求 数据标注除了考虑以上 要求外,还应针对人工智能数据的特点从数据标注 任务的其他方面分析 ,包 括但不限于 : a) 数据标注需不影响社会和公共安全 ; b) 数据标注需考虑跨部门、跨组织的数据开放共享 ; c) 跨境数据流动 的合法合规性 ; d) 知识产权保护及数据价值保护。 5 总体框架 人工智能数据标注框架应 包括任务规划、任务实施、任务评审、 交付验收 、总结和后期维护六 过程。 具体过程可根据 数据标注任务 规模简化或裁剪, 人工智能数据标注总体框架 见图1。 人工智能数 据标注任务实施 任务评审 任务验收任务规划明确需求 获取数据 分析数据 确定规则 交付内容 交付过程 交付验收 任务归档专家评审 评审方式 任务回退任务创建 任务分发 任务执行 任务检验 风险评估 风险提醒 总结 总结 后期维护 后期维护 图1 人工智能数据标注总体框架 6 任务规划 明确需求 数据标注开始前,数据标注 任务负责人应及时 获取并明确 数据标注需 求,包括但不限于 以下内容 : a) 数据标注完成的时间节点 ; b) 数据标注的内容 ; DB 23/T 3857 —2024 4 c) 数据标注的方法 ; d) 数据验收规则 ; e) 标注任务参与人员的资质要求 ; f) 数据标注结果的交付形式 ; g) 数据的知识产权归属 。 获取数据 数据标注 任务负责人应及时获取待标注数据,数据获取方式包括: a) 平台接口对接的方式 ; b) 存储介质复制的方式。 分析数据 数据标注前 ,应对待标注数据进行分析 ,核对标注任务 ,包括: a) 数据核查 。检查待标注数据是否与标注任务说明书中的数据定义相符,核查结果及时同步给 数据需求方 ; b) 数据整理 。建立完善的数据追踪机制,实现数据整理,以及最小粒度的数据追踪; c) 数据处理 。根据标注任务以及标注数据的特性,通过数据聚类、组合排列、数据杂质去除等 方法,提高标注质量 。 确定规则 数据标注项目负责人应按照标注规划进行标注规则验证与细化,并完成以下内容: a) 确定数据试标数量 。应遵循数据标注内容覆盖全面性及数据标注成本最小化要求, 抽取数据 作为试标数量 ; b) 数据试标 。按照标注规则对抽样数据进行标注,以验证标注规则的合理性 ; c) 细化数据标注规则 。应遵循易理解、易操作的 准则,保持与数据标注 需求一致的原则,对数 据试标中发现的不合理 的规则进行修改。 7 任务实施 任务创建 数据标注任务负责人应利用标注工具创建数据标注项目相关内容 ,包括: a) 任务包创建 。将需要标注的数据合理分组 ,保证数据标注质量以及后续的任务分配 ; b) 任务账户创建 。应以标注人员数量为依据,综合标注 数据规模 、质量分析等需求,根据标注 环境或标注工具,创建标注过程中所需要使用的账户,并分配相应的权限或账户使用规则 ; c) 任务创建保障 。应制定标注任务创建和数据上传相关制度,明确数据上传分类分级、数据安 全风险评估和安全监控制度, 确保上传数据的合法合规 。 任务分发 数据标注任务负责人应利用标注工具将数据标注任务分派给数据标注 人员或数据标注团队 , 标注任 务分发主要包括以下内容 : a) 标注任务分发类型 。应根据标注任务要求,结合标注质量管理及标注 时间管理,在保证标注 质量的前提下,选择主动领取或系统自动分发等任务分发类型,优化标注任务分发策略 ; DB 23/T 3857 —2024 5 b) 标注任务分发保障。 应制定标注任务分发安全管理制度,明确标注任务分发日志内容,监控 标注任务分发安全。 任务执行 数据标注员或数据标注团队应使用数据标注工具完成指派的数据标注任务 ,标注执行主要包括以下 内容: a) 标注任务分配 。应安排数据标注人员使用分配的标注账户,对分配到的任务进行标注 ; b) 标注过程反馈 。应建立标注过程反馈机制,将与标注要求不符、标注要求中未涵盖的数据等 情况,及时反馈,确保标注规则与数据的匹配 ; c) 标注任务开展保障

.pdf文档 DB23-T 3857-2024 人工智能数据标注总体框架规范 黑龙江省

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
DB23-T 3857-2024 人工智能数据标注总体框架规范 黑龙江省 第 1 页 DB23-T 3857-2024 人工智能数据标注总体框架规范 黑龙江省 第 2 页 DB23-T 3857-2024 人工智能数据标注总体框架规范 黑龙江省 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-07-26 02:21:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。