全网唯一标准王
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
ICS01.040.35 CCSL70 35 福建省地方标准 DB35/T2240—2024 公共数据清洗技术要求 Technicalrequirementsforpublicdatacleaning 2024-12-24发布 2025-03-24实施 福建省市场监督管理局 发布DB35/T2240—2024 I目次 前言..................................................................................II 1范围................................................................................1 2规范性引用文件......................................................................1 3术语和定义..........................................................................1 4基本原则............................................................................2 5过程要求............................................................................2 6方法要求............................................................................5 7安全要求............................................................................7 附录A(资料性)数据清洗的常见方法....................................................8 参考文献...............................................................................9DB35/T2240—2024 II前言 本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由福建大数据一级开发有限公司提出。 本文件由福建省信息化标准化技术委员会(SAFJ/TC11)归口。 本文件起草单位:福建大数据一级开发有限公司、福建省数字经济发展促进中心、福建省市场监督 管理局行政服务中心、福建省网络与信息安全测评中心、福建省建设信息中心、福建奇比特信息科技有 限公司。 本文件主要起草人:李喆、陈国清、徐侃、涂平、王宇奇、邹建红、黄炜、石福仁、游鄂平、梁煜、 张镇晖、李元、傅腾宇、李海、吴春华、马腾、陈闪闪、谢丹丹、张健文。DB35/T 2240 —2024 1 公共数据清洗技术要求 1 范围 本文件规定了公共数据清洗的基本原则、过程要求、方法要求和安全要求。 本文件适用于一体化公共数据的抽取、转换、核验、加载等清洗环节。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最 新版本(包括所有的修改单)适用于本 文件。 GB/T 22239 信息安全技术 网络安全等级保护基本要求 GB/T 35274 信息安全技术 大数据服务安全能力要求 GB/T 36344 —2018 信息技术 数据质量评价指标 GB/T 37973 信息安全技术 大数据安全管理指南 GB/T 39477 信息安全技术 政务信息共享 数据安全技术要求 GB/T 43697 数据安全技术 数据分类分级规则 3 术语和定义 下列术语和定义适用于本文件。 3.1 公共数据 public data 公共管理和服务机构在依法履职或者提供公共管理和服务过程中收集、产生的,以一定形式记录、 保存的各类数据及其衍生数据。 注1:公共管理和服务机构是指政务部门以及公益事业单位、公用企业。 注2:包含政务、公益事业单位数据和公用企业数据。 3.2 公共数据资源目录 public data resource catalog 依据公共数据资源的元数据,按照一定的分类方法进行编码的一组信息,用以描述各个公共数据资 源的特征,便于公共数据资源的检索、定位与获取。 3.3 缺失值 missing value 在数据归集与整理过程中未获得 的数值、属性或内容。 3.4 重复值 duplicate value 数据集存在两条及以上完全相同的记录,或在某一字段内存在多个相同的值。 DB35/T2240—2024 24基本原则 安全性 数据在清洗过程中应防止数据泄露、篡改或非法访问。 合法性 数据清洗过程和数据内容应符合《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》 等相关法律法规的要求。 可审计性 数据清洗的全过程应跟踪和记录,确保数据的来源、处理步骤、结果输出等可追溯。 5过程要求 基本流程 数据清洗基本流程应包含检测分析、确定清洗范围、定义清洗规则、数据抽取、清洗转换、结果核 验、数据标识和数据加载等环节(见图1)。DB35/T 2240 —2024 3 开始 检测分析 确定清洗范围 定义清洗规则 清洗转换 结果核验 数据标识 数据加载 结束通过不通过数据抽取 图1 数据清洗基本流程 检测分析 5.2 应满足以下要求: a) 根据被检测分析对象的特点和分析需求,设计具有针对性的检测分析方案; b) 从数据量、类型、内容、关系、数值范围等维度进行检测分析; c) 检测分析颗粒度达到字段级别,对数据中的每个字段、每个值进行检测分析; d) 采用缺失值、重复值、异常值、数据格式等一种或多种检测方法; e) 检测分析结果包含数据基本属性分析、数据的分布情况、数据的相关性和趋势、检测时间、 检测方法及处理建议等。 确定清洗范围 5.3 应满足以下要求: a) 根据检测分析结果,识别数据质量问题,确定清洗目标; DB35/T 2240 —2024 4 b) 根据数据的重要程度和数据质量情况,确定清洗任务优先级; c) 将不符合业务使用目标的数据存入问题数据库表,用于后续查证或重新使用。 定义清洗规则 5.4 应满足以下要求: a) 缺失值清洗规则:根据业务规则,对缺失数据进行填充或删除; b) 重复值清洗规则:根据唯一性约束,去除数据集的重复值; c) 异常值清洗规则:根据业务逻辑和规则,对异常数据进行删除 、修正、标记; d) 数据格式清洗规则:根据业务规则,将数据按照统一的格式进行转换。 数据抽取 5.5 应满足以下要求: a) 具备全量抽取和增量抽取两种方式; b) 支持结构化、半结构化、非结构化等多种数据类型抽取; c) 配置抽取任务包括定义抽取的频率、时间、顺序等参数。 清洗转换 5.6 应满足以下要求: a) 按照第6章的规定方法对获取的数据进行规范化处理; b) 支持多任务并行处理,按照任务优先级进行依次处理; c) 数据清洗转换任务结束后,及时删除清洗转换产生的中间或临时数据。 结果核验 5.7 5.7.1 核验内容 应满足以下要求: a) 检查数据集是否存在缺失值、重复值、异常值; b) 检查字段的类型与预期的数据类型是否一致,字段的长度是否符合预定的长度限制; c) 检查数据集的记录数量或总数据量是否符合预期值; d) 检查数据是否满足特定的业务规则,包括数据依赖关系是否正确,数据的时序性是否合理, 以及数据是否符合业务逻辑等。 5.7.2 核验要求 应满足以下要求: a) 按GB/T 36344 —2018第5章中的数据质量评价指标制定核验规则; b) 按5.7.1的规定进行数据核验; c) 当数据核验通过时,进行数据加载; d) 当数据核验不通过时,进行数据标识。 数据加载 5.8 应满足以下要求: a) 综合数据规模、增长速度、业务需求、数据加载有效性等因素,确认目标环境是否满足要求; DB35/T 2240 —2024 5 b) 明确数据安全加载的具体要求、规则和方法,包括数据加密、传输安全等; c) 通过对比源数据和目标环境中的数据来确认数据的完整性、准确性和一致性等进行数据加载 验证; d) 详细记录加载过程中出现的异常状况,包括异常类型、发生时间、影响范围等信息; e) 及时处理加载异常记录,包括数据修复、重新加载等; f) 提供数据加载通道的冗余备份机制,防止因单一通道故障导致的数据加载中断或数据丢失; g) 加载完成后,删除数据加载通道中的缓存数据,释放系统资源。 数据标识 5.9 应满足以下要求: a) 对每个核验不通过的数据进行唯一性标识; b) 数据标识包含核验不通过原因、原始来源以及处理过程等描述
DB35-T 2240-2024 公共数据清洗技术要求 福建省
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2025-07-26 03:55:56
上传分享
举报
下载
原文档
(647.3 KB)
分享
友情链接
ISO IEC TR 18781 2015 Identification cards — Laundry testing of ID Cards.pdf
ISO 22389-2 2020 Timber structures — Bending applications of I-beams — Part 2 Com.pdf
ISO 9184-7 1994 Paper board and pulps Fibre furnish analysis Part 7 Determination of weight factor.pdf
ISO IEC 19770-4 2017 Information technology — IT asset management — Part 4 Resource utilization measurement.pdf
ISO 13320 2020 Particle size analysis — Laser diffraction methods.pdf
ISO 23139 2023 Biological equipment for treating air and other gases — Requirement.pdf
ISO 2974 2018 Diesel engines 60 female cones for high-pressure fuel injection components.pdf
ISO 7996-1985Ambient air. Determination of the mass concentration of nitrogen oxides. Chemiluminesce (1).pdf
ISO IEC 22123-3 2023 Information technology — Cloud computing — Part 3 Referen.pdf
ISO 6123-3 1985 Rubber- or plastics-covered rollers — Specifications — Part.pdf
GB-T 16720.2-2005 工业自动化系统 制造报文规范 第2部分 协议规范.pdf
GB-T 42182-2022 金融服务 全球机构法律形式.pdf
GB-T 10125-2021 人造气氛腐蚀试验 盐雾试验.pdf
GB-T 42553-2023 电声学 确定声级计自由场响应修正值的方法.pdf
GB-T 44671-2024 精液基础检验 要求和试验方法.pdf
GB-T 3920-2008 纺织品 色牢度试验 耐摩擦色牢度.pdf
GB-T 19351-2003 金属覆盖层 金属基体上金覆盖层孔隙率的测定 硝酸蒸汽试验.pdf
GB-T 26480-2011 阀门的检验和试验.pdf
GB-T 686-2008 化学试剂 丙酮.pdf
GB-T 1937-2009 木材顺纹抗剪强度试验方法.pdf
1
/
3
12
评价文档
赞助2元 点击下载(647.3 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。