ICS07.100.01
CCSA40
中华人民共和国国家标准
GB/T46205—2025
宏基因组数据处理和加工要求
Requirementsforprocessingandanalyzingofmetagenomicdata
2025-10-05发布 2026-02-01实施
国家市场监督管理总局
国家标准化管理委员会发布目 次
前言 Ⅲ …………………………………………………………………………………………………………
引言 Ⅳ …………………………………………………………………………………………………………
1 范围 1 ………………………………………………………………………………………………………
2 规范性引用文件 1 …………………………………………………………………………………………
3 术语和定义 1 ………………………………………………………………………………………………
4 宏基因组数据处理和加工流程通用要求 2 ………………………………………………………………
5 宏基因组元数据描述要求 3 ………………………………………………………………………………
6 宏基因组原始数据处理要求 4 ……………………………………………………………………………
7 宏基因组原始数据加工要求 5 ……………………………………………………………………………
8 宏基因组数据的存储和发布的通用要求 6 ………………………………………………………………
附录A(规范性) 宏基因组测序项目元数据推荐的数据字段 7 …………………………………………
附录B(规范性) 宏基因组测序样本元数据推荐的数据字段 8 …………………………………………
附录C(规范性) 宏基因组测序实验元数据推荐的数据字段 10 …………………………………………
参考文献 12 ……………………………………………………………………………………………………
ⅠGB/T46205—2025
前 言
本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中华人民共和国科学技术部提出。
本文件由全国科技平台标准化技术委员会(SAC/TC486)归口。
本文件起草单位:中国科学院微生物研究所、中国食品药品检定研究院、中国疾病预防控制中心传
染病预防控制所、北京宏诚创新科技有限公司、深圳华大生命科学研究院、中国食品发酵工业研究院有
限公司、海南省疾病预防控制中心、北京航空航天大学、中国农业科学院农业基因组研究所、四川大学华
西医院、广州微远医疗器械有限公司、北京贝瑞和康生物技术有限公司、广东美格基因科技有限公司、
北京市标准化研究院。
本文件主要起草人:吴林寰、马俊才、范国梅、孙清岚、左丽媛、孙彦、刘东来、沈舒、崔志刚、周海健、
卢昕、杜小莉、田川、韩思淼、李鑫、徐讯、王然、孙初阳、甘晓婷、华德、蔡英桂、遇晓杰、贺子龙、刘永鑫、
雍鑫、王小锐、张洪涛、路洪凤、闫晓倩、束文圣、金桃、王嘉。
ⅢGB/T46205—2025
引 言
宏基因组是从特定环境中提取的全部微生物的遗传物质的总和,它包括了环境中所有微生物的基
因组信息。由于高通量测序技术的普及,宏基因组测序技术已广泛应用于生命科学和临床研究,并产生
了海量宏基因组测序数据。宏基因组数据分析过程中,测序数据处理和加工流程的标准化是至关重要
的,标准化的数据格式和元数据描述方式对于促进数据共享必不可少,标准化的数据分析流程及方法关
系到复杂生态群落物种的鉴定和定性分析,将极大地影响分析结果的可靠性。本文件提出了宏基因组
数据处理和加工流程及具体要求,有助于提高宏基因组测序所产生数据的准确性、完整性、一致性和可
用性,促进宏基因组数据的共享和利用。
ⅣGB/T46205—2025
宏基因组数据处理和加工要求
1 范围
本文件规定了宏基因组数据处理和加工的流程,宏基因组元数据描述要求、原始数据处理和加工要
求、数据存储和发布通用要求。
本文件适用于微生物领域各级科技资源平台和宏基因组测序企业对宏基因组数据处理和分析的质
量评价、评估。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
3.1
宏基因组 metagenome
描述特定环境中所有微生物的遗传物质总和。
3.2
宏基因组测序 metagenomicsequencing
对样本中所有微生物基因组进行测序的方法。
注:宏基因组测序能够在基因水平上描述整个群落的物种组成和功能。
3.3
标记基因测序 markergenesequencing
为确定样品的微生物系统发育,使用靶向目标基因(例如用于细菌和古细菌鉴定的16SrRNA和用
于真菌鉴定的内部转录间隔区ITS)特定区域的引物进行测序的方法。
3.4
原始数据 rawdata
由测序仪通过碱基识别产生的未经过处理的数据。
3.5
衍生数据 deriveddata
对原始数据进行拼接、注释等加工后形成的数据。
3.6
元数据 metadata
定义和描述其他数据的数据。
注:在本文件中指对宏基因组测序数据的特征的描述。
[来源:GB/T18391.1—2009,3.2.16]
3.7
注释 annotation
利用生物信息学方法和工具,对基因组所有基因的生物学功能进行基因的识别、物种判定及功能预
1GB/T46205—2025
测的一种方式。
3.8
数据处理 dataprocessing
对原始数据进行必要的整理,形成可用于下一步分析的数据的过程。
注:包括数据的清洗、格式转换、质量控制等过程。
3.9
数据加工 dataanalyzing
对经过处理后的原始数据进行分析,提取有用的信息和知识的过程。
注:包括数据的整合、审编、注释、标引等过程。
3.10
相对丰度 relativeabundance
在测序结果中微生物的遗传物质在样本中占总测序数据量的相对比例。
注:通常表现为百分比。
3.11
重叠群 contig
彼此可通过末端的重叠序列相互连接形成连续的DNA长片段的一组克隆。
3.12
骨架 scaffolds
将拼接产生的重叠群组装成的长序列片段。
3.13
读长 reads
高通量测序平台产生的短序列。
注:也称为一个读段。
3.14
组装 assembly
利用短序列之间的重叠区域对片段进行拼接而形成较长的连续序列。
3.15
分箱 binning
将序列组装得到的重叠群按物种分开归类的过程。
3.16
分类操作单元 operationaltaxonomicunites;OTU
一组在物种分类地位上密切相关的个体或序列。
注:通常以97%的序列相似性阈值划分。
3.17
扩增序列变体 ampliconsequencevariants;ASVs
对序列差异通过统计和去噪的方法进行计算,而获得的微生物群落中的代表性序列。
3.18
基因组完成图 completegenome
经过高质量组装和验证的具有无间隙、高准确性并且结构完整的基因组序列。
注:对于原核生物,通常表现为单个环状染色体。
4 宏基因组数据处理和加工流程通用要求
宏基因组测序数据处理和加工流程应符合图1的规定,并满足以下内容:
2GB/T46205—2025
GB-T 46205-2025 宏基因组数据处理和加工要求
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2025-10-19 07:51:52上传分享