全网唯一标准王
ICS01.040.01 CCSA22 中华人民共和国国家标准 GB/T20532—2025 代替GB/T20532—2006 信息处理用现代汉语词类标记规范 Specificationofpartofspeech(POS)tagofcontemporaryChinesefor Chineseinformationprocessing(CIP) 2025-08-29发布 2026-03-01实施 国家市场监督管理总局 国家标准化管理委员会发布目 次 前言 Ⅲ ………………………………………………………………………………………………………… 1 范围 1 ……………………………………………………………………………………………………… 2 规范性引用文件 1 ………………………………………………………………………………………… 3 术语和定义 1 ……………………………………………………………………………………………… 4 总则 1 ……………………………………………………………………………………………………… 5 词类及其他切分单位分类 2 ……………………………………………………………………………… 6 标记代码的组合应用 6 …………………………………………………………………………………… 7 标记代码表 7 ……………………………………………………………………………………………… 8 证实方法 10 ………………………………………………………………………………………………… 参考文献 11 …………………………………………………………………………………………………… ⅠGB/T20532—2025 前 言 本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件代替GB/T20532—2006《信息处理用现代汉语词类标记规范》,与GB/T20532—2006相 比,除结构和编辑性改动外,主要技术变化如下。 a) 更改了范围(见第1章,2006年版的第1章)。 b) 在术语与定义方面,更改术语“汉语信息处理”为“中文信息处理”,并更改了定义(见3.1,2006 年版的2.1);增加了“现代汉语”的术语和定义(见3.2);更改“PartsofSpeech”为“Partof Speech”(见3.3,2006年版的2.3)。 c) 在词类划分依据方面,删除“参考了《中学教学语法系统提要》”(见2006年版的3.2);增加“也 参考了其他语言文字规范标准和常用语文工具书、汉语语料库等的词类划分体系。”(见4.2)。 d) 在名词类方面,增加了名词小类的人名标记为姓和名的单独标记,分别标记为nhf和nhs(见 5.3.3);更改了名词小类中人名示例(见5.3.3,2006年版的4.1.1.5);更改了名词小类中机构名 示例(见5.3.5,2006年版的4.1.1.8);更改名词小类中其他专有名词示例(见5.3.6,2006年版 的4.1.1.9);更改了名词小类时间名词为时间词,作为基本词类,标记为t(见5.4,2006年版的 4.1.1.2);更改了名词小类方位名词为方位词,作为基本词类,标记为l(见5.5,2006年版的 4.1.1.3);删除了处所名词示例中的“边疆”一词(见2006年版的4.1.1.4);删除了名词小类中的 族名(见2006年版的4.1.1.7)。 e) 在动词类方面,更改了趋向动词示例(见5.6.5,2006年版的4.1.2.5);增加了形式动词作为动 词小类,标记为vf(见5.6.6);增加了心理动词作为动词小类,标记为vs(见5.6.7)。 f) 在数词类修订内容方面,增加了基数词作为数词小类,标记为mc(见5.9.1);增加了序数词作 为数词小类,标记为mo(见5.9.2)。 g) 在代词类方面,增加了人称代词作为代词小类,标记为rp(见5.11.1);增加了指示代词作为代 词小类,标记为rd(见5.11.2);增加了疑问代词作为代词小类,标记为ri(见5.11.3)。 h) 在新增基本词类方面,增加了语气词作为基本词类,标记为y(见5.16);在其他切分单位修订 内容方面,删除了名词性习用语、动词性习用语、形容词性习用语、连词性习用语4个习用语小 类,采用组合方式进行标记(见2006年版的4.2.1);删除了名词性缩略语、动词性缩略语、形容 词性缩略语3个缩略语小类,采用组合方式标记(见2006年版的4.2.2);删除了名词性语素 字、动词性语素字、形容词性语素字3个语素字小类,采用组合方式标记(见2006年版的 4.2.5)。 i) 在新增“标记代码的组合原则与应用”方面,增加了“标记代码的组合原则”(见4.4);增加了“标 记代码的组合应用”(见第6章);增加了非汉字字符串的语法功能标注,采用组合方式进行标 记(见6.5)。 j) 在其他修订内容方面,更改“其他”为“其他符号”(见5.19.7,2006年版的4.2.7);更改了“q”(量 词)的代码说明“quantity”为“依据通常做法”(见第7章,2006年版的第5章);增加了“词类标 记代码表”(见7.1);增加了“其他切分单位标记代码表”(见7.2);增加了“词类标记组合代码 表”(见7.3);增加了“证实方法”(见第8章)。 ⅢGB/T20532—2025 本文件由教育部(语言)提出。 本文件由全国语言文字标准化技术委员会(SAC/TC500)归口。 本文件起草单位:北京师范大学中文信息处理研究所、教育部语言文字应用研究所。 本文件主要起草人:杨丽姣、肖航、靳光瑾、富丽、刘智颖、宋培彦、胡韧奋、李洪政、李慧、李娟。 本文件及其所代替文件的历次版本发布情况为: ———2006年首次发布为GB/T20532—2006; ———本次为第一次修订。 ⅣGB/T20532—2025 信息处理用现代汉语词类标记规范 1 范围 本文件规定了信息处理中现代汉语词类及其他切分单位的标注类别与标记代码。 本文件适用于中文信息处理与语言资源建设,现代汉语教学与研究、国际中文教育、汉语方言与古 代汉语信息处理等参照使用,支持智能化信息处理与语言治理能力现代化的发展需求。 2 规范性引用文件 本文件没有规范性引用文件。 3 术语和定义 下列术语和定义适用于本标准。 3.1 中文信息处理 Chineseinformationprocessing;CIP 利用计算机技术与人工智能方法,对中文音、形、义等信息进行输入、输出、提取、分析、理解、生成与 应用等处理的过程。 3.2 现代汉语 contemporaryChinese 自“五四运动”以来逐步确立并广泛使用的汉民族共同语。1) 3.3 切分单位 segmentunit 中文信息处理使用的、具有确定语法功能的基本单位。2) 1) 现代汉语:包括以普通话为代表的口语形式以及以现代白话文为主的书面语形式。它是当前中文信息处理的 主要语言对象。 2) 切分单位:包括本标准的规则所限定的词、短语及其他单位。3.4 词类 partofspeech;POS 词的语法分类,主要是根据语法功能划分出来的类。 3.5 标记 tag 对文本中切分单位的类别进行标注的代码。 4 总则 4.1 切分单位的范围 本文件的切分单位包括词、短语和其他切分单位,如习用语、缩略语、前接成分、后接成分、语素字、 1GB/T20532—2025 非语素字、标点符号、非汉字符号等。 4.2 词类划分的依据 本文件的词类分类体系参考了吕叔湘、朱德熙、胡裕树、黄伯荣等先生的语法体系。 本文件根据中文信息处理的特点和要求,主要依据语法功能原则划分词类,也参考了其他语言文字 规范标准和常用语文工具书、汉语语料库等的词类划分体系。 4.3 标记代码的制定原则 依据国际通常做法,标记代码主要采用英文术语的字母。例如,“名词”,采用英文术语“noun”的首 字母“n”作为标记代码;“数词”,采用英文术语“numeral”的第三个字母“m”作为标记代码。 汉语独有的或使用英文术语字母不便的,依据国内通常做法,标记代码采用汉语拼音字母。例 如,“缩略语”,采用汉字“简”的汉语拼音首字母“j”作为标记代码;“语素字”,采用汉字“根”的汉语拼音 首字母“g”作为标记代码。 4.4 标记代码的组合原则 本文件规定词类、其他切分单位的标记代码可以组合使用。例如,用“v-n”标记名动共类;用“n(i)” 标记名词性习用语,以处理单个标记无法涵盖的情况。 5 词类及其他切分单位分类 5.1 概述 本文件将现代汉语词类划分为16个基本类和20个小类,并为非词级切分单位设定7个基本类,以 满足语言信息处理需求。为提升词类体系的灵活性与可拓展性,用户可结合具体应用场景,按照本规范 所确立的分类原则与标记代码,对相关类目进行适当扩展或细化,以更好地服务于特定的研究任务或工 程实践。 5.2 词类定义及标记代码 本文件规定了词类的名称、含义及其对应的标记代码,同时,也可为类目扩展或衍生标记提供参照 框架。 5.3 名词,标记为n,表示人或事物的名称,在句子中主要充当主语或宾语。 5.3.1 普通名词,标记为ng,表示事物的名称。 示例: 人 马 书 教师 飞机 电冰箱 阿姨 桌子 木头 道德 理论 历史 思想 文化 因素 作风 哲学 5.3.2 处所名词,标记为nl,表示处所。 示例: 空中 高处 隔壁 门口 附近 一旁 野外 5.3.3 人名,标记为nh,表示人物名称的专有名词。 示例: 张雷 铁木尔 孙悟空 欧阳修 松赞干布 卡尔·马克思 姓,标

.pdf文档 GB-T 20532-2025 信息处理用现代汉语词类标记规范

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 20532-2025 信息处理用现代汉语词类标记规范 第 1 页 GB-T 20532-2025 信息处理用现代汉语词类标记规范 第 2 页 GB-T 20532-2025 信息处理用现代汉语词类标记规范 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-10-12 17:27:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。