声明

本文是学习GB-T 17961-2010 印刷体汉字识别系统要求与测试方法. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们

1 范围

本标准规定了印刷体汉字识别系统的功能、技术要求、测试方法等。

本标准适用于运行在微型计算机的印刷体汉字识别系统。

2 规范性引用文件

下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有
的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究

是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。

GB 2312—1980 信息交换用汉字编码字符集 基本集

GB 18030—2005 信息技术 中文编码字符集

3 术语和定义

下列术语和定义适用于本标准。

3.1

印刷体汉字识别系统 printed Chinese character
recognition system

运行于微型计算机中,可以将通过光学输入设备转换而成的具有汉字符号的印刷品的图像数据,转

化为计算机系统中相应字符的软件系统。

3.2

二值图像 binary image

用黑白两个灰度级表示的图像。

3.3

灰度图像 gray scale image

用从黑色到白色之间亮度值表示的图像。

3.4

彩色图像 color image

表示色彩信息的图像。本标准指用红、绿、蓝三个基色分量表示的图像。

3.5

光学输入设备 optical input device

利用光电工作原理,把纸介质上的影像信息转换成像素数据输入到计算机中的设备。

4

缩略语

BMP

HTML

JPEG

PDF

RTF

TTFF

位图图片

超文本[置标语言](https://siduwenku.com/search?f=new&wd=%E7%BD%AE%E6%A0%87%E8%AF%AD%E8%A8%80)

联合图像专家组格式

便携式文档格式

富文档格式

已标记图像文件格式

(Bitmap)

(Hyper Text Makeup Language)

(Joint Picture Experts Group)

(Portable Document Format)

(Rich Text Format)

(Tagged Image File Format)

GB/T 17961—2010

TXT 文本格式 (Text)

UOF 中文办公软件文档格式 (Uniform Office-document Format)

5 要求

5.1 系统功能要求

5.1.1 图像输入

应支持普通纸媒体文本经过光学输入设备采集得到的二值图像、灰度图像和彩色图像的识别。支

持打开 BMP、TIFF、JPEG 和 PDF
格式图像文件的输入方式,并可由光学输入设备直接输入图像。

5.1.2 版面分析

应将版面自动分成块,并正确表明每个块的属性,对文字块还需表明块之间连接关系的逻辑序号。

块的属性宜有横排文本、竖排文本、表格和图像4种。应可以人工调整修正版面块、逻辑序号及其属性。

5.1.3 表格识别

应能正确识别表格线,并可将表格和文字建立对应关系。

5.1.4 文本识别

应能将图像中所包括的印刷符号转换成可编辑的编码文本,并且提供若干识别候选字符。

5.1.5 结果输出

应能输出 UOF、TXT、RTF、PDF 和 HTML 格式。输出为 UOF、RTF、PDF 和 HTML
时,能保留

文档的版式信息,包括分栏、段落、字号、字体和表格结构信息。

5.1.6 校对界面

应支持编码文本和图像对应的校对方式。文本显示时,对于可信度较低的字符,应以差异颜色显

示。应能显示当前校对字符的候选字,以便于修改。

5.2 性能要求

5.2.1 字符集

应至少支持GB18030—2005 字符集中强制性部分的汉字及附录 A
中的常用非汉字符号的识别。

5.2.2 字体

应至少支持宋体、仿宋体、楷体和黑体等常用字体。

5.2.3 识别正确率

正式出版物及打印质量与其相当的打印文件,GB18030—2005 双字节2区(GB 2312)中的汉字识

别率应不小于98%;其他字符识别率应不小于90%。

5.2.4 识别速度

在识别系统推荐的应用环境下,识别速度应大于150字/s。

6 测试方法

6.1 样本库的建立

6.1.1 测试样本库

测试样本库包含打印样本和实际样本。

6.1.2 打印样本

打印样本是由打印样张扫描而成:选用包含5.2.1所述字符集所有字符,分别采用5.2.2中列出的
字体,版面排列参考附录C,
每页不少于1000个字符,利用激光打印机输出打印样张;通过扫描仪以

300 dpi的分辨率以256级灰度扫描上述样张,储存为JPEG
格式文件,即形成打印样本。

6.1.3 实际样本

实际样本是由实际样张扫描而成:选用当年正式出版的书籍、报纸和杂志作为实际样张,文字部分

为白底黑字,应尽量包含GB18030—2005 字符集中强制性部分的汉字及附录 A
中的常用非汉字符号。

GB/T 17961—2010

文本格式应至少包含横排文本、竖排文本、表格和图像,且应至少包含5.2.2中列出的所有字体。字符
总数在10万以上,每页不少于1000个字符;通过扫描仪以300 dpi
的分辨率随机扫描成二值图像、
256级灰度图像和24位彩色图像,数量各占总数的1/3,保存的文件格式应至少包含BMP、TIFF、JPEG

和 PDF, 即形成实际样本。

6.2 图像输入测试

选用纸媒体文本,经光学输入设备采集得到二值图像、256级灰度图像和24位彩色图像,并分别储
存为 BMP、TIFF 和 PDF 格式文件,灰度图像和彩色图像还需保存为JPEG
格式文件。使用被测系统

依次打开上述图像文件,判定是否符合5.1.1的要求。

被测系统至少可以连接一种光学输入设备,如图像扫描仪,并可直接从该设备获取图像,判定是否

符合5.1.1的要求。

6.3 版面分析测试

选用版面至少包含4个分块的测试样本,块中分别为竖排文本、横排文本、表格和图像。使用被测

系统对上述测试样张进行版面分析,判定是否符合5.1.2的要求。

对分析得到的版面,验证人工修正功能的有效性。

6.4 表格识别测试

使用被测系统读入附录 B 所示表格图像,判定是否符合5.1.3的要求。

6.5 文本识别、字符集和字体测试

使用被测系统对上述样本库中的打印样本逐个识别,判定是否符合5.1.4、5.2.1和5.2.2的要求。

6.6 结果输出测试

使用被测系统对附录B 所示测试样张进行识别,依次输出为
UOF、TXT、RTF、PDF 和 HTML 格

式,判定是否符合5.1.5要求。

6.7 校对界面测试

使用被测系统对附录 B
所示测试样张进行识别后,转到校对界面,判定是否符合5.1.6的要求。

6.8 识别正确率测试

测试样本为样本库中的所有打印样本和随机抽取的50个实际样本。自动版面分析有误时,可人工

修正。

识别正确率测试结果按式(1)计算:

识别正确率=(C/N)×100% (1)

式中:

C— 测试样本中被正确识别的印刷符号数;

N—— 测试样本中印刷符号总数。

6.9 识别速度测试

测试样本从样本库中随机抽取,字符总数应不少于10万个。

识别速度测试结果按式(2)计算:

识别速度=N/T ……………………………… (2)

式中:

N—— 测试样张中印刷符号总数;

T-—
识别系统从开始读取测试数据至识别结果记录到媒体上所用的时间,可用秒表记录。

GB/T 17961—2010

A

(规范性附录)

印刷体汉字识别系统应识别的非汉字符号

A.1

0123456789

A.2 大写英文字符

ABCDEFGHIJKLMNOPQRSTUVWXYZ

A.3 小写英文字符

abcdefghijklmnopqrstuvwxyz

A.4 西文标点符号

!“#\$%&’()* , ,/:;\<->?@「\1” ”{ \|}~ 毛矣

A.5 中文标点符号

!?,。:;“”‘’—……~()〔〕{}〈}《》¥

GB/T 17961—2010

B

(资料性附录)

序号

课程名称

任课教师

序号

课程名称

任课教师

1

数学

张平

5

历史

张英

2

语文

李英华

6

生物

程莉莉

3

英语

黄新

7

化学

张立骏

4

政治

刘淇

8

物理

王欣

滑雪场简介

滑雪度假村位于首都近郊东北方向的密

云县,距县城正南方约3公里,距北京市

望和桥62公里。2006年9月京承高速

密云段已正式通车,是北京近郊唯一30

分钟可到达的滑雪场。该滑雪场占地面

积4000余亩,是北京及华北地区唯一集

滑雪、滑道、滑翔等动感旅游项目为一体

的冬季度假村。度假村地处密云县,雪

质优良,景色壮美,气候宜人。项目特点

为:休闲滑雪为主,戏雪赏雪为辅,动静

结合、老少皆宜。

滑雪场简介

散落在度假区内山上山下的餐饮点丰富多彩,雪道旁的苔露丝餐吧主 要为外国客人供应意式披萨、炸鱼排等西餐主食和啤酒;大食堂 大花堂东北菜馆、露天小吃广场主要供应东方人口味的饭菜主食和雪 地烧烤小吃;[薰衣草](https://siduwenku.com/search?f=new&wd=%E8%96%B0%E8%A1%A3%E8%8D%89)茶寮主要为山顶客人供应薰衣草茶咖啡等热 饮滑雪度假村由国际国内旅游滑雪界富有丰富经验的专业人士经 营管理;在国内率先采用了国际标准的雪道色彩分级代码和提示标

牌;为滑雪爱好者提供安全、舒适的服务。

A man is not old as long as he is seeking something. A man is not old
until regrets take the place of dreams.
(J.Barrymore)只要一个人还有追求,他就没有老。直到后悔取代了梦想,
一个人才算老。

(巴里摩尔)

GB/T 17961—2010

C

(资料性附录)

宋体:单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年在

冬季运动中排名首位。

仿宋体:单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年

在冬季运动中排名首位。

楷体:单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年在

冬季运动中排名首位。

黑体:单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年在

冬季运动中排名首位。

style="width:4.15328in;height:1.71996in" />

GB/T 17961-2010

中 华 人 民 共 和 国

国 家 标 准

印刷体汉字识别系统要求与测试方法

GB/T 17961—2010

中国标准出版社出版发行

北京复兴门外三里河北街16号

邮政编码:100045

网址:www.gb168.cn

服务热线:010-68522006

2011年5月第一版

书号:155066 ·1-42645

版权专有 侵权必究

延伸阅读

更多内容 可以 GB-T 17961-2010 印刷体汉字识别系统要求与测试方法. 进一步学习

联系我们

DB3710-T 189-2023 警戒潮位标志物设置规范 威海市.pdf