本文是学习GB-T 17961-2010 印刷体汉字识别系统要求与测试方法. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们
本标准规定了印刷体汉字识别系统的功能、技术要求、测试方法等。
本标准适用于运行在微型计算机的印刷体汉字识别系统。
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有
的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究
是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
GB 2312—1980 信息交换用汉字编码字符集 基本集
GB 18030—2005 信息技术 中文编码字符集
下列术语和定义适用于本标准。
3.1
印刷体汉字识别系统 printed Chinese character
recognition system
运行于微型计算机中,可以将通过光学输入设备转换而成的具有汉字符号的印刷品的图像数据,转
化为计算机系统中相应字符的软件系统。
3.2
二值图像 binary image
用黑白两个灰度级表示的图像。
3.3
灰度图像 gray scale image
用从黑色到白色之间亮度值表示的图像。
3.4
彩色图像 color image
表示色彩信息的图像。本标准指用红、绿、蓝三个基色分量表示的图像。
3.5
光学输入设备 optical input device
利用光电工作原理,把纸介质上的影像信息转换成像素数据输入到计算机中的设备。
4 |
|
||
---|---|---|---|
|
|
(Hyper Text Makeup Language)
|
GB/T 17961—2010
TXT 文本格式 (Text)
UOF 中文办公软件文档格式 (Uniform Office-document Format)
应支持普通纸媒体文本经过光学输入设备采集得到的二值图像、灰度图像和彩色图像的识别。支
持打开 BMP、TIFF、JPEG 和 PDF
格式图像文件的输入方式,并可由光学输入设备直接输入图像。
应将版面自动分成块,并正确表明每个块的属性,对文字块还需表明块之间连接关系的逻辑序号。
块的属性宜有横排文本、竖排文本、表格和图像4种。应可以人工调整修正版面块、逻辑序号及其属性。
应能正确识别表格线,并可将表格和文字建立对应关系。
应能将图像中所包括的印刷符号转换成可编辑的编码文本,并且提供若干识别候选字符。
应能输出 UOF、TXT、RTF、PDF 和 HTML 格式。输出为 UOF、RTF、PDF 和 HTML
时,能保留
文档的版式信息,包括分栏、段落、字号、字体和表格结构信息。
应支持编码文本和图像对应的校对方式。文本显示时,对于可信度较低的字符,应以差异颜色显
示。应能显示当前校对字符的候选字,以便于修改。
应至少支持GB18030—2005 字符集中强制性部分的汉字及附录 A
中的常用非汉字符号的识别。
应至少支持宋体、仿宋体、楷体和黑体等常用字体。
正式出版物及打印质量与其相当的打印文件,GB18030—2005 双字节2区(GB 2312)中的汉字识
别率应不小于98%;其他字符识别率应不小于90%。
在识别系统推荐的应用环境下,识别速度应大于150字/s。
测试样本库包含打印样本和实际样本。
打印样本是由打印样张扫描而成:选用包含5.2.1所述字符集所有字符,分别采用5.2.2中列出的
字体,版面排列参考附录C,
每页不少于1000个字符,利用激光打印机输出打印样张;通过扫描仪以
300 dpi的分辨率以256级灰度扫描上述样张,储存为JPEG
格式文件,即形成打印样本。
实际样本是由实际样张扫描而成:选用当年正式出版的书籍、报纸和杂志作为实际样张,文字部分
为白底黑字,应尽量包含GB18030—2005 字符集中强制性部分的汉字及附录 A
中的常用非汉字符号。
GB/T 17961—2010
文本格式应至少包含横排文本、竖排文本、表格和图像,且应至少包含5.2.2中列出的所有字体。字符
总数在10万以上,每页不少于1000个字符;通过扫描仪以300 dpi
的分辨率随机扫描成二值图像、
256级灰度图像和24位彩色图像,数量各占总数的1/3,保存的文件格式应至少包含BMP、TIFF、JPEG
和 PDF, 即形成实际样本。
选用纸媒体文本,经光学输入设备采集得到二值图像、256级灰度图像和24位彩色图像,并分别储
存为 BMP、TIFF 和 PDF 格式文件,灰度图像和彩色图像还需保存为JPEG
格式文件。使用被测系统
依次打开上述图像文件,判定是否符合5.1.1的要求。
被测系统至少可以连接一种光学输入设备,如图像扫描仪,并可直接从该设备获取图像,判定是否
符合5.1.1的要求。
选用版面至少包含4个分块的测试样本,块中分别为竖排文本、横排文本、表格和图像。使用被测
系统对上述测试样张进行版面分析,判定是否符合5.1.2的要求。
对分析得到的版面,验证人工修正功能的有效性。
使用被测系统读入附录 B 所示表格图像,判定是否符合5.1.3的要求。
使用被测系统对上述样本库中的打印样本逐个识别,判定是否符合5.1.4、5.2.1和5.2.2的要求。
使用被测系统对附录B 所示测试样张进行识别,依次输出为
UOF、TXT、RTF、PDF 和 HTML 格
式,判定是否符合5.1.5要求。
使用被测系统对附录 B
所示测试样张进行识别后,转到校对界面,判定是否符合5.1.6的要求。
测试样本为样本库中的所有打印样本和随机抽取的50个实际样本。自动版面分析有误时,可人工
修正。
识别正确率测试结果按式(1)计算:
识别正确率=(C/N)×100% (1)
式中:
C— 测试样本中被正确识别的印刷符号数;
N—— 测试样本中印刷符号总数。
测试样本从样本库中随机抽取,字符总数应不少于10万个。
识别速度测试结果按式(2)计算:
识别速度=N/T ……………………………… (2)
式中:
N—— 测试样张中印刷符号总数;
T-—
识别系统从开始读取测试数据至识别结果记录到媒体上所用的时间,可用秒表记录。
GB/T 17961—2010
(规范性附录)
印刷体汉字识别系统应识别的非汉字符号
A.1 数 字
0123456789
A.2 大写英文字符
ABCDEFGHIJKLMNOPQRSTUVWXYZ
A.3 小写英文字符
abcdefghijklmnopqrstuvwxyz
A.4 西文标点符号
!“#\$%&’()* , ,/:;\<->?@「\1” ”{ \|}~ 毛矣 ☆
A.5 中文标点符号
!?,。:;“”‘’—……~()〔〕{}〈}《》¥
GB/T 17961—2010
(资料性附录)
参 考 样 本
|
|
|
|
|
|
---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
滑雪场简介 滑雪度假村位于首都近郊东北方向的密 云县,距县城正南方约3公里,距北京市 望和桥62公里。2006年9月京承高速 密云段已正式通车,是北京近郊唯一30 分钟可到达的滑雪场。该滑雪场占地面 积4000余亩,是北京及华北地区唯一集 滑雪、滑道、滑翔等动感旅游项目为一体 的冬季度假村。度假村地处密云县,雪 质优良,景色壮美,气候宜人。项目特点 为:休闲滑雪为主,戏雪赏雪为辅,动静 结合、老少皆宜。 |
|
---|
A man is not old as long as he is seeking something. A man is not old
until regrets take the place of dreams.
(J.Barrymore)只要一个人还有追求,他就没有老。直到后悔取代了梦想,
一个人才算老。
(巴里摩尔)
GB/T 17961—2010
(资料性附录)
参 考 字 体
宋体:单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年在
冬季运动中排名首位。
仿宋体:单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年
在冬季运动中排名首位。
楷体:单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年在
冬季运动中排名首位。
黑体:单板滑雪运动在欧美国家和日本、韩国等亚洲国家普及率很高,从八十年代至今连续多年在
冬季运动中排名首位。
style="width:4.15328in;height:1.71996in" />
GB/T 17961-2010
中 华 人 民 共 和 国
国 家 标 准
印刷体汉字识别系统要求与测试方法
GB/T 17961—2010
关
中国标准出版社出版发行
北京复兴门外三里河北街16号
邮政编码:100045
网址:www.gb168.cn
服务热线:010-68522006
2011年5月第一版
关
书号:155066 ·1-42645
版权专有 侵权必究
更多内容 可以 GB-T 17961-2010 印刷体汉字识别系统要求与测试方法. 进一步学习