本文是学习GB-T 18790-2010 联机手写汉字识别系统技术要求与测试规程. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们
本标准规定了联机手写汉字识别系统的技术要求和测试规程。
本标准适用于微型计算机、手持式信息处理设备等数字化设备中使用的联机手写汉字识别系统。
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有
的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究
是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
GB 18030—2005 信息技术 中文编码字符集
下列术语和定义适用于本标准。
3.1
联机手写数据采集设备 on-line handwriting device
可将人们书写的汉字及字符轨迹实时转换成坐标点序列并形成电子数据的设备,如手写板、触摸
屏、鼠标等。
3.2
联机手写汉字识别系统 on-line handwriting Chinese
character recognition system
运行于微型计算机、手持式信息处理设备等具有计算能力的系统中,可将联机手写数据采集设备采
集的汉字手写数据进行处理与辨识,输出相应的汉字标准字符的软件系统。
3.3
样本 sample
一个完整的、由联机手写数据采集设备采集的、符合附录B
规定数据格式的数据称为一个样本。
3.4
样本文件 sample file
由多个样本按附录 B 规定的数据格式组成的文件。
3.5
样本库 library of sample files
多个同类型样本文件组成的文件集合。
3.6
工整样本库 library of printed-handwriting sample
由书写者使用联机手写数据采集设备、在工整书写提示下自然书写的汉字样本组成的样本库。
3.7
乱笔顺样本库 library of random-stroke-order sample
以随机方式打乱了笔划顺序的汉字样本组成的样本库。
GB/T 18790—2010
3.8
自由手写体样本库 library of cursive-handwriting
sample
由书写者使用联机手写数据采集设备、在自由书写提示下按照自身书写习惯自然书写的汉字样本
组成的样本库。
3.9
平均首选识别率 average accuracy of hit-in 1
首选正确的样本数与样本库中样本总数的比值。
注:测试过程中,如识别系统对被测样本给出的首个候选字是正确结果,则该样本为首选正确的样本。
3.10
平均十选识别率 average accuracy of hit-in 10
十选正确的样本数与样本库中样本总数的比值。
注:测试过程中,如识别系统对被测样本给出的前10个候选字中包含正确结果,则该样本为十选正确的样本。
联机手写识别系统识别的汉字字符集应为 GB 18030—2005
中的全部汉字,或至少包括
GB 18030—2005 强制性部分中的全部汉字。
联机手写汉字识别系统识别的非汉字字符应包括数字、拉丁字母、西文标点和符号、中文标点和符
号,以及手写控制符,见附录 A。
a) 对 GB18030—2005 中强制性部分汉字的平均首选识别率应大于95%;
b) 对附录 A 中的非汉字字符的平均首选识别率应大于80%;
c) 对支持GB18030—2005
中的全部汉字字符的产品,平均首选识别率应大于85%。
对自由手写体样本库的平均十选识别率应大于90%。
对乱笔顺样本库的平均十选识别率应大于80%。
联机手写识别系统应具备候选字功能。
联机手写识别系统应具备词组联想功能。
联机手写识别系统应具备用户笔迹自适应功能。即,当用户确认正确的识别结果出现在候选字中
(非首选)时,识别系统可以自动学习当前对应的用户笔迹,使得当用户以后再次输入同一笔迹时,正确
结果可以出现在首选结果中。
联机手写识别系统应具备倾斜字识别功能。即,给定屏幕内的垂直坐标为0°方向,识别系统应能
正确识别±45°以内倾斜方向书写的用户笔迹。
联机手写识别系统应具备识别中、英、数、符混合输入的功能。即,当用户手写输入汉字、英文字母、
GB/T 18790—2010
数字、符号时,用户不需要设定或改变当前识别范围,识别系统就可以识别所有笔迹。
联机手写识别系统应具备写繁出简的功能,即当用户书写笔迹为繁体字时,系统自动输出为对应的
简体字识别结果;同时应提供选项设置,以实现写简出繁、写繁出繁。
测试样本库包括工整样本库、乱笔顺样本库和自由手写体样本库。
使用联机手写数据采集设备,采集由一定数量的书写者按照笔顺规范工整书写的汉字及符号的笔
迹数据。
数据套数不应少于30套,书写者的数量不应少于30人,同一书写者不能重复书写相同字符。
应选取不同年龄、不同性别、不同文化程度的书写者。
每套数据的内容,应包含GB18030—2005
中全部或强制性部分包含的所有汉字,及附录 A 中列出
的所有字符。
将工整样本库中的样本,以随机方式打乱笔顺后形成乱笔顺样本库。
使用联机手写数据采集设备,采集由一定数量的书写者按照自身书写习惯书写的汉字及符号的笔
迹数据。
数据套数不应少于30套,书写者的数量不应少于30人,同一书写者不能重复书写相同字符。
应选取不同年龄、不同性别、不同文化程度的书写者。
每套数据的内容,应包含GB18030—2005
强制性部分中双字节编码2区包含的所有汉字,及附录
A 中列出的所有字符。
使用被测联机手写识别系统,对全部工整样本进行识别,验证系统所能识别的汉字字符及非汉字字
符,应符合4.1的要求。
使用被测联机手写识别系统,分别对全部工整样本和乱笔顺样本进行识别,记录每个样本中每个字
符的识别结果,并按下列公式计算平均首选识别率和平均十选识别率。
平均首选识别率=CN/NN (1)
式中:
NN—— 样本库中样本总数;
CN—— 经统计首选识别结果正确的样本数。
平均十选识别率=CN10/NN ………………………… (2)
式中:
NN—— 样本库中样本总数;
CN10—— 经统计前10选识别结果中包含正确结果的样本数。
采用被测联机手写识别系统进行实际输入,判定是否具备4.3要求的各项功能。
GB/T 18790—2010
(规范性附录)
联机手写汉字识别系统的识别字符集中的非汉字字符集
联机手写汉字识别系统至少应识别如下非汉字字符:
A.1 数字
0123456789
A.2 大写英文字符
ABCDEFGHIJKLMNOPQRSTUVWXYZ
A.3 小写英文字符
abcdefghijklmnopqrstuvwxyz
A.4 西文标点、符号
!"#\$%&’()*,./:;\<->?@[\^ `{ \|}~6&
A.5 中文标点、符号
!?,。、:;“” “ -……~() () {) 〈〉 《》¥
A.6 手 写 控 制 符
手写控制符与内码对应关系见表 A.1。
表 A.1 手写控制符与内码对应关系
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
style="width:2.83326in" />
GB/T 18790—2010
(规范性附录)
关于标准测试样本文件的规定
本附录规定了标准测试样本库中的样本文件的扩展名和文件格式。
本附录对于提供和使用联机手写汉字识别系统的各方提出共同遵从的约定。
B.1 标准测试样本文件的扩展名
标准测试样本文件的扩展名统一为".POT"。
B.2 标准测试样本文件格式
文件格式:标准测试样本文件中存放的是连续的POT
数据块;无其他额外的格式信息。
POT 数据块定义:每个 POT
数据块中包含一个手写汉字的字型采样数据和内码等信息,详见
下表。
位移 内容
0 WORD 数据块长度,以字节(BYTE) 为单位,假设为 n
2 DWORD 本数据块所代表的汉字内码,例如"啊"= 0x0000b0al
6 WORD 手写样本的总笔划数,假设为 N
8 WORD 第一笔的第一个点的 X 方向坐标值
10 WORD 第一笔的第一个点的 Y 方向坐标值
··
i WORD 0xFFFF, 第一笔的结束标志
i+1 WORD 0x0000,第一笔的结束标志
···
n-7
n-5
n-3
n- 1
WORD 0xFFFF, 第 N 笔的结束标志
WORD 0x0000,第 N 笔的结束标志
WORD 0xFFFF, 本字的结束标志
WORD 0xFFFF, 本字的结束标志
注:1 WORD=2BYTE
1DWORD=2WORD
34H,12H。
(低字节在前,高字节在后),例如:0x1234,在文件中的字节排列顺序为34H,12H;
(低字在前,高字在后),例如:0x12345678,
在文件中的字节排列顺序为78H,56H,
style="width:4.16005in;height:1.85988in" />
中 华 人 民 共 和 国
国 家 标 准
联机手写汉字识别系统技术要求与
测试规程
GB/T 18790—2010
兴
中国标准出版社出版发行
北京复兴门外三里河北街16号
邮政编码:100045
网址:www.gb168.cn
服务热线:010-68522006
2011年5月第一版
关
书号:155066 ·1-42649
版权专有 侵权必究
更多内容 可以 GB-T 18790-2010 联机手写汉字识别系统技术要求与测试规程. 进一步学习