全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211271391.1 (22)申请日 2022.10.18 (71)申请人 符晓君 地址 570203 海南省海口市美兰区国兴大 道69号海南广场9号楼16 05室 (72)发明人 符晓君  (51)Int.Cl. G06F 40/126(2020.01) G06F 3/023(2006.01) G06F 16/33(2019.01) (54)发明名称 一种用于输入和检索的汉字数字化编码技 术方法 (57)摘要 与以往“笔形编号 ” “字根编号 ” “拼笔编号 ” 等数字编码技术方法不同, 本发明分别使用10个 和26组数字作为码元, 对汉字进行数值模式和数 符模式的编码, 主要特征是以汉字笔画赋值为基 础, 用独创的提值方法计提出各种汉字形状隐含 的抽象量值, 直观显化提值组件的笔画载量及彼 此量差, 摆脱了汉字具体外形的束缚, 有效解决 了既往各种汉字编码方法难以解决的系 列难题, 从字形维度真正地而非表象地实现了汉字数字 化; 所用技术方法具有高度的概括性、 辨识性和 效率性, 码元极少、 规则简明、 重码率低, 适应汉 字大小字集和词库的编码, 能够广泛应用于汉字 输入和检索。 权利要求书4页 说明书3页 CN 115510813 A 2022.12.23 CN 115510813 A 1.作为用于输入和检索的汉字数字化编码技术方法, 本发明的主要特征是, 通过对汉 字笔画进 行赋值, 并对提值组件 (即编 码对应的作为提值对象的汉字组件) 所含的笔画 量值 进行提值, 用直接表达提值结果的10个数字码元组成字词的数值模式编码, 用表达提值结 果及提值组件属类的26组数字码元组成字词的数符模式编码。 2.如权利要求1所述的编码方法, 对汉字基本笔画进行 赋值处理的特征是: (1) 每种基本笔画均确定一个整数基本量 值, 具体赋值是: 笔画 赋值 横笔、 提笔 1 点笔、 与点笔配对的撇笔 1 竖笔、 撇笔、 与撇笔配对的点笔、 捺笔 2 折笔 首折3, 每增加一 折相应增值1 (2) 特殊部位的指定笔画, 在基本量 值的基础上, 再增 加一定的量 值。 3.如权利要求1所述的编码方法, 对提值组件和单字进行分型, 作为标识类属和配置码 额等的主要依据, 特 征是: (1) 从结构特征的角度, 将提值组件分为如下类型: ❶所有组件分为两种一级类型: ① 整一组件, ②块合组件; ❷整一组件 再分为三种二级类型: ①散聚组件, ②空框组件, ③笔串 组件;❸块合组件再分为五种二级类型: ①框串组件, ②字串组件, ③串附组件, ④闭包组 件,⑤侧罩组件; (2) 一个块合组件在两码、 四码 或五码对应的情况下, 应作如下分离: ❶框串组件, 分离 为主串笔画 (简称串件) 和 被串的框体 (简称框体) 两个部分; ❷字串组件, 切分为基本无损 和符合直观的一个或若干个成字、 组件; ❸串附组件, 分离为串织块件 (简称串块) 和附挂笔 画 (简称附笔) 两个部分; ❹闭包组件和侧罩组件, 分离为外体块件 (简称外件) 和内体块件 (简称内件) 两个部分; (3) 从所处位置的角度, 将提值组件分为: ❶字件 (由整一组件构成的整字) ; ❷列件 (由 一个整一组件构成的分列字的一个整列, 或一码对应的由多个组件构成的分列字的一个整 列) 及层块 (列件再分出的层) ; ❸层件 (由一个整一组件构成的分层字的一个整层, 或一码 对应的由多个组件构成的分层字的一个整层) 及列块 (层件再分出 的列) ;❹外件以及外块 (外件再分出的块件) 和内件以及内块 (内件再分出的块件) ; ❺笔组; (4) 笔对组合不足两笔的, 仅有的一笔亦视为笔组; 对两笔构成的组件中的一笔以及单 折笔分离出的第一 折折前的起笔 再提值的, 该笔亦视为笔组; (5) 为使表述简明, 用字母a、 b、 c指称列件及列块、 层件及 层块的排列顺序; (6) 将单字字型分为: ❶整一字, 即由整一组件构成的, 不能再作左右分列、 上下分层或 内外分块的字; ❷分列字, 包括两列字和三列字; ❸分层字, 包括两层字和三层字; (7) 实际分为四层 (非层块) 的字, 第一层和第二层合并视为第一层, 归为三层字; 实际 分为五层的字, 第一层和 第二层合并视为第一层, 第三层和 第四层合并视为第二层, 归为三 层字; (8) 块合组件分离后的部分, 根据其所处的位置, 相应视为列件或列块、 层件或层块, 整 字也相应按分列字或分层字处 理; (9) 除有明显分隔的自然分层外, 在两码、 四码或五码对应的情况下, 将直观可分离的权 利 要 求 书 1/4 页 2 CN 115510813 A 2粘接组件也作分离处 理; (10) 不同类型的单字, 结合编码配额, 按规则进行组件定位和提 值。 4.如权利要求1所述的编码方法, 在设定编码限值的基础上, 根据编码与组件的对应关 系, 对不同构成和量 值的组件分别设定提 值规则, 特征是: (1) 设定编码的最大量 值上限为10 (超过10的, 简称超限值) ; (2) 一码对应不同数量组件的提值规则: ❶对应一个整一组件的, 直接提值; ❷对应两 个以上组件 (包括分离后形成的组件) 的, 合并后提值; 但对应三个列块 (非列件) 时, 只就中 间的列块 提值 (简称取中) ; (3) 两码对应不同数量组件的提值规则: ❶对应一个整一组件的, 第一码对组件整体提 值, 第二码对组件的首末笔提值; ❷对应一个两笔构成的组件的, 第一码对组件整体提值, 第二码对组件的首笔或量值最大的一笔提值; ❸对应两个列块、 层块或内块、 外块的, 以 “能 分不合”为原则, 按照书写顺序和各码定位设置, 分别提值; ❹对应三个列块、 层块或内块、 外块的, 按照各码定位设置, 第一码对应前两个组件合并提值, 第二码对应末一个组件提 值; 但对应三个列块 (非列件) 时, 只就中间的列块提值 (即取中) ; ❺对应四个列块、 层块或 内块、 外块的, 按照各码定位设置, 第一码对应前两个组件合并提值, 第二码对应后两个组 件合并提 值; (4) 一码对应一个超限值的整一组件时, 将对应组件简缩为 “前三笔+末一笔 ”构成的笔 组提值; (5) 一码对应两个合计超限值的组件时, 根据提值组件定位设置, 将对应组件简缩为 “前一组件的首末笔+末一组件的首末笔 ”构成的笔组提 值; (6) 一码对应三个合计超限值的组件时, 根据提值组件定位设置, 将对应组件简缩为 “前一组件的首 笔+次一组件的首 笔+末一组件的首末笔 ”构成的笔组提 值; (7) 简缩的笔组仍超限值的, 用编码最大值指代。 5.如权利要求1所述的编码方法, 在四码长时, 对指定的部分两列字和三列字的a列, 设 置带并处 理, 特征是: (1) a列由一个整一组件构成的, 第一码对该组件提值, 第二码对由该组件首末笔和b列 首末笔构成的笔组进行提 值 (简称带并) ; (2) a列由两个以上组件构成的, 将量值最小的组件或指定组件和b列首末笔合成笔组, 进行提值; (3) 带并形成的笔组超限值的, 用编码最大限值指代。 6.如权利要求1所述的编码方法, 在设定编码长度的基础上, 确定字 内各部分的编码配 额和各码对应组件, 编制 相互协调的字词编码, 特 征是: (1) 编码标准长度为 4, 可加长为5; (2) 按照均衡、 自然、 简易的原则, 设置各码对应的提值组件, 并将单字第一码和第三码 作为关键码位设置; (3) 整一字的码额配置和组件定位是: ❶四码=①字件1码+ ②前两笔1码+ ③首末笔1码+ ④三四笔1码; ❷五码=①字件1码+ ②前两笔1码+ ③首末笔1码+ ④三四笔1码+ ⑤五六笔1码; (4) 两列字的码额配置和组件定位是: ❶四码=①a列的列件或a层块1码+ ②a列的首末 笔或b层块 1码+③b列的列件或 a层块1码+ ④b列的首末笔或b层块 1码;❷五码=①a列的列件权 利 要 求 书 2/4 页 3 CN 115510813 A 3

PDF文档 专利 一种用于输入和检索的汉字数字化编码技术方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于输入和检索的汉字数字化编码技术方法 第 1 页 专利 一种用于输入和检索的汉字数字化编码技术方法 第 2 页 专利 一种用于输入和检索的汉字数字化编码技术方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。