专利一种用于输入和检索的汉字数字化编码技术方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211271391.1 (22)申请日 2022.10.18 (71)申请人符晓君地址 570203 海南省海口市美兰区国兴大道69号海南广场9号楼16 05室 (72)发明人符晓君　 (51)Int.Cl. G06F 40/126(2020.01) G06F 3/023(2006.01) G06F 16/33(2019.01) (54)发明名称一种用于输入和检索的汉字数字化编码技术方法 (57)摘要与以往“笔形编号 ” “字根编号 ” “拼笔编号 ” 等数字编码技术方法不同，本发明分别使用10个和26组数字作为码元，对汉字进行数值模式和数符模式的编码，主要特征是以汉字笔画赋值为基础，用独创的提值方法计提出各种汉字形状隐含的抽象量值，直观显化提值组件的笔画载量及彼此量差，摆脱了汉字具体外形的束缚，有效解决了既往各种汉字编码方法难以解决的系列难题，从字形维度真正地而非表象地实现了汉字数字化；所用技术方法具有高度的概括性、辨识性和效率性，码元极少、规则简明、重码率低，适应汉字大小字集和词库的编码，能够广泛应用于汉字输入和检索。权利要求书4页说明书3页 CN 115510813 A 2022.12.23 CN 115510813 A 1.作为用于输入和检索的汉字数字化编码技术方法，本发明的主要特征是，通过对汉字笔画进行赋值，并对提值组件（即编码对应的作为提值对象的汉字组件）所含的笔画量值进行提值，用直接表达提值结果的10个数字码元组成字词的数值模式编码，用表达提值结果及提值组件属类的26组数字码元组成字词的数符模式编码。 2.如权利要求1所述的编码方法，对汉字基本笔画进行赋值处理的特征是：（1）每种基本笔画均确定一个整数基本量值，具体赋值是：笔画赋值横笔、提笔 1 点笔、与点笔配对的撇笔 1 竖笔、撇笔、与撇笔配对的点笔、捺笔 2 折笔首折3，每增加一折相应增值1 （2）特殊部位的指定笔画，在基本量值的基础上，再增加一定的量值。 3.如权利要求1所述的编码方法，对提值组件和单字进行分型，作为标识类属和配置码额等的主要依据，特征是：（1）从结构特征的角度，将提值组件分为如下类型： ❶所有组件分为两种一级类型： ① 整一组件， ②块合组件； ❷整一组件再分为三种二级类型： ①散聚组件， ②空框组件， ③笔串组件；❸块合组件再分为五种二级类型： ①框串组件， ②字串组件， ③串附组件， ④闭包组件，⑤侧罩组件；（2）一个块合组件在两码、四码或五码对应的情况下，应作如下分离： ❶框串组件，分离为主串笔画（简称串件）和被串的框体（简称框体）两个部分； ❷字串组件，切分为基本无损和符合直观的一个或若干个成字、组件； ❸串附组件，分离为串织块件（简称串块）和附挂笔画（简称附笔）两个部分； ❹闭包组件和侧罩组件，分离为外体块件（简称外件）和内体块件（简称内件）两个部分；（3）从所处位置的角度，将提值组件分为： ❶字件（由整一组件构成的整字）； ❷列件（由一个整一组件构成的分列字的一个整列，或一码对应的由多个组件构成的分列字的一个整列）及层块（列件再分出的层）； ❸层件（由一个整一组件构成的分层字的一个整层，或一码对应的由多个组件构成的分层字的一个整层）及列块（层件再分出的列）；❹外件以及外块（外件再分出的块件）和内件以及内块（内件再分出的块件）； ❺笔组；（4）笔对组合不足两笔的，仅有的一笔亦视为笔组；对两笔构成的组件中的一笔以及单折笔分离出的第一折折前的起笔再提值的，该笔亦视为笔组；（5）为使表述简明，用字母a、 b、 c指称列件及列块、层件及层块的排列顺序；（6）将单字字型分为： ❶整一字，即由整一组件构成的，不能再作左右分列、上下分层或内外分块的字； ❷分列字，包括两列字和三列字； ❸分层字，包括两层字和三层字；（7）实际分为四层（非层块）的字，第一层和第二层合并视为第一层，归为三层字；实际分为五层的字，第一层和第二层合并视为第一层，第三层和第四层合并视为第二层，归为三层字；（8）块合组件分离后的部分，根据其所处的位置，相应视为列件或列块、层件或层块，整字也相应按分列字或分层字处理；（9）除有明显分隔的自然分层外，在两码、四码或五码对应的情况下，将直观可分离的权　利　要　求　书 1/4 页 2 CN 115510813 A 2粘接组件也作分离处理；（10）不同类型的单字，结合编码配额，按规则进行组件定位和提值。 4.如权利要求1所述的编码方法，在设定编码限值的基础上，根据编码与组件的对应关系，对不同构成和量值的组件分别设定提值规则，特征是：（1）设定编码的最大量值上限为10 （超过10的，简称超限值）；（2）一码对应不同数量组件的提值规则： ❶对应一个整一组件的，直接提值； ❷对应两个以上组件（包括分离后形成的组件）的，合并后提值；但对应三个列块（非列件）时，只就中间的列块提值（简称取中）；（3）两码对应不同数量组件的提值规则： ❶对应一个整一组件的，第一码对组件整体提值，第二码对组件的首末笔提值； ❷对应一个两笔构成的组件的，第一码对组件整体提值，第二码对组件的首笔或量值最大的一笔提值； ❸对应两个列块、层块或内块、外块的，以 “能分不合”为原则，按照书写顺序和各码定位设置，分别提值； ❹对应三个列块、层块或内块、外块的，按照各码定位设置，第一码对应前两个组件合并提值，第二码对应末一个组件提值；但对应三个列块（非列件）时，只就中间的列块提值（即取中）； ❺对应四个列块、层块或内块、外块的，按照各码定位设置，第一码对应前两个组件合并提值，第二码对应后两个组件合并提值；（4）一码对应一个超限值的整一组件时，将对应组件简缩为 “前三笔+末一笔 ”构成的笔组提值；（5）一码对应两个合计超限值的组件时，根据提值组件定位设置，将对应组件简缩为 “前一组件的首末笔+末一组件的首末笔 ”构成的笔组提值；（6）一码对应三个合计超限值的组件时，根据提值组件定位设置，将对应组件简缩为 “前一组件的首笔+次一组件的首笔+末一组件的首末笔 ”构成的笔组提值；（7）简缩的笔组仍超限值的，用编码最大值指代。 5.如权利要求1所述的编码方法，在四码长时，对指定的部分两列字和三列字的a列，设置带并处理，特征是：（1） a列由一个整一组件构成的，第一码对该组件提值，第二码对由该组件首末笔和b列首末笔构成的笔组进行提值（简称带并）；（2） a列由两个以上组件构成的，将量值最小的组件或指定组件和b列首末笔合成笔组，进行提值；（3）带并形成的笔组超限值的，用编码最大限值指代。 6.如权利要求1所述的编码方法，在设定编码长度的基础上，确定字内各部分的编码配额和各码对应组件，编制相互协调的字词编码，特征是：（1）编码标准长度为 4，可加长为5；（2）按照均衡、自然、简易的原则，设置各码对应的提值组件，并将单字第一码和第三码作为关键码位设置；（3）整一字的码额配置和组件定位是： ❶四码=①字件1码+ ②前两笔1码+ ③首末笔1码+ ④三四笔1码； ❷五码=①字件1码+ ②前两笔1码+ ③首末笔1码+ ④三四笔1码+ ⑤五六笔1码；（4）两列字的码额配置和组件定位是： ❶四码=①a列的列件或a层块1码+ ②a列的首末笔或b层块 1码+③b列的列件或 a层块1码+ ④b列的首末笔或b层块 1码；❷五码=①a列的列件权　利　要　求　书 2/4 页 3 CN 115510813 A 3

专利 一种用于输入和检索的汉字数字化编码技术方法

专利一种用于输入和检索的汉字数字化编码技术方法