|
”;“包”字拆分出“口”。 「理」字 -(分拆)-> 一+土+田+土 -(对应字母)-> M+G+W+G
”;“包”字拆分出“口”。 「理」字 -(分拆)-> 一+土+田+土 -(对应字母)-> M+G+W+G 2.1.3.2.2 取码规则庞大、困难。 仓颉<>输入法>的取码规则摘录如下: ftz.xnfzl.com> 2.1.3.2.2 取码规则庞大、困难。 仓颉<>输入法>的取码规则摘录如下: 2.取码方法 取码顺序:按中文书写的习惯,由上而下,由左而右,由外而内取码。 取码数和取码部位: 2-1 群体字取 1--4 码,由上到下依次取三码,最后一码取字尾部份。 2-2 组合字取 1--5 码,其中 字首取 1--2 码,取码部位为首 (、尾)部。 字身取 1--3 码,若 ◆字身为群体字者,取首、次、尾三码。 ◆字身为组合字,次字首为单字首者:第一码:次字首 ;第二码:次字身首码 ;第三码:次字身尾码。 ◆字身为组合字,次字首为复字首者:第一码:次字首首码;第二码:次字首尾码;第三码:次字身尾码。 2-3 字母以自身为代表,只取一码。 2-4 辅助字形自力使用时,需分化取码。 3.取码规则完整原则:完整原则:取形要完整,以保留字形的特徵;省略原则:若干规定形状,取码时依循省略原则。 4.例外字 复合字: 复合字首:若干个规定字形,做字首时,只取首、尾两码。 复合字:若干字规定为复合字,只取首、尾两码。 难字:若干字的部份难取形状,以“难”码取代。 特殊字:若干规定的形状,取码时不必支解。 重复字:有两字同码时,其中一个加一“重”(x )码以资。 由上述仓颉<>输入法>的取码规则可知,该<>输入法>对不同的复合字(分体字)以及不同的例外字都有不同的取码规则,由此可见其取码规则是比力庞大和困难的。 2.1.3.2.3 重码率高。 仓颉<>输入法>的重码率是比力高的,其重码率高的原因跟五笔<>输入法>重码率高的原因相似。原因主要有以下四个方面: 2.1.3.2.3.1 虽然仓颉<>输左旋肉碱入法>的某些字词编码最长码位是5码,但其中相当一部门的字仅可编得2码或3码,这就增长了重码的时机。 2.1.3.2.3.2 将很多高频部首拆分成2个或3个字根,导致在字词的编码中,很多高频的部首占了2码,使编码之间相互区别的码位缩短,大大增长个重码时机。 例如:“猪、猫、猴、獚……”等字的编码开头两位字母都是KH,从而只有2位或3 位的编码来区分这些字,导致了这些字当中出现大量的重码。“车、门、目、虫、鱼、犭、?、王、彳、飠、宀、石、、巾、阝、米、马、言、、贝、骨、革、舟、气、走、髟、齿、齿、黑”等部首也有近似的环境出现。 2.1.3.2.3.3 字词混编,字词没有相互识别,单字与词组相互之间出现大量交叉重码。 2.1.3.2.3.4 同一键位上的字根作为起始部首所构成的字词都会出现交叉重码的时机。 从理论分析以及底下摘录的一些数据来看,仓颉<>输入法>的高重码率比五笔<>输入法>的高重码率有过之而无不及。 是辅助字根最少的形码<>输入法>(仓颉:计入「难」对应的字根后,约为140个;五笔:约200个;大易:约250个;呒虾米:超过300个;行列:约250个)。 是重码率最低的形码<>输入法>:以Big5码的5,40一个「经常使用字」来看的话,重码率为: 大易3码:2,115/5,401≒39.16% 大易4码:613/5,401≒11.35% 行列30:1,064/5,401≒19.70% 仓颉第三代:434/5,401≒8.04% 呒虾米:2,515/5,401≒46.57% 2.1.3.2.4 难学。 拆分困难、取码规则庞大决定了仓颉<>输入法>是比力难学的。 2.2 数码编码<>输入法>的优错误错差 2.2.1 笔画数码<>输入法>和拼音数码<>输入法> 今朝常见的拼音数码<>输入法>有搜狗拼音<>输入法>、腾讯QQ拼音<>输入法>和众里寻他千百度公司拼音<>输入法>等。 2.2.1.1 长处:易学。 2.2.1.2 错误错差:①重码率非常高,紧张影响<>输入QQ个性>速率。②虽然采用了一些智能方法,但重码率高,<>输入>速率提高没完几多。③不知道拼音的字打不出来。 2.2.2 王码数码<>输入法> 王永民以其所申请的专利《首部余部笔画数码编码汉字<>输入法>及其键盘(申请号00100002.0)》、《五笔数码键盘汉字电脑<>输入法>及其键盘(申请号00103505.3)》、《数码键盘七键五码汉字编码<>输入法>(申请号03150281.4)》和《“前四末一”汉字编码<>输入法>及其数码键盘(申请号200810180462.0)》为根蒂根基建立起来的王码数码<>输入法>,其规则是,在数码键上标识横竖撇点折五种笔画和“口、木、土、王”等少数高频器件(字根),然后按绝对是的规则拆分汉字以及用5键或6键编码汉字。 2.2.2.1 长处:易学。 2.2.2.2 错误错差:重码率比力高,影响<>输入>速率。 根据《首部余部笔画数码编码汉字<>输入法>及其键盘(申请号00100002.0)》所述,375五个国标一级字,用5键编码,单码字仅为722个,其中2重码字共652个,占重码字的21.50%;用6键编码,单码字仅为1564个,其中2重码字共926个,占重码字的42.46%。 根据《数码键盘七键五码汉字编码<>输入法>(申请号03150281.4)》所述,用七键五码编码,6763个经常使用字中单码字仅760个,而在出现频度为90%的最经常使用的1000个汉字中,单码字474个。由此可见其重码率是非常高的。 《“前四末一”汉字编码<>输入法>及其数码键盘(申请号200810180462.0)》方案中单字用5键编码,词组用6键编码,单字编码和词组编码可以相互识别,重码率相对会低些,但6键编码增长了码位长度,影响了<>输入>速率。 综上所述,王码数码<>输入法>的重码率虽然比笔画<>输入法>和拼音<>输入法>的重码率相对低下,但仍属于重码率高的一类数码<>输入法>。 3. 《一种器件汉字编码<>输入>方法及其相应键盘(申请号200810026616.0)》的优错误错差 3.1 长处: 3.1.1 器件数量少,容易记住。 本<>输入法>的器件只有137个,是今朝所公然的汉字形码<>输入法>专利申请中器件数量较少的一种。例如: ①王永民的《标准王码汉字电脑<>输入法>及其键盘(申请号98100684.1)》(又名98标准王码)有244个字根; ②《部首编码汉字键盘<>输入>系统(公然号CN1144930)》中有240个部首; ③王永民的《一种超大字符集汉字形码编码法及其<>输入>键盘(申请号01118413.2)》中有23一个字根; ④《字根拼形标准码汉字<>输入>方法(公然号CN1127385)》中有228个器件; ⑤《汉字实用部首编码法及其键盘(公然号CN1121596)》中有208个部首; ⑥王永民的《优化五笔字型编码及其键盘(公然号85100837)》有199个字根; ⑦《汉字纯部首编码计较机<>输入法>(公然号CN1388439)》中有139个部首(器件); ⑧《汉字部首编码计较机<>输入法>(公然号CN1209600)》中有124个部首。 3.1.2 器件有规律地在键位分布,容易记忆。 3.1.2.1 本<>输入法>的大部分数器件按部首名称的拼音音节的第一个字母,分布在相应的字母键位上。例如,器件“攵”的名称是“反文(wen)旁”, “攵”分布在W键位上;器件“”的名称是“复(fu)字头”,“”分布在F键位上。 3.1.2.2 部首名称的拼音音节的第一个字母是G的器件分布在A键位上。 3.1.2.3 “十(s你好)”、“及(ji)”、“飠(s你好)”、“衤(yi)”、“乙(yi)”等器件按其部首名称的拼音音节的韵母分布在I键位上。 3.1.2.4 O、P、V键位上的器件可按以下的方法记忆:O(囗)齿言厂提(扌),九舟鱼又鸟;P三人(人亻彳)两撇();V背(贝)白的色彩包(勹)。 3.1.2.5 重点记住108个部首的正体和10个<>繁体>部首,记住了部首的正体就能记住相应的部首的变体。 3.1.3 除开“”、“及”与“九”外,其它的器件都是人们熟识的常见部首,很容易记忆。 3.1.4 属于形码<>输入法>,容易拆分。 本<>输入法>先按笔顺拆出笔画数多的器件,然后把位于器件以前或之后或之间的笔画组拆分出来。拆分出来的笔画组称为非器件笔画。器件和非器件笔画都称为部门。拆分出非器件笔画,这样就避免了把某些跟器件有某些相似的笔画组强制进行当某一个器件来拆分,从而一目明了、轻易地把每个字依笔顺按部门拆分开来。另外,本<>输入法>依笔顺拆分,从而避免了出现近似五笔<>输入法>和仓颉<>输入法>不按笔顺拆分的麻烦境地。本<>输入法>属于形码<>输入法>,做到见字即可依笔顺拆分、编码与<>输入>。 3.1.5 大容量字词编码重码率低,2至五个字词的重码组组数占总重码组组数的比例大,到达盲打高速<>输入>汉字的目的。 本<>输入法>重码率低的原因主要有以下三个方面: 3.1.5.1 大部分数器件作为起始器件所构成的字词的编码相互之间不存在交叉重码的可能。 在用器件作为编码元素的汉字字母编码系统中,以同一键位上的不同器件作为起始器件构成的所有字或词(构成词的第一个字)相互之间都存在交叉重码的可能,可是本<>输入法>除外。 本<>输入法>要对器件进行编码,器件编码由器件拼音码和首笔笔形数码组成。 说明:器件拼音码是指器件地点的英文键盘键位上的字母。首笔笔形数码是指器件或非器件笔画中包含有与该器件或非器件笔画的首笔的笔形不异的笔画的总数量。 本<>输入法>的字词编码中,要是字或词(词的第一个字)的第一部门是器件的,则字的编码开头两码别离是该器件的器件拼音码+该器件的首笔笔形数码,词的编码开头两码别离是该器件的首笔笔形数码+该器件的器件拼音码。 本<>输入法>中,作为构成字或词起始器件的高频器件中,仅有“土”与“士”、“人”与“亻”、“广”与“冖”、“?”与“爫”、“白”与“勹”的器件拼音码和首笔笔形数码是不异的。也就是说以“广”作为起始器件构成的字或词(词的第一个字)的编码与以“冖”作为起始器件构成的字或词(词的第一个字)的编码相互之间存在交叉重码的可能。“人”与“亻”或“?”与“爫”或“白”与“勹”两者间亦如此。除此以外,其它的器件相互之间不会出现这种环境。 例如:“广”器件与“冖”器件都分布在A键, “庄、床、店……”等字的编码头两位字母是AH; “庙宇、店肆、农户……”等词的编码头两位字母是HA; “写、军、农……”等字的编码头两位字母是AH; “第一位、农民、写字……”等词的编码头两位字母是HA。 因此,“庄、床、店……”等字的编码与“写、军、农……”等字的编码相互之间存在交叉重码的可能;“庙宇、店肆、农户……”等词的编码与“第一位、农民、写字……”等词的编码相互之间存在交叉重码的可能。 本<>输入法>中,除“一、丨、丿、丶、乛(折)、土、士、人、亻、广、冖、?、爫、白、勹”等笔画或器件外,大部分数器件作为起始器件所构成的字词的编码相互之间不存在交叉重码的可能,这就使得重码的可能性只出现在同一起始器件所构成的字词的编码内。 例如: “木”器件与“目”器件都分布在M键, “树、村、林……”等字的编码头两位字母是MT; “攀缘、树木、枝叶……”等词的编码头两位字母是TM; “盯、眩、睛……”等字的编码头两位字母是MY; “睡眠、盼望、眼睛……”等词的编码头两位字母是YM; 因此,“树、村、林……”等字的编码与“盯、眩、睛……”等字的编码相互之间不存在交叉重码的可能;“攀缘、树木、枝叶……”等词的编码与“睡眠、盼望、眼睛……”等词的编码相互之间不存在交叉重码的可能;“树、村、林……”等字的编码的重码只出现在以“木”作为起始器件所构成的字的编码当中;“攀缘、树木、枝叶……”等词的编码的重码只出现在以“木”作为起始器件所构成的词(词的一个字)的编码当中。 大部分数器件作为起始器件所构成的字词的编码相互之间不存在交叉重码的可能,是本<>输入法>重码率低的重要原因之一。 3.1.5.2 绝大部分数码的编码和词的编码互相识别不存在交叉重码。 本<>输入法>的字词编码中,要是字或词(词的第一个字)的第一部门是器件的,则字的编码开头两码别离是该器件的器件拼音码+该器件的首笔笔形数码,词的编码开头两码别离是该器件的首笔笔形数码+该器件的器件拼音码。由此可见字的编码与词的编码是互相识别的。 而在所有的器件当中,“王”的器件拼音码(W)跟“耳”的首笔笔形数码(W)是不异的,反过来,“耳”的器件拼音码(E)跟“王”的首笔笔形数码(E)也是不异的。“幺”、“糹”与“贝”三者、 “方”与“禾”两者相互之间亦如此。除此以外,其它的器件相互之间不会出现这种环境。 以“王”作为起始器件构成的字的编码与以“耳”作为起始器件构成的词(词的第一个字)的编码相互之间存在交叉重码的可能,反过来,以“耳”作为起始器件构成的字的编码与以“王”作为起始器件构成的词(词的第一个字)的编码相互之间存在交叉重码的可能。“幺”、“糹”与“贝”三者、 “方”与“禾”两者相互之间亦如此。 例如: “玩、现、班……”等字的编码头两位字母是WE; “玩撒、理财、瑞士……”等词的编码头两位字母是EW; “耴、耵、职……”等字的编码头两位字母是EW; “聊天、羞耻、聚会……”等词的编码头两位字母是WE; 因此,“玩、现、班……”等字的编码与“聊天、羞耻、聚会……”等词的编码相互之间存在交叉重码的可能;反过来,“玩撒、理财、瑞士……”等词的编码与“耴、耵、职……”等字的编码相互之间存在交叉重码的可能。 综上所述,除“一、丨、丿、丶、乛(折)、王、耳、幺、糹、贝、方、禾”等笔画或器件外,其余大部分数器件作为起始器件所构成的字与词(词的第一个字)当中,字的编码与词的编码两者相互识别,不会出现交叉重码。 例如: “树、村、林……”等字的编码头两位字母是MT; “攀缘、树木、枝叶……”等词的编码头两位字母是TM; “盯、眩、睛……”等字的编码头两位字母是MY; “睡眠、盼望、眼睛……”等词的编码头两位字母是YM; 因此,“树、村、林……”等字的编码与“攀缘、树木、枝叶……”等词的编码相互之间不存在交叉重码的可能;“攀缘、树木、枝叶……”等词的编码与“盯、眩、睛……”等字的编码相互之间不存在交叉重码的可能。 绝大部分数码的编码与词的编码两者相互之间不会出现交叉重码是本<>输入法>重码率低的原因之一。 3.1.5.3 仅由一至三个器件组成的字仍然可编得较长的码位。 例如:又=“又”=OB 好=“女”+“乛、一、亅”=NBV 仅=“亻”+“又”=PGOB 枝=“木”+“十”+“又”=MTITO 要是采用五笔<>输入法>编码,使用识别码,“仅”字仅可编得3个码位。大量使用识别码象征着重码率相应增长。 码位越短重码的时机越大。本<>输入法>的编码规则决定了仅由一至三个器件组成的字最短可编得2个码位,最长可编得五个码位,从而不使用识别码也减低了拆分为两、三部门的有器件字的重码率。这使得本<>输入法>重码的时机相应减低。 本人花了大量的精力进行了国内的专利检索,从检索的成果分析比力,本<>输入法>不管是字母编码还是数码编码,重码率都显著低下。重码率低下,象征着选择字词的击键次数削减,也象征着<>输入>速率的增长。本<>输入法>对大容量的字词的低重码率编码,这是其它不论什么<>输入法>都没有办法比拟的。 例如,《汉字纯部首编码计较机<>输入法>(公然号CN1388439)》,国标6763个字的重码率就高达8.62%。在其它<>输入法>的专利申请文件中没有见到相应的重码率数据。而五笔<>输入法>,国标6763个字及其对应的<>繁体字>中,重码率高达25%。 本人亦花了大量的时间和精力,应用本<>输入法>对《GB18030-2005》大字符集中的70244个字符和《现代汉语词典》中的68958个简体词进行了编码,并对其重码的环境作了帅选分析,成果详见《<一种器件汉字编码<>输入>方法及其相应键盘>字词编码重码环境分析》。 从专利检索中得知,王永民申请的《数码键盘七键五码汉字编码<>输入法>(申请号03150281.4)》和《首部余部笔画数码编码汉字<>输入法>及其键盘(申请号00100002.0)》的重码数据和本<>输入法>《一种器件汉字编码<>输入>方法及其相应键盘(200810026616.0)》的数码编码重码数据比拟力,成果见表1和表2。 表1: 几种<>输入法>数码编码重码环境比力 <>输入法>名称 编码字个数 单码字个数 2重码字个数 《首部余部笔画数码编码汉字<>输入法>及其键盘》5键编码 3755 722 652 《首部余部笔画数码编码汉字<>输入法>及其键盘》6键编码 3755 1564 926 《数码键盘七键五码汉字编码<>输入法>》5键编码 6763 760 无数据 《一种器件汉字编码<>输入>方法及其相应键盘》5键编码 6763 3475 1844 表2: <>《数码键盘七键五码汉字编码<>输入法>》与《一种器件汉字编码<>输入>方法及其相应键盘》比力 >输 入 法 名 称 编码字个数 单码字个数 2 字重码组组数 3 字重码 组组数 4字重码组组数 5字重码组组数 6字重码组组数 7字重码组组数 8字重码组组数 9字重码组组数 10字重码组组数 11字重码组组数 12字重码组组数 13字重码组组数 14字重码组组数 15字重码组组数 16字重码组组数 17字重码组组数 数… 1000 474 108 43 10 7 5 1 1 0 1 2 1 0 0 0 0 1 一… 6763 3475 922 282 95 16 10 5 4 0 0 1 0 0 0 0 0 0 表3: <>用字母编码,在每一重码页中重码字词的总数量 ><>><>序 ><>><>号 ><>><>字词来历名称 ><>><>字 ><>><>词 ><>><>个 ><>><>数 ><>><>重 ><>><>码 ><>><>率 ><>><>(><>%><>) ><>><>单 ><>><>码 ><>><>个 ><>><>数 ><>><>2><>字词至7字词的重码组组数占总重码组组数的百分率 ><>>按7个重码字词分为一页,在每一页中重码字或词的总数量: <>第 ><>><>二 ><>><>页 ><>><>第三页 ><>><>第四页 ><>><>第五页 ><>><>第六页 ><>><>第 ><>><>七 ><>><>页 ><>><>1 >双字节2、3、4区简码 20922 39.81 8212 98.44% 168 12 <>2 >简体词 68958 19.05 56864 99.26% 170 12 <>3 >双字节2、3、4区与四字节CJK统一汉字扩充A 27533 13.95 21533 99.39 41 7 <>4 >双字节2、3、4区与四字节CJK统一汉字扩充A、B 70244 23.94 43567 97.83% 687 72 17 9 7 5 <>5 >简体词、双字节2、3、4区全码及简码、四字节CJK统一汉字扩充A、B 160124 26.56 93397 96.53% 1646 192 24 9 7 5 表3内容解释示例: 双字节2、3、4区与四字节CJK统一汉字扩充A共27533个汉字字母编码中,单码字占21377个,重码率仅占13.95%,2字至7字的重码组组数占总重码组组数的99.39%。数据表明,在27533个汉字字母编码中,无须翻页,即可从1至7的序号中找到绝大部分数重码字;如按7个字为一页,有4一个字是翻到第二页就能找到;仅有7个字是要翻到第三页才气找到的。 表4: <>用数码编码,在每一重码页中重码字词的总数量 ><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>><>>双字节2、3、4区21003个汉字数码编码中,单码字占547五个,重码率占50.41%,2字至6字的重码组组数占总重码组组数的97.19%。数据表明,在21003个汉字数码编码中,无须翻页,即可从1至6的序号中找到绝大部分数重码字。如按6个字为一页,有374个字是翻到第二页就能找到;有34个字是要翻到第三页才气找到;仅有10个字是要翻到第四页才气找到。 以上数据表明,不管是字母编码还是数码编码,本<>输入法>的重码率与其它<>输入法>的重码率比拟,都有绝对的优势,这是其它不论什么的汉字<>输入法>都没有办法比拟的。本<>输入法>真正能到达在大容量字词编码的环境下,盲打高速<>输入>所有汉字的目的。 3.1.6 简码字编码独自成一编码系统,容量大,无须记住、区分哪一些字别离是二三四级简码字。 说明:简码字不设置数码编码<>输入>。 要是字的第一部门是器件的,字(全码)的编码开头两码是该器件的器件拼音码+该器件的首笔笔形形数码,而简码字的编码开头两码是该器件的首笔笔形形数码+该器件的器件拼音码。 由此可见,除“一、丨、丿、丶、乛(折)、王、耳、幺、糹、贝、方、禾”等笔画或器件作为起始器件所构成的字外,其它绝大部分数码的全码字的编码系统区别于简码字的编码系统。可以这样说,全码字的编码与简码字的编码互相识别的。 虽然词的第一字起始部门是器件的,词的编码开头两码也是该器件的首笔笔形数码+该器件的器件拼音码,与简码字的编码系统有雷同之处,可是词的编码最长码位是5位,而简码字的编码最长码位是4位。绝大部分数词的编码码位都有5位,由此可见,词的编码系统有别于简码字的编码系统。也能够这样说,词的编码与简码字的编码互相识别。综上所述,简码字编码独自成一编码系统。 本<>输入法>对相对经常使用的20922个汉字作了简码编码。拆分为两部门的有器件字就是三级简码字,拆分为三部门或三部门以上的有器件字就是四级简码字。因而,无须强记哪一些字是三级简码字,哪一些字是四级简码字,从而削减了记忆量。 与五笔<>输入法>比拟,早期的五笔<>输入法>版本设置的二级简码字有588个,三级简码字有4000多个。虽然五笔<>输入法>采用简码<>输入>可以提高速率,可是要记住588个没有规律的二级简码字非容易之事。而4000多个三级简码字当中,自己就有许多重码,而且与那些仅只拆分三个字根的全码字之间也有许多重码。三级简码字中重码字多决定了三级简码<>字输入>速率不快,甚或有<>输入>速率不升反降之嫌。由此可见,大部分数能熟练掌握五笔<>输入法>的人不会去利用二三级简码<>输入>,而三级简码简直就是形同虚设,更加少人去使用它。 3.1.7 简码字的重码率低,与全码字的编码及词的编码交叉重码少,到达利用简码<>输入>,提高<>输入>速率的目的。 GB18030-2005字符集的双字节2区6763个经常使用字中有6710个简码字。6710个简码字中不重码字个数达5337个,重码率仅为20.46%。双字节2、3、4区共20922个简码字,其重码率为32.56%。 6710个简码字20.46%的重码率与与五笔<>输入法>的6763个字及其对应的<>繁体字>25%的重码率比拟,两者的最长码位都是4位,但本<>输入法>的简码<>输入>已经有明显的优势。 简码字编码独自成一编码系统,决定了简码字编码与全码字的编码、词的编码相互交叉重码数量很少,见表5。 表5: 全码字编码、简码字编码与简体词编码相互交叉重码环境 序号 字词来历名称 交叉重码个数 1 双字节2、4区14923个全码字与双字节2、4区14864个简码字 195 2 双字节2、3、4区、四字节CJK统一汉字扩充A共27533个全码字与双字节2、3、4区20922个简码字 341 3 双字节2、3、4区、四字节CJK统一汉字扩充A共27533个全码字与68958个简体词 543 4 双字节2、3、4区、四字节CJK统一汉字扩充A、B共70244个全码字与68958个简体词 1299 5 双字节2、3、4区20922个简码字与68958个简体词 2412 3.1.8 词编码独自成一编码系统,容量大,重码率低,与字的编码交叉重码少,大大提高<>输入>速率。 要是字的第一部门是器件的,字(全码)的编码开头两码是该器件的器件拼音码+该器件的首笔笔形形数码,而词的编码开头两码是该器件的首笔笔形形数码+该器件的器件拼音码。 由此可见,除“一、丨、丿、丶、乛(折)、王、耳、幺、糹、贝、方、禾”等笔画或器件作为起始器件所构成的字外,其它绝大部分数码的全码字的编码系统区别于词的编码系统。可以这样说,全码字的编码与词的编码互相识别的。 虽然简码字的第一字起始部门是器件的,简码字的编码开头两码也是该器件的首笔笔形数码+该器件的器件拼音码,与词的编码系统有雷同之处,可是词的编码最长码位是5位,而简码字的编码最长码位是4位。绝大部分数词的编码码位都有5位,由此可见,词的编码系统有别于简码字的编码系统。也能够这样说,词的编码与简码字的编码互相识别。综上所述,词的编码独自成一编码系统。 68958个简体词编码中,单码词46863个,不重码词55824个,重码率仅为19.05%。且词与字的编码交叉重码少,70244个全码字的编码跟68958个词的编码仅有1299个字词相互交叉重码,见表3。利用大容量的词编码<>输入>,可大大提高<>输入>速率。 与五笔<>输入法>比拟力,五笔<>输入法>中字的编码与词的编码会出现大量的交叉重码,而大容量的词编码自己也会有许多重码。五笔<>输入法>纵然利用词组<>输入>,其<>输入>速率也会受到很大的限制。 3.1.9 本<>输入法>的数码编码<>输入>方案简单易学。 只要掌握了本<>输入法>的字母编码<>输入>方案,就可以直接利用telephone键位上数码与字母的对应关系对汉字进行数码编码。telephone键位上数码与字母的对应关系是:2=ABC 3=DEF 4=GHI 5=JKL 6=MNO 7=PQRS 8=TUV 9=WXYZ 例如,“输”的字母编码是CRP,按照上述数码与字母的对应关系,则“输”的数码编码是27783。 掌握了本<>输入法>后,在电脑用字母键轻松<>输入>汉字的同时,可以轻易利用该方案在telephone等数码键盘上<>输入>汉字,无须为<>输入>汉字而去学习两套不同的<>输入>方法。 3.1.10 本<>输入法>的数码编码<>输入>方案重码率低,<>输入>速率快。 从今朝大量的关于汉字<>输入法>的文献资料来分析,只有用5键或6键编码的王码数码<>输入法>是比力简单实用的,相对其它数码<>输入法>而言,其重码率也比力低。 可是,本<>输入法>的数码<>输入>方案与王码数码<>输入法>比力,仅用5键编码,其重码率就大大低于后者的重码率,显示出压倒性的优势(见表1和表2)。这就大大提高了<>输入>速率。而且,本<>输入法>的数码<>输入>方案还比力容易掌握。 就简单实用、易学、重码率低几方面来说,其它不论什么数码<>输入法>都没有办法跟本<>输入法>的数码<>输入>方案比拟拟。 3.1.11 本<>输入法>规则简单易学。 按以下的思路,很容易掌握本<>输入法>的规则: 熟识在键位上分布的器件→ 熟识拆分的规则→ 将汉字拆分成部门(将字拆分出器件或非器件笔画,每一个器件或非器件笔画称为部门。)→ 熟识器件和非器件笔画的首笔笔形数码的概念以及首笔笔形数码与键盘的对应关系→ 确定部门的编码(器件的编码=器件拼音码+首笔笔形数码;非器件笔画的编码=首笔笔形数码)→ 依照编码公式给汉字或词编码 器件是常见的部首,器件数量少,且在键位是有规律分布以及拆分容易,这是本<>输入法>易学的主要原因。王永民的话说得很好,“学一阵,用生平”。若果学会本<>输入法>,并熟练掌握后,绝对是能盲打高速<>输入>所有的汉字。 3.2 错误错差: 3.2.1 用5键编码,绝对是程度相片比本人好看对影响<>输入>速率。 本<>输入法>的编码码位最长是5键。不可否认,5键编码与4键编码比拟,绝对是程度上影响<>输入>速率。可是对于大容量字词的编码,用5键编码就能使重码率到达如此低的程度,削减了<>输入>过程中从重码组选字词的击键次数,从另外的角度看,5键编码绝对是程度上又提高了<>输入>速率。 另外,本<>输入法>用5键编码并不是对字词的五个部门进行编码,而是对字词的4个部门进行编码。只不过是对字词的第一部门进行两位编码。例如,“树、村、林……”等字的编码头两位字母都是MT;“攀缘、树木、枝叶……”等词的编码头两位字母都是TM;“树、村、林……”等字的简码编码头两位字母也是TM。再如,树=MTOBC 村=MTCT 攀=MTFMG 枝叶=TMIKI 攀缘=TMFBP 树=TMOC 村=TMC 攀=TMFG 大部分数码词的起始部门都是由器件组成,因此,熟练地打出每个器件的器件拼音码和首笔笔形数码后,5键编码并不影响字词的<>输入>速率。而五笔<>输入法>也是利用4个器件(字根)进行编码,由此可见,5键编码的本<>输入法>跟4键编码的五笔<>输入法>的<>输入>速率是相差无几的。 3.2.2 对于少数上下结构或左右结构的字,确认其中的首笔笔形数码要劳神。 例如, “与”(GBQB)第三部门包含5画横笔画; “毭”(TKBE)末部门包含3画横笔画; “乸”(XLHH)第一部门包含4画折笔画; “潺”(DJSBZ)第三部门包含6画折笔画; “袤”(LHX)第二部门包含4画折笔画; “鹿”(AHVB)第二部门包含2画折笔画; “麒”(AHCCB)第二部门包含3画折笔画; “质”(SMYB)第一部门包含4画撇笔画; “瓥”(DPGC)第一部门包含3画撇笔画; “豨”(TPDJ)第三部门包含3画撇笔画; “?”(XOB)第一部门包含4画折笔画; “?”(PGL)第二部门包含4画点笔画; “?”(DGGBW)第四部门包含4画横笔画; “?”(DGYIE)第三部门包含3画竖笔画。 大部分数码的首笔笔形数码都是3画或3画以下。不可否认第一次<>输入>少数上下结构或左右结构的字,确认其中的首笔笔形数码要劳神,可是只要输多几次这样的字,就会一目明了,不会感到劳神了。正所谓熟能生巧就是这样的原理。 本人花了大量的时间从《GB18030-2005》大字符集双字节2、3、4区及四字节CJK统一汉字扩充A中的27533个汉字中整理出20一个首笔笔形数码是两画以上的例字作了拆分编码树模,并对每一个例字列出一行相关例字作出编码树模,以及整理出178个相对难拆分出器件的例字和119个相对难掌握笔顺的例字。而且还从CJK统一汉字扩充B共4271一个汉字中整理出518个相对难拆分出器件、难掌握笔顺、难掌握首笔笔形数码的例字进行了编码及编码说明。其中首笔笔形数码是两画或两画以上的例字及其相关例字举例如下: ①贼(VYR)、绒(SVR)、绒(YVR)、贼(MYBGR); ②尧(REG)、饶(SGRE)、桡(ME)、挠(ORRE)、翘(REBD)、铙(JGRE); ③衣(LHF)、农(AHF)、裹(LHRMF)、衮(LHBSF)、袁(KYF)、猿(QFTKF)、依(PGLHF);④ 颀(DMYB)、质(SMYB)、乺(SIB)、牐(FITJ)、版(DOB); ⑤虍(BYV)、虎(BYVJ)、虚(BYVBT)、虑(BYVX)、虐(BYVKT)、虔(BYVLG)、虏(BYVL); ⑥虚(BYCBY)、嘘(KYBCY)、戱(BYCBA)、戯(BYVBA)、虗(BYV); ⑦豦(BYCPG)、据(ORBCG)、澽(D小鸡鸡CG)、噱(KYBCG)、遽(BYCPZ); ⑧?(XOB)、?(PGL)、?(DGGBW)、?(DGYIE)。 掌握了上述例字的拆分与编码后,将十分容易地对所有汉字进行编码<>输入>。 4. 汉字编码<>输入法>范畴的研究从此画上句号。 本人花了大量的时间把在中国内地申请的关于汉字<>输入法>的专利文献全部检索过。从1985年到现在,汉字编码<>输入法>的专利申请量已经接近10000件,其中少数得到授权。其中王永民师长教师的小我私家专利申请量又是最多的。在汉字的字母编码<>输入>和数码编码<>输入>研究范畴,王永民师长教师可算得上是最权势巨子的专家。 从专利检索的成果对比看,从对《GB18030-2005》大字符集70244个汉字以及68958个简体词的编码重码环境分析看,想要对《GB18030-2005》大字符集70244个汉字和大容量词组进行编码<>输入>,唯有《一种器件汉字编码<>输入>方法及其相应键盘》能到达码位短、低重码率、简单易学的效验。从大量的汉字编码<>输入>专利申请数据来看,汉字编码<>输入法>范畴的研究已经到达边缘状况。《一种器件汉字编码<>输入>方法及其相应键盘》的出现,宣告汉字编码<>输入法>范畴的研究从此画上句号,它将为汉字的编码<>输入>带来一场新的革命。特别是其数码<>输入>方案,它将是用telephone<>输入>汉字的最好方案。 < src=" b.bst.126 // mon/tuijian.png" alt="组图:紫光繁体字输入法"> |