Friday, February 19, 2010

汉字遇到了电脑,多大字库才够用--闲话汉字(5)

笔划缺点儿少点儿还好糊弄,最挠头的是汉字字模库(以下简称汉字库)。英文26个字母,大小写一共仅用52个字母模就能应付。我们要多少?3500个?不是能覆盖99.48%吗?那是不假,可你只要遇到一个里面没有的字,就糊弄不过去。WindowsXP的汉字库收汉字30500个(以每字模128字节计算)。我写《闲话汉字(2)》只不过1700多字,就不得不生造了俩字:。那是拆开现有字,用PS作图,拼凑出来的。我用了10多分钟,才做完两个字的图片,而不是字模,它们很难插到字里行间。这还不包括我浏览Windows扩展字库所用的时间。要是手写这俩字,不过几秒钟,可惜写不到这里,你就看不着了。

我这是写“闲话”,还可以凑合。要是干正事儿,遇到“漷县”、“奤夿屯”、“祖暅”,你能因为汉字库里没这字就改地名、人名吗?这可不是我故意找生僻字难为人,20多年前被难为的就是我。那时候还没有Windows,都用CCDOS,我指导有关人员建立北京各校教学仪器的数据库,遇到了“奤夿屯小学”、“ 漷县中学”、“ 祖暅原理说明器”这样的难题,系统里没有“漷、奤、夿、暅”。为此,我利用了二级汉字库的4个空白码,造了4个字模,而且是两套,一套用来显示,另一套用来打印,才应付过去。那时候北京的中小学2000余所,教学仪器200多种,要是登记户口,遇到千奇百怪的人名、地名,二级汉字库根本就应付不了。汉字诶,谁叫你长那么大脚,别怪我汉字库的鞋小。

我忽然想起去年网上议论过“赵C改名”的事儿,那个派出所的户籍管理系统处理不了“C”,硬要这个28岁大小子改个中文名。那当然是软件设计考虑不周所至,我猜那个软件设计人穷于应付几万个汉字,一时竟忘记如何对付几十个英文字母了。汉字诶,你转晕了多少人的头脑?

汉字库越来越大带来的新问题是同音字不断增多。最初的电脑中文操作系统只有6700多字,但jifuyi的同音字都超过100。现在Windows中,shi同音字242fu 268ji 384yi多达478个。不断地在数百个字中找一个字,决不是什么轻松愉快的差事。要是个急性子,背不住惹得血压升高手冰凉,再上点儿岁数,就此了却一生也不是吓唬人。汉字诶,我们可没得罪你呀!

现在有号称收录十万汉字的字库,那是急的把3000多甲骨文都囫囵放进去了(尽管至今才解读了1000多)。够用吗?那里面就没有 ”,别看它只有6划。3500常用字外增加的96000多字,不过是在填补0.52%的“窟窿”,还总填不满。祖宗诶,到底多大字库才够用啊?!

张雍 成稿于 2010114


No comments:

Post a Comment