|
|
|
关于汉字熵(信息量)
|
| |
一、引子 网上有一篇来自纽约的米阿仑写的文章,题目叫《从信息熵角度看中文软件和中文信息业的发展》(已转贴在我的论坛上)。这是一篇难得的好文章,很值得一读。他认为:“微软公司在设计制作中文软件的时候,忽略了信息科学技术的基础课题:信息熵。” 因而埋下了“定量炸弹”。“这颗炸弹涉及的不是两个字节(指千年虫y2k——引用者注),而是整个系统的基础。把它称‘定量’,是因为没有达到一定信息产业的产品数量和技术要求的程度,就很难看到这颗炸弹的潜在威胁会造成多大损失。这颗炸弹可能很快起爆,也可能要等一段时间,全看中文信息产业发展如何。一旦起爆,那就不是两个字节的问题,而是整个系统以及这个系统下的全部数据和操作的问题,其威胁比y2k 要大得多。”“中文信息产业相当大的一部分很可能有一天会毁于微软公司的‘定量炸弹’。” 我确实不理解这个“定量炸弹”的来龙去脉。从作者后来说的以下一段话,或可理解它的实质。他说:“中文数据的文字方式决定了标准的多重性和规模过大,而且,只要汉字还再增加,它的字符集就是不稳定的。不管一个字符用多少字节,也不管计算机的储存容量有多大,也不管各种系统的兼容有多么全面,这样的字符集做数据储存和检索还可以,做全面的数据管理就总是有严重问题。”作者反复说的中文“文字方式”,应该就是我说的“汉字植根于电脑”的字库加编码方式。在这个方式下,字库或字符集大而不稳定,是全部困难的所在。显然,字符集一改变,一切已数字化的资料就作废了。汉字不仅太多,而且必然还要产生新汉字,字符集永远不可能稳定。相反的,英文只有26个字母,十分稳定。如果也对英文字(词)编码,问题可能更严重。如果汉字按我的无字库方式,采用笔画组字技术,一切问题都解决了。汉字笔画正好对应西文字母,只要制定出汉字笔画标准,中文也同样稳定。据研究,可能比英文还要稳定,你看,英语学生完全看不懂他们的古文,而中国学生看中文古文就较容易。
|
|
|
|
|
|
|
|
|
| 广告载入中... |
| 广告载入中... |
| 广告载入中... |
|
|
|
|
|