百度空间 | 百度首页 
               
 
查看文章
 
B p m f 联姻1 0 1 1——拼音输入法发展简史
2007-08-06 11:29


“你用什么输入法打字?”

相信绝大多数用户都会毫不犹豫地回答:“拼音。”

毫无疑问,拼音是目前最普及的中文输入法,有中文系统的地方就有拼音,从刚学电脑的小孩,到纵横网海的大虾,大多数用户都选择了易学易用,方便快捷的拼音作为首选输入法。

可你知道拼音输入法的发展渊源吗?知道十五年以前的拼音输入法是什么样子吗?本文就回顾拼音输入法的发展史,给你讲讲它的故事。

逐字输入,艰难繁杂——第一代拼音输入法(1970s1991

第一代拼音输入法缺点是很明显的。它只能通过完整拼音输入单个汉字,不支持调号。

什么意思呢?例如我要打“院”字,先打y-u-a-n,列出一大堆汉字,“1.渊、2.员、3.远、4.愿……”。电脑不认识声调,列出的字都同音不同调。没找到?看来汉字太多一屏显示不下,这叫重码(multicode)。翻页,翻了N页终于找到了“院”字,再按数字键确认。总算打出来了。

也许你会说:“这不跟我们日常打字一样啊?”不对,你平常打字可以打词组、短语甚至整句,实在要打单字还可以以词定字。可第一代拼音输入法只能让你老老实实一个个字往电脑里敲,每个字要根据情况敲16下键盘(啊a,庄zhuang),再在大量同音不同调的汉字里寻找,可能要敲几下翻页键,最后按数字键确认。简直让人抓狂。

估计一篇文章打完,你也就崩溃了。

不相信?如今即使在Windows XP里还保留着第一代拼音输入法。不信?你把“全拼输入法”调出来打个字试试。保证你郁闷得要爆炸!

那个时代电脑处理能力不强,再加输入法开发者们把打字搞得跟查《新华字典》一样,让拼音变成了痛苦的炼狱。正是因此,三十年前才会有一场汉字要不要拼音化的大论辩,直到1983年王永民设计出五笔字型来才告停止。

拼音太麻烦,五笔又难学。因此设计师们不断进行改进。

先有词组输入,但是也仅能输入少量词组,不能自造新词,不能动态调频、不能以词定字……后来又设计了联想输入,即打一个字以后电脑就会自动把以这个字开头的双字词汇列出来(例如我打“蚂”电脑立马就问要不要再加“蚁”)。

但效果最好的还是两种方案跟一个概念:简拼(Jianpin, simplified pinyin)跟双拼(Shuangpin, double pinyin),高频字(high frequency characters)

中国语言一直处在简化当中。反切太麻烦就发明注音符号,后来又升级成汉语拼音;繁体字太麻烦就改成简化字。拼音输入法也不例外。

所谓简拼,就是把一个汉语韵母用一个英文字母表示。比方说我用x来表示an,我要打“院”字只要敲yux就行了。确实是简化了不少。

yux还是太麻烦,干脆再缩略一下,用y来表示uan,这样敲yy就能打“院”字了。于是打一个字只要敲两下键盘(当然翻页、选字不算),这就叫“双拼”。

有些汉字使用频率极高,如“一”、“我”,这样特别做一下规定,按下“y”就能打“一”,按“w”就能打“我”。这便是“高频字”,其设计思想来源于五笔字型的“一级简码”(primary simplified code)。

二十多年来,简拼逐渐消亡,高频字也渐渐被外码提示(external code prompt)功能取代,但双拼一直绵延至今。在目前流行的拼音输入法,如智能ABC、微软拼音、紫光拼音、智能狂拼中都保留了双拼功能,帮助你进一步提速。在微软拼音输入法中甚至内置了三种双拼键盘,还允许自定义双拼键盘。

第一代拼音输入法使中国人具有了向计算机输入汉字的能力,使汉字与英文等拼音文字站在了信息化的同一起跑线上,具有巨大的历史意义。

但其缺点很明显,重码多使得输入速度过慢,逐字输入使得输入方式死板。随着信息技术的发展,它注定会被第二代拼音输入法取代。

词组搭台,智能唱戏——第二代拼音输入法(19921997

1992年,北京希望公司(Hopesoft)推出了自己的拳头产品——UCDOS 3.1,其集成的智能拼音输入法成为了最亮的亮点。它标志着第二代拼音输入法的时代正式到来,是一座巨大的里程碑。

我需要特别说明的是,1997并不是第二代拼音输入法的终结。这年以后第二代不但没有消亡,其生命力反而越来越旺盛,直至今天都没有衰微的迹相,如今流行的绝大多数拼音输入法,如智能ABC、紫光拼音、拼音加加、搜狐拼音、谷歌拼音等仍然属于第二代。1997不过是第三代拼音输入法的开始罢了。

第二代完全支持词组输入(这不是废话吗)?不废不废,它跟第一代有本质的区别。在这里本人以Windows内置的智能ABC(这个最普及了)为例。

第一代只能输入每一个字的完整拼音,比方说“糨糊”就是“jianghu”;第二代不仅可以全拼输入,也可以仅输入该词组的声母,用“jh”输入“糨糊”。

不仅如此,第二代还有自动调频功能。这个功能大家很熟悉,第一次打“jianghu”时“糨糊”排第二、三位,下一次就排到了第一位,按空格就能输入“糨糊”。要是再跟上一条功能结合起来,打“jh”,排在第一位的也是“糨糊”。是不是方便很多啊?

如果我们要打的词没有怎么办?比方说专业词汇,如“四氢呋喃”。很简单:自己造。先打“siqingfunan”敲空格,再依次从备选字中找到“四”、“氢”、“呋”、“喃”即可。下次要打这个词,敲“sqfn”即可。第一代拼音大多允许你自己造词。即使造了也不能仅通过声母输入。

第二代拼音就这个特点,越用越快。

除此之外,第二代拼音还有许多特色功能,目的就是提高输入效率。其中比较有影响的有南方音(South China’s pinyin)或称模糊拼音(blur pinyin)、以词定字(character confirming by words)、笔形输入(strokes imputing)、符号输入(Symbols imputing)等。

第二代拼音输入法简捷、高效、迅速,免去了第一代拼音重码的困扰、五笔背字根的麻烦,只要会拼音就能快速打字,即使普通话发音不准的南方用户也能轻松打字,只是减少了一些准确率而已。它赢得了众多用户的芳心。

20世纪末全民普及计算机,电脑走进千家万户,第二代拼音输入法便是最大功臣。

所以,第二代拼音不但超越了它的前辈,而且领先于五笔成为最受欢迎的输入法,还把后生晚辈——第三代拼音、手写、语音、OCR等输入法压制得毫无还手之力。曾一度叱咤风云的五笔在第二代拼音的风头之下开始出现颓势。

近十年以来,第二代拼音仍然在不断发展。词组输入逐渐向短语输入过渡,能够分析上下文,智能能力进一步提高,词库越来越大,甚至出现了依托Internet为词库的输入法。

第二代拼音也有不少缺点。

一个是错别字。不管其智能程度如何高,总不能完全消灭错别字,如果用户不加注意,那就造成错字满天飞的局面。更何况“的、地、得”与“再、在”如果搞错就成了语法错误。偏偏这五个字每一款拼音输入法都不能完美区分,需要用户自己留意。

第二个是词库有限,仅支持现代汉语。前者导致许多专业词汇难以输入,需要花时间造词,后者给需要输入古文的用户(如语文教师)带来了不便。

行云流水,一气呵成——第三代拼音输入法(1997~)

1997年,在中国IT史上是个风起云涌的年份。Windows 97Office 97WPS 97RichWin 97、中文之星2.97等一系列软件相继发布,更有微软Office 97跟金山WPS 97的龙争虎斗。

可能当时大家都注意到了气势汹汹的Office 97,却没留意内置的一个小软件——微软拼音输入法1.0。不要小看它(历史证明也小看不得),就是这个不起眼的微软拼音,却揭开了第三代拼音输入法的序幕。

第二代还风华正茂,第三代就抢先登场。跟前辈相比,它牛在哪儿呢?

它牛在整句输入。让汉语跟英语一样能够按音打字,做到了“行云流水,一气呵成”。

从单字输入到词组输入是本质区别,从词组(短语)输入到整句输入,又是一个本质区别。

让我们回顾一下自己听别人讲话的过程:首先耳朵接收声音信号传到大脑,大脑把声音转换成对应的汉字,字组词,词造句。

——问题来了:也就是说,你如何能确保你听到的跟对方说的在字面上保持一致(也就是同一个句子)呢?

答案是:经验、分析。大脑自动地分析听到的声音信号,至于什么信号对应什么词汇,那就是你日常生活积累的经验。比方说“mama”是“妈妈”而不是“抹抹”。

微软拼音也是这么做的!

它接受的不是声音信号,而是声音的书面形式(拼音),把拼音转换成汉字,再挑出正确的汉字组成合乎用户原意的句子,后面两步工作跟人脑没有大区别。

小区别还是有的,除了实现原理不同(废话)外,还有一个调号的问题。微软拼音支持调号,但不带调号输入其准确率也八九不离十。

也就是说,微软拼音是基于人工智能(AI)技术开发的。跟基于数据库检索技术开发的第二代拼音相比,是不是本质的区别?

不过我们也别长他人志气,灭自己威风。微软拼音的AI引擎是中国人开发的。国内还有一个更牛的第三代拼音输入法:中文之星智能狂拼。准确率比微软拼音还要高一个档次,全面支持现代汉语、古汉语(文言文)、中国主要方言,也可以通过第二代方式输入,外加五笔一套,方便不同要求的用户——可谓大而全了。

第三代拼音需要电脑有强大的数据处理能力,巨大的数据存储空间。本身也极占CPU跟内存资源。而第二代拼音对硬件配置要求微小,准确率也很高,速度不在第三代之下,因此第三代对第二代一直抢不到优势。即便微软把微软拼音捆绑在Windows/Office里,依然使用者不多,主要是一些入门用户。

万码奔腾,阵营分明——结语

二十年前是个“万码奔腾”的时代,各种汉字编码占山为王、你争我斗,最后只有五笔跟拼音生存了下来。

如今又是一个“万码奔腾”的时代,但这些“码”基本只能划分为两大阵营:五笔、拼音。拼音又能划分为两代产品:第二代、第三代。

第二代并不落后,第三代也未必先进。拼音输入法如此之多,选一款适合自己的,再熟悉常见的其他产品就足够了。


类别:it杂烩 | 添加到搜藏 | 浏览() | 评论 (1)
 
最近读者:
 
网友评论:
1
2007-08-07 20:08 | 回复
好深奥的样子
 
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请点击后输入四位验证码,字母不区分大小写
      

     

©2009 Baidu