文章列表
 
您正在查看 "转载收藏" 分类下的文章

2006-12-28 16:48

 

阿江前辈日前在中研院 OpenFoundry 电子报发表了一系列名为「等待新汉码-汉字的数字化与中华文化的冲击」的文章,采用 Creative Commons「姓名标示 2.5 台湾」方式释出,鞭辟入里指出,在这电子数字时代,我们的语文系统潜在的危机与新愿景,全文张贴如下:


[名家专栏等待新汉码-汉字的数字化与中华文化的冲击
陈昌江/ 2006/09 (感谢张正一等人协助校稿)

 前言

一百多年来,中华民族在优势的外来文明冲击下,人民普遍丧失民族自信心,不仅使得中国传统文化成了代罪羔羊,也使其更新的脚步停滞不前,无法受到应有的重视与发展。最无奈的是,许多中华文化的宝贵资产,就在这样的时代大洪流中无声无息流失!

今天,两岸的大汉民族普遍都富足了,然而这种文化上的自卑,仍然存在着。所以当下重要工作就是促成中华文化的更新与再兴。汉字是中华文化的根本材料,其影响无所不在,因此汉字的数字化工程,也就成了中华文化进化到数字时代的重要基础工程。

汉字数字化工程中最基本的就是汉字表达的基础结构。汉字数字架构的良窳,深深地影响到中文数据储存成本、交换成本以及检索效能等,也关系着中华文化的传承与创新的能力。

 汉字信息的五大要素

自古汉字就由「形、音、义」三个要素所构成,在信息时代则必需加上「码」和「序」二个要素

「码」是计算机认定一个汉字的一个相对数字,通称为「字码」,所有的计算机的数据处理、数据交换都是针对「字码」进行认定和处理。

「序」系人类认知的排列方式。由于有查找排序和比对等数据处理的需要,一个自然、共同认定的「字序」是一个文字系统重要而有价值的本质。以查字典为例,查英文字典是简单方便且准确,但查汉字字典就很不确定,这种问题相信你一定能感受到,这是因为汉字还没有确定字序的缘故。

 当前的汉字信息表达的情况

一、形
汉字字形的产生主要有点阵字和向量字两种:

(一)点阵字形
点阵字对计算机来说其实是一种「字图」,就是在有笔画的地方描上细细的点。点阵字的好处就是处理简单,缺点就是每一种尺寸都需要一套点阵数据,因为一个点阵字就是一张图片,且数据量与字形的大小成等比级数上升,字形变大,数据量快速变大。这使得内存受限的小型数字装置所能提供的字形就非常有限。

另一方面,要从这点阵资料图中取得有关这个字形的特征信息不多,因此,除了进行高级的影像处理外,点阵数据的进阶处理并不容易。

(二)向量字形
向量字则是只记录各笔画内容的位置、长度宽度等字形数据,而在最后展现时,才由计算机转换成位图来呈现。

向量字的发展主要为解决点阵字资料量庞大的问题。但向量字形在呈现成点阵时所需要的转换非常复杂,目前在机能不够强大的数字设备上仍不易实现。

二、音
由于汉字是一种形意文字,与音韵并无紧密的连结,加上古今汉语音韵之变迁,形和音的对映是多对多的(多字同音,一字多音),其中字音可以简单地用建表的方式解决。但如果要处理破音和语境问题,就涉及自然语言处理的范畴,这方面学术单位已有相当多的有关研究。

三、义
形是义的视觉接口,音是义的听觉接口,有形无音,称为「符号」,有音无形,叫作「语言」,只有同时具备形、音两要素,才构成文字。

四、码
中文在信息时代的第一个挑战是「编码」,也就是为每一个汉字编上一个数字码。一个汉字没被编上一个对应的字码,就无法进行数字化处理,也等于「不存在」在数字世界中,甚至会造成世界上「没有这件事」的假象。

码可分为「内码」和「输入码」两种,内码是中文字的数字代码,是方便计算机处理的代码,人无法记忆,因此才衍生了各种方便人记忆或辨识的输入法来产生相应的内码,输入码主要是针对输入汉字的人机接口,也是人和机器沟通时的中介表达方式。

(一)内码
内码的主要考虑是软件的兼容性、储存的效率和程序处理的简易性,因为在这数字世界中,汉字字码是无所不在的,因此汉字的处理成本,这也就成了无所不在的成本负担。

在早期计算机的文字模式 (text mode) 时代,为了迁就 ASCII 码表,故有 Big5GB JIS 等双字符(一个字符就是一个 BYTE,一个 BYTE 8位,双字符= 16 位)的设计。然而,计算机进入图形模式的现在,字形在屏幕上的显示,已不再限定为固定宽度,加上当今计算机的容量与速度,因此对于实际储存的字符数以及运算的复杂度已经不在,让是中文内码的设计上有了很大的自由度。

目前计算机平台上涵盖面最广、最成功的内码 Unicode(统一码),已经成为当今 WindowsMac  Unix-like 等主流平台的内码,因此 Unicode 事实上已取代 ASCII Big5GBK 码,成为各操作系统的预设编码,并渐渐地成为国际间交换数据时主要的交换码。

(二)输入码
输入码可分为「拆形」和「拼音」两大类。「计算机中文化」的历程就是利用英文计算机的键盘,编上部首和注音的映对键位。然而中文部首的数目远远超过了键盘的键数(「康熙字典」的基本部首有 224 个),因此就必须在有限的键盘上,用一个键对应多个部首的方式来输入。

由于这些分解动作,都加入了人为指定与巧思,并非来自文字的本质,因此需要很多的学习和记忆,对汉字使用者无疑是建立了一个很大的门坎。现在社会上还有很多人「不会计算机」,其实大部分都是「不会输入」的意思。这种现象不仅在大人的世界发生,在儿童方面,也因为这个缘故,在计算机的启蒙时间也被延后了,这使得华文的小孩在计算机应用与普及上与英语世界相较,有输在起跑点的无奈。

 一字一码的时代困境

我们必须深刻地觉悟到,承载中文信息的中文码,其设计对「数字中华」的影响是既深且远的,不深入观察分析,大家也习以为常,难以发现它无所不在的影响以及其严肃性。就以康熙字典为例,一万多字的 BIG是做不出有四万多字的康熙字典的。

为了让你发现这些在我们数字生活中存在的诸多无奈事实,且让我们来分析观察英文字 (word) 的结构。

首先我们来看字序的问题。我们都知道,英文码的基本定义是 0127  ASCII 码,其中有 "AZ""az"  52 个「英文字母」 (character),其余为字符码及句柄。由 ASCII 码的英文字母所构成有意义语素是 word,我们就以「英文字」称之。各位请注意到,英文字循着 ABC 的排序,就有了一个自然的、本质的排序。

在此基石之上,举凡字典的安排、数据库的制作、物料的列举、二元搜寻 (binary search) 的方法、键盘的设计、操作系统窗体的设计、快捷键 (HOT KEY) 的安排等,无不存在这 ASCII 编码的基本设想,可是中文字却没有这个序,只要稍微有中文处理经验的人,便可以知道,数据域位没有确定的排序,电话簿中的人名没有确定的排序!

为了这样的缘故,中文数据总是要另外自行设代码或编号字段等,以方便处理。相对于英文,中文的数据处理,便增加了一层无所不在的额外成本。

一、发现潜藏在当今「一字一码」架构中的意义

现在,再让我们来看看当今中文字一字一码的问题。

为了让读者发现这些潜藏在文字架构中影响力,让我们来考虑下面的文字假设情况:

如果,我们把 ASCII码拿掉,改用一个英文字也像中文一样一字一码,那么将会是个怎样的景象?

我们先假设下列英文字都有了内码: 

      PERSONAL   内码是 $FF3A 
      CENTRAL    内码是 $BB01 
      PROCESSING 内码是 $FF3B 
      UNIT       内码是 $FF3C 
      MACHINE    内码是 $CC01 
      COMPUTING  内码是 $DD02  

那么 COMPUTING MACHINE(内码为 $DD02 $CC01)就没有机会因为它的重要性日增而改称 COMPUTER。请注意:因为没有 "COMPUTER" 这个内码,如果要,就要经过标准机构公布新码才会存在!

好!假设真有那么一天,「标准机构」「收录」了 COMPUTER 这个新字: 

COMPUTER 扩充新内码是$AA01 

一样的问题又来了,在有了 "COMPUTER" 这个新字码之后,PERSONAL COMPUTER(内码 $FF3A $AA01)仍不能马上改称 PC,因为还没有定下 "PC" 这个字码!

同样地,中央处理单元 CENTRAL PROCESSOING UNIT(内码$BB01 $FF3B $FF3C)更不会简称 CPU了,因为如果英文字也是像中文一字一码的话,也就没有机会新创 "CPU" 这个字了。

当然这是个假设性的探索,英文文字事实上可以自然地随着时代的需要「进化」,这可是关乎到一个文化的根本活力。

然而,这却也正是这些年来,一字一码的中文所经历的过程。

诸位一定可以体会到,所谓的一字一码,就是拿处理「英文字」(word) 的方式来处理中文字,这是一个耗时费力而不切实际的过程!

然而,我们更需要严肃看待是这样的困局所引发的严重后果: 
汉字停止演化! 

只因为在一字一码的架构中,要增加一个新字,是一个令人无法承受的梦魇!

读者是否可以看出来,当一字定成一码的时候,由于是人为指定,于是一个新字必须经过标准机构的公布才有可能流通和使用,然而即便一个新字已经公布了,无数已经在运行的系统又如何去更新呢?所以,这是成本非常高、过程复杂且时间漫长的过程!其真正的结果就是「停止造新字!」,这就是这几十年汉字僵化的景况。

于是,当今的一字一码架构也就成了汉文字生机的死胡同!很无奈地,这却是当今汉字数字化所存在的事实困局!

二、沉重的一字一码

虽然现在这种人为的一字一码并不是完全地不可行,问题就在必须每隔一段时间以人工审议的方式追加新字码,而在字码尚未公布前,中文数字数据的转换、交换、搜寻比对都是不可能的,更别说是无法输入和无法印出这样的基本动作了。以佛教经典来举例,佛教典籍有庞大数量古字未被编码,早期佛教界做了许多典籍的输入,虽然耗费庞大的人力物力来造字,至今却仍是难以流通,但今天要全面的更新既有的系统又谈何容易!

既使在新标准公布之后,由于许多已存在多年的系统无法随着更新,要能全面地交换、搜寻和比对,仍然是一条漫漫长路,更别提 UNICODE  2006 年已经公布的七万多个汉字,表面上好像是解决了缺字的问题,但却也是一个庞大的系统负担(2006  Windows XP 大部分的字型也只放了两万字)。因此,这些汉字只是「存在」但并非常用,这不仅是小型信息设备无法承受内存的消耗(相较于英文文字系统是非常的庞大),就连我们在输入时,也无法忍受输入时每次从上百个字中挑选你要的字。

由于 BIG5GBKUNICODE 等几个主要中文码一样都是这种一字一码的架构,所以皆面临相同的困境。

因此,我要说「人为指定的一字一码是汉字数字化进程中的历史错误!」。

三、中文在一字一码的架构下固化了

我们中文汉字在每字指定一码的架构下,「以笔书写,自由创造」的汉字本来生命力不见了,因为这汉字在数字世界中「固化」了!

这样的固化现象是无所不在的,其效应也是无声无息地不易被察觉的。为了更具体的剖析说明这种失去活力的「固化」过程,这里再举几个例子来加以说明。

百年来,对人类非常重要的日常用具──电灯,按仓颉以来中文形声造字的法则,最终应是进化为「电登」这个「字」(注意「电」「登」两个部首并写成一个汉字,因为「现在计算机还没这个字码」,所以这里无法显示)(这个新字应是念做「登」)。

想一想,当电灯刚出现时,中国仍处于油灯的时代,借用火旁油灯的「灯」再加上一个电字来修饰当时的灯字。另外,像因特网(互联网)更已经是这数字时代生活密不可分的一部分,按仓颉造字进化的原理,它的新字应该是「互罔」,这便是一个文字活力成长的机制。

近几十年,我小时候的油灯现在已几乎看不到了,「电灯」普及了,我们已经不需要再说「开电灯」「关电灯」来与油灯分别,而直接说「开灯」「关灯」,这是语言本身随着生活时代不断演进的例子。你只要仔细观察,这种例子俯拾皆是。

其实,这个新时代新增的字很多,像 MODEM 这个英文字便是从 "MODulation and DEModulation" 复合而成,然而,由于目前中文码是「一字一码」,因此这个「调变解调机」(或用「调制解调器」简化)就被「困住」了,只因为中文没有字码也「不容易」另定字码!

这都是因为现在使用的是一字一码的定码机制,我们所能做的,就只是用现有的字码来组新词,无法造新字!尽管时代不断地演化,重要用品和概念不断地出现,我们却无法进一步跟着简化。

于是,英文字在进化,中文字却僵在原处!

四、中文在一字一码的架构下僵住了

在这个案例中,中文僵住了!OK,也许会有人说,「中文僵住了又怎样?日子还不是一样在过?」

当然,在 BIG5 时,用计算机、打手机简讯也都可以啊!没错,但是,其结果就是下面的光景在不知不觉中大量普遍地在进行着:

以「中央处理器」和 "CPU" 为例,许多人在生活中、文章中会不知不觉地会直接用 "CPU" 而放弃写冗长的「中央处理器」,真的,实在太累了,可是一用 CPU,就有许多小孩、老人和那些非信息背景的人不知道意思了!(像 ADSLMODEM 这种字也都是一样的情形)。

这样的情况不只是发生在信息界,也同样发生在学术、工程、科学、医疗、农业、生物、经济、管理等等所有进化中的领域。这样的情况越久,中文所不能表达(或因不实用而被弃置不用)的字词就会累积得更多,长久下去,中文就这样无声无息渐渐地与时代脱节,也就慢慢失去一个语言的实用性与优越性!

各位要觉悟到,这种汉字的困局,是汉字的使用者必须自己关心解决的问题,外人不会替你解决,UNICODE 不断地编码,只是在解决跨国市场全球化的需求而已,至于这架构的好坏,对汉字文化的未来冲击,外人怎么可能替我们认真的面对!

五、字码在无声无息无所不再地影响我们

字码的影响力是无声无息的,无所不在的,我们在不知不觉中,受到这种基本机制所制约而不自知。

为了让各位更清楚地看见中文码对中文活力的影响,让我们再举下面的这些例子来观察思考:

CPU 
是计算机的心脏,在这个数字时代是如此的重要,所以常常被使用到。前面提到,大家宁可写 "CPU" 而不用「中央处理器」,因为写起来太冗长了。然而,换个角度,也是因为我们无法用「电心」(注意,这是一个汉字,因为 BIG5GBUNICODE 里还没有「指定」这个字,因为没有这个字码,所以也无法用计算机显示)这是个极简洁而恰当的新字。同样的,就像英文可以把 Personal Computer 简化成 "PC",但中国人却得永远写成「个人计算机」,难怪会有很多人直接写 PC。另外像「光盘」这个数字时代的关键储存装置,因为没有「光枼」这个字,所以只能用「光盘」,但「光枼」(这是一个字)就明显比「光盘」两个字来的有效率。(「计算机」的新「字」你一定马上可以想得到如何写了!停下来想一想,其实,字的演化是这么自然而且简单。)

再如英文 BIT 在计算机方面我们叫做「位」或「比特」,BYTE 则译做「字节」或「字节」,但其实 BIT 的零一单位就是在易经八卦中的「爻」(音「姚」或念成英译的「必」也很好),而 8  BIT 叫「爻八」(一样,要并写成一个汉字,念「拜」,再自然不过了),依此原则可以进一步造出 16BIT WORD32 BIT WORD 的字,这样的自然演化其实只是还给汉字本有的活力而已。

六、新中文码的时代需求

我们需要一个能承载数字中文汉字的字码架构。

前面的分析应该能让你感受到,数字汉字码若要能承载中华文化中的活力,就必须具有新字词的演化架构,因为这个质素代表着数字汉字在中华文化中能继续具有重组与创新能力,而这些本来就是传统汉字既有的本质机能,并且也是一个文化要能继续生存发展所需具备的。

这种独特的构字能力,进一步来说,主要就是形声造字法,这是汉字特质,也是汉字的活力和魅力所在。如果无法造新字,其结果就是迫使文辞变得冗长生硬,因而渐渐失去它的简洁与优雅,减损了文字效率与实用价值,最后,终将面临被更简洁有效的文字系统所取代的命运。

汉字是把概念分类和发音浓缩到小小的方块内,这种二维的表达,比一维的英文字符串,承载了更丰富而精致的信息,实在是有效而理想的文字表达方式。我们只有找出汉字在数字世界中进化的活路,才能够让汉字继续保持它的实用与优雅。

相较于英文,汉字的优点,其实俯拾皆是,这方面的探讨很多,无庸赘述。在这里仅举一个简单例来说:「鱐、鯦、鱞、鲀、鳇、鲿、鱴、魦、鰇、鰗」,虽然你可能都没见过,不过大概知道不是鱼的名称、就是跟鱼有关系的事物,甚至已经可以想象,大概是属哪一型的鱼。有了鱼的部首,「有边读边,没边读中间」,就算读音不甚确定,也是八九不离十。反观英文就没这个好处,Tuna , crucian , salmon , bass, abalone , trout , scombroid,虽然都念得出来,但没有事先学过,根本看不出任何关连,恐怕只有鱼类学者才能弄明白真正的义涵。

 结语

自从英文计算机发展以来的这几十年来,我们进行了一场「计算机中文化」的努力。然而,在计算机普遍使用的今天,事实上我们已经渐渐地从硬件与技术的限制中解放出来,整个信息产业正从「硬件技术」主导的产业转移到以「数据内容」为主导的产业。因此「计算机中文化」也进入了「中文计算机化」的新阶段,我们要从中文的真正本质与需求来运用计算机,而不再迁就于计算机硬件与技术。

当今的字码,不管是 BIG5GBK、或 Unicode 都是人为指定的一字一码架构,而使得数字化的汉字失去既有的生命力,不仅使得汉字变成一种僵化的文字,也使得汉字渐渐地降低了他的实用性。这样的「历史错误」是我们要严肃地重新审视的。

中文码对一个数字中华文化的发展,其影响可说是既深且远,并且是无所不在的。在这中华文化迈入数字新世纪当中,中文字码的架构正从根从本地影响了我中华文化的未来,希望我们能及早发现这个议题的严肃意义,期能引发各界深思熟虑,寻求解决之道。

作者注:本篇文章希望让大众发现潜藏在我们生活中的字码是如何地影响着我们中华文化的现在与未来。如果能获得你的认同,欢迎转载与拷贝,让我们一起来等待新汉码的未来。

关于作者:陈昌江,网名阿江,部落格;毕业于台湾科技大学电机系,曾任易符智慧科技董事长(易符科技从事 CPU及嵌入系统的开发其中也包括中文字形及其相关的中文造字系统),现为「剎那搜寻工坊」筹备处负责人,主要从事中文数据库之搜寻及中文缺字之处理。

本文章参考易符智慧科技所发表「中文信息的表达与易符无限字库」,针对当今中文数字化之困局加以剖析阐述,文中许多观念源于中央研究院谢清俊教授之启发及叶健欣先生之导入,特此铭谢。全文依据创用CC「姓名标示 2.5 台湾」授权条款出版,授权条款之详细内容,请参考此处

 
2006-12-21 14:16
diff和patch是一对工具,在数学上来说,diff是对两个集合的差运算,patch是对两个集合的和运算。
diff比较两个文件或文件集合的差异,并记录下来,生成一个diff文件,这也是我们常说的patch文件,即补丁文件。
patch能将diff文件运用于原来的两个集合之一,从而得到另一个集合。举个例子来说文件A和文件B,经过diff之后生成了补丁文件C,那么着个过程相当于 A -B = C ,那么patch的过程就是B+C = A 或A-C =B。
因此我们只要能得到A, B, C三个文件中的任何两个,就能用diff和patch这对工具生成另外一个文件。

这就是diff和patch的妙处。下面分别介绍一下两个工具的用法:

1. diff的用法

diff后面可以接两个文件名或两个目录名。 如果是一个目录名加一个文件名,那么只作用在那么个目录下的同名文件。

如果是两个目录的话,作用于该目录下的所有文件,不递归。如果我们希望递归执行,需要使用-r参数。

命令diff A B > C ,一般A是原始文件,B是修改后的文件,C称为A的补丁文件。
不加任何参数生成的diff文件格式是一种简单的格式,这种格式只标出了不一样的行数和内容。我们需要一种更详细的格式,可以标识出不同之处的上下文环境,这样更有利于提高patch命令的识别能力。这个时候可以用-c开关。

2. patch的用法

patch用于根据原文件和补丁文件生成目标文件。还是拿上个例子来说

patch A C 就能得到B, 这一步叫做对A打上了B的名字为C的补丁。

之一步之后,你的文件A就变成了文件B。如果你打完补丁之后想恢复到A怎么办呢?

patch -R B C 就可以重新还原到A了。

所以不用担心会失去A的问题。

其 实patch在具体使用的时候是不用指定原文件的,因为补丁文件中都已经记载了原文件的路径和名称。patch足够聪明可以认出来。但是有时候会有点小问 题。比如一般对两个目录diff的时候可能已经包含了原目录的名字,但是我们打补丁的时候会进入到目录中再使用patch,着个时候就需要你告诉 patch命令怎么处理补丁文件中的路径。可以利用-pn开关,告诉patch命令忽略的路径分隔符的个数。举例如下:

A文件在 DIR_A下,修改后的B文件在DIR_B下,一般DIR_A和DIR_B在同一级目录。我们为了对整个目录下的所有文件一次性diff,我们一般会到DIR_A和DIR_B的父目录下执行以下命令

diff -rc DIR_A DIR_B > C

这个时候补丁文件C中会记录了原始文件的路径为 DIR_A/A

现在另一个用户得到了A文件和C文件,其中A文件所在的目录也是DIR_A。 一般,他会比较喜欢在DIR_A目录下面进行patch操作,它会执行

patch < C

但是这个时候patch分析C文件中的记录,认为原始文件是./DIR_A/A,但实际上是./A,此时patch会找不到原始文件。为了避免这种情况我们可以使用-p1参数如下

patch -p1 < C

此时,patch会忽略掉第1个”/”之前的内容,认为原始文件是 ./A,这样就正确了。

最后有以下几点注意:

1. 一次打多个patch的话,一般这些patch有先后顺序,得按次序打才行。
2. 在patch之前不要对原文件进行任何修改
3. 如果patch中记录的原始文件和你得到的原始文件版本不匹配(很容易出现),那么你可以尝试使用patch, 如果幸运的话,可以成功。大部分情况下,会有不匹配的情况,此时patch会生成rej文件,记录失败的地方,你可以手工修改。
 
2006-11-26 16:46

百度“海龟”列传:最简单的理由爱上百度

对于很多人来说选择告别加州阳光,飞越1万英里漂洋过海回到故都的秋是需要很多很多的理由,而对于百度的很多人来说,这样的选择只需要一个最简单的理由

——因为百度,因为喜欢

百度是世界的,更是中国的,它以独特的中国气质和东方魅力不断吸引着越来越多全球精英的加入,在他们眼中,百度不仅仅是一个工作的目标,更是一个圆梦的伊甸园。
这里,你需要做的事情很简单:做你最想做的,就好
这里,每一天都让你更加坚定最初那个最简单的理由;
这里,有这样一群人,他们聪明绝顶,他们简单至极,他们用自己的信念和天才不断征服自己,征服整个世界。

洪涛

资深科学家2005年2月加盟百度
资深科学家,著名“海归”搜索引擎专家,现任百度高级科学家。

唐晓非

高级技术经理2004 年9 月加盟百度
资深软件工程师,现任百度高级技术经理。

王梦秋

高级技术经理2002 年11 月加盟百度
资深软件工程师,现任百度门户搜索部spider 部门经理

郭宇

百度首席设计师 2004 年11 月加盟百度

周敏

高级商业分析经理2004 年12 月底加盟百度

---------------------------------------------------------------------------------

洪涛

资深科学家2005年2月加盟百度
资深科学家,著名“海归”搜索引擎专家,现任百度高级科学家。

1986 年毕业于北京大学计算机科学技术系,获学士学位。1989 年获北京大学心理学硕士学位。1995 年获纽约州立布法罗大学计算机博士学位。

洪涛长期从事数据挖掘、信息检索、自然语言处理、模式识别和金融数据分析等方面的软件研发工作。曾在学术杂志和会议上发表20 多篇论文,拥有五项美国专利(其中三项在申请中)。1994 年2 月-1997 年2 月在纽约州立布法罗大学的CEDAR 研究中心担任项目领头人和研究科学家。1997 年2月-1999 年9 月在微软担任软件设计工程师。1999 年9 月-2000 年3 月在美国连线(AOL/Tegic) 担任资深软件工程师。2000 年7 月-2003 年1 月在Sightward Inc. 担任资深软件架构师。2003 年1 月-2005 年2 月在ID Analytics 担任资深科学家。2005 年2 月受邀回国。

对于洪涛来说,离开学习工作了十五年多的美国、回到北京加盟百度并没有得失之间的艰难取舍,也没有壮士归来的义无反顾。在他的生活中,很多决定都是水到渠成的事情,理由简单得只有一个(是什么呢?)。

2005 年1 月,洪涛又一次探亲回到北京,这是他89 年出国留学以来第3 次回国,距离上次已经4 年。他惊喜地发现,这时的北京作为一个国际化城市已经初具雏形,其发展丝毫不逊色于美国的任何大都会。在这里,他已经归国的朋友们都工作、生活得很充实很有成就感。洪涛的归国情节被牵动了。他是北京人,爱听京戏、看杂书,更爱如呼吸新鲜空气一样自由自在地说母语。他每次回国带走的都是各种各样的书籍和光盘,在他的收藏中,京剧《四郎探母》就有五六个版本。无论是做博士论文,还是在学校研究所、微软和AOL 工作期间,他都出于爱好把中文处理作为自己的研究方向;并通过参加学术会议和技术交流,见证了中文信息处理研究与应用从冷落边缘走到繁荣中心的发展过程。 这样的人是不会终老海外的,飞速发展的北京告诉他,时机已经成熟,如今的中国已经提供了最宽广的舞台。

命运似乎听到了这位游子心 中的呼唤,洪涛去探望老同学Robin 时顺便参观了百度,两人叙旧当中Robin 请他帮忙举荐技术人才。连洪涛自己也没有料到,他举荐的第一个人竟然是他自己。其实早在2001 年,洪涛就开始使用百度查找中国的各种资料信息,他一直知道百度是最优秀的中文搜索引擎。从百度的招聘网页,洪涛了解了百度的研究方向:自然语言处理、数据挖掘、信息检索……,他动心了——这无一不是他的兴趣与强项所在!在进一步与百度的交流当中,他对百度有了更多的了解:百度技术至上的理念让他产生共 鸣;硅谷式的企业文化使他感到熟悉;理想大厦邻近北大俯瞰燕园的人文环境,也给当年离开校门即出国门的他以暗示:这里不正是自己的中国结北京梦重新开始的地方吗?

尽管很多朋友都劝他不要轻易放弃在美国已经相对稳定舒适的生活和工作,洪涛还是干脆利落的处理好了辞职、签证等诸多事 宜,在大约一个月内,从加州San Diego 迅速回国。他和妻子约定,自己先回来打头阵,一年后妻子带着孩子们一起回到北京团聚。他当时工作的ID Analytics 公司对他的离去很不理解,最后他抛出了一个强有力的理由:“我要去工作的公司就是中国的Google”,于是所有挽留都变成了祝福。不过,事后想起来,把 在中国搜索市场领跑的百度比作尾随其后的Google,这个比喻还有点儿屈就百度了。

如今,洪涛每天在百度的银科办公区忙碌着, 新技术组的技术和管理工作让他无比充实也备感压力。如果问他为什么会选择来百度,他会告诉你:“出国十几年,我对技术和祖国的热爱越来越强烈。北京是我的故乡,百度有我喜欢的技术工作和企业文化。 回国加入百度,是天遂人愿、顺理成章的事儿!以简单的理由,做简单的决定。终点又回到起点,把自己的人生轨迹走成了一个圆。以前在海外,自己是忙以忘忧,不知老之将至;现在在百度和朝气蓬勃的年轻人们一起工作,我要努力做个老当益壮的黄忠,在这搜索的三国时代,演上几出定军山!”

唐晓非

高级技术经理2004 年9 月加盟百度
资深软件工程师,现任百度高级技术经理。

1986 年毕业于北航计算机科学和工程系,获学士学位。1986-1988 年在南京金城集团任助理工程师。1991 年毕业于北航计算机系,获硕士学位。1991-1993 年在中软公司语言工程系任工程师从事译星机器翻译和自然语言处理应用开发。1994年在美国堪萨斯大学计算机科学系修完硕士学位所需课程。

晓非长期从事商品化软件,自然语言和语音应用服务,以及互联网应用服务的开发。1995-2000 年在美国PerceptiveSoftware, Inc. 任资深软件工程师和核心开发人员,为公司设计开发出成功的商品化Client/Server 和Web DocumentImaging 产品,帮助公司在几年内从负赢利变成几百万美元纯利润。1998 年获微软开发人员证书和SUN JAVA 程序员证书。2000 年后在Sprint 任软件咨询顾问,在硅谷TellnGo 公司,eVoice 公司,和AOL 任资深和Principal 软件工程师,设计开发语音应用产品。合著出版Professional XSL 和Early Adopter VoiceXML 两书。2003 年12 月受邀回国。

04 年7 月的一个中午,在北京我自己的SOHO 里,我在电脑屏幕、天花板、一个叫做远景的地方和一个叫做现实的世界中不时地切换着自己的注意力。在美国——用刘湛秋当年在一篇关于文革的诗中的话说—— “TMD,一下就是十年”,回来也已经半年了,基本上是“一个人的圣战”:跑了无数的机构,盖了无数的公章,成立了无数(无线数据)应用的公司,申办了 ICP 证,投靠了联通,为他们神奇宝典的手机应用平台开发了几款游戏,经过了近乎苛刻的测试上线后,每周已有不少用户下载,每月收入,用我父亲的话说,基本上和清洁工的一样多了。

为了结交几位志趣相投的朋友,我加入了一个硅谷华人工程师协会组织的回国创业考察团。转眼8 月来临,考察按计划开始,第一天参观思科和摩托罗拉,晚上中央侨办领导宴请;第二天上午去中关村创业园区了解有关优惠政策,下午参观捷通和百度。还在九十 年代,我出国前曾去IBM 应聘过,十多年后再到这类著名外企,心境全然不同,在这些对很多人来说诱人的地方谋取一个诱人的职位的心情不再。

百度给人的第一印象是文化和现代很好结合起来的成功。我们来到青玉案不久,郭眈先带我们参观公司。然后,Robin也来了,他们在回答了大家的一些问题 后,说希望考察团回到硅谷后能在工程师协会中宣传百度正招纳人才。于是有人问薪酬会怎么样,建国说会是COMPETITIVE BUT LOCAL PAY,那人又问如果待遇完全按国内当地的情况,怎么会对硅谷的工程师有吸引力,建国说其实在百度工作很有成就感的原因会是觉得自己的工作能给互联网上那 么多人带来方便,能MAKE A BIG DIFFERENCE,这可能是在别的地方没有的感觉(靠成就感来吸引人,不错!)。

我当时心里就想一件事:我要来百度。给自己的理由是:比起手机这个虽然用户有2 亿多但主要为两大运营商所控制的平台来说,互联网提供了一个开放自由的、更广阔更富有创新的天空,百度似乎就是上天给在这些日子中迷茫着思考着的我的礼物,而且这礼物用了那些偶然的因素包装而来,也许正应验了那句无心插柳的话。

最终确定了来百度工作后,我在MSN 告诉了父亲,他问怎么不当老板不想自己做主了,我说当老板也不是什么都能自己做主,得听客户投资商工商局税务局公安局的,即使是皇帝还怕被人推翻了。其实,我做自己喜欢的事就是最好

八月下旬那些天,在自己的SOHO 中最后的那些日子里,我尽情地看着中国奥运军团一次次得到金牌升起五星红旗的场面,看到女排20 年后又一次赢来奥运冠军的情景,还有那些与冠军失之交臂于是被媒体所遗忘但在我眼里一样精彩的故事,我在心里体会着一份简单的感动和快乐。

其实真正的简单来自不简单,孩提时的单纯是自然的,但多少年后当岁月在一个人的心中留下了无数痕迹,还能保持一份简单的目标简单的快乐,那才是最有生命 力的简单。就好比爱因斯坦说:“Everything should be made as simple as possible,but not simpler”;就好比我虽不喜欢日货但喜欢Canon 那句口号:“It's so advanced; it's simple”;就好比海明威那历经沧桑而无比简洁的穿透人心的风格;就好比周杰伦的那首简单爱。

几个月后,又到硅谷和几位朋友小聚,他们问起我回国后在百度的感受。呼吸着加州阳光灿烂的新鲜空气,看着不远处翠绿的群山,想过了北京的交通、空气和环境,我笑道,如果你们也能象我那样,那也一定会感觉不错。一位朋友说现在网上除了海龟海带外,又流行了一个新词叫海憋(有意思,指那些想回来但因为这或那回不来的。大家照相留念时我说来来来我给 你们几个海憋也照一张吧,大家站好了,作憋状。那一刻,全屋子充满了笑骂,那一刻的快乐也很简单。

王梦秋

高级技术经理2002 年11 月加盟百度
资深软件工程师,现任百度门户搜索部spider 部门经理

1997 年7 月毕业于北京大学计算机系,获学士学位。2001年9 月毕业于美国加州大学洛杉矶分校(UCLA)计算机系,获硕士学位。

梦秋作为搜索、网络方面的资深工程师,主持参与了大量项目的设计和开发,同时她又是非常出色的技术管理人才,先后担任了门户搜索部laser 和spider 两个部门的经理。2001 年6月至2002 年10 月,梦秋在美国加州ABAQOS 通信公司担任软件工程师,进行Router、LAN Switch、路由协议等网络方面的研发工作。2002 年11 月,梦秋受邀回国加盟百度。2003 年7 月被评为高级工程师。2004 年1 月,晋升为项目经理。2004年7 月,晋升为门户搜索部laser 部门经理。2004 年12 月至今,担任门户搜索部spider 部门经理。

我是个思维很简单的人,从回国到现在已经有很多人问我为什么。为什么要回国来?答:我想找个更有意思的地方呆着,做一点更有意思的事情。为什么要加入百度?答:因为我喜欢。

其实甫一回国就加入百度不过顺理成章,有大学同学在这家初露峥嵘的公司工作,我便来试一试。然而一试之下,我就决定留下,至今已2 年半有余。为什么?还是那个简单的理由:我喜欢。

百度的工作团队是让我觉得最舒服的。研发部门虽然不大,但是精英云集,处处都有聪明人,而聪明之处又各有各的不同。然而聪明还不是最重要的,工程师之间那种默契的配合让我觉得这是一个实在做事的团队。尽管会经常为了技术问题而争论,然而除此之外可说协作无间。没有惯常的推诿倾轧,又是这样的冰雪聪明、勤奋踏实的一群人,我当时就想,和他们一起工作,应该没有什么事情是做不成的吧。

比较有趣的是,这样一群人在一起,碰撞出来的火花远不止包括搜索引擎。这些人,有的醉心国学,有的喜爱武术,更兼得吹拉弹唱,诗词歌赋,都有人精通,而且人人长于插科打诨,工作时候热闹无比,谈笑间,强敌灰飞烟灭,让我叹为观止啊。

其实百度每天的工作很多,几乎没有喘气的时间,但是想一想,我做的每一个程序上的升级,或者策略上的修订,都会影响中国数千万网民的体验,心里就很得意。这还只是其一,百度的网页库和用户数据对于想研究互联网的人来说,简直是梦寐以求的宝库。每天在这些数据之间游弋,挖掘分析有用信息,观察网站和用户行为(会不会因隐私问题而引起法律纠纷?),由此窥探人心社会,实在是一大乐事。我未必见得是个在事业上非常有野心的人,但是我喜欢做这样有意思的事。

因此我看见,我留下,我努力(Very Good,非常欣赏)。现在每天上班,对于我来说,

都是一件简单快乐的事情。


郭宇

百度首席设计师 2004年11月加盟百度

1992 年上海交大第一届工业造型设计专业毕业,获学士学位。2000 年,毕业于美国著名的伊利诺理工大学设计学院,获“设计策划”(Design Planning) 硕士学位,2003 年在MIT 进修Product Innovation, 加入百度前曾在Netscape/AOL, eBay/PayPal 等公司任资深设计师。2004 年11 月受邀回国。

(下文摘自《环球企业家》杂志,部分稍做修改)

越来越多的跨国公司开始将以人为本的设计和创意思维应用于商业战略而取得成功,而在中国,它才刚刚开始。

1998 年,郭宇刚刚开始用Netscape 上网,梅格. 惠特曼做上eBay 的CEO 还不到一年,世界上还没有“百度”。这一年,郭宇进了“新包豪斯”——伊利诺理工大学设计学院(Institute of Design,简称ID),他的职业生涯因此改变。

6 年后,郭宇回到中国,这时候他的履历表上已经增添了另外一批内容:伊利诺理工大学“设计策划”(Design Planning)硕士。为AOL-Netscape 设计的“儿童信用卡”和“My AOL”,为eBay 中国设计的“安付通”交易平台,以及“百度公司首席设计师”的头衔。现在,他的吃饭家伙已经改成了“UCD”——以用户为中心的设计(User- Centered Design)。

设计以人为本

什么是UCD ?——以人为本的设计。这似乎是废话,但并非看上去那么容易做到。1970 年代索尼推出Walkman,它的功能只有一个:随身听;而现在,你的手机和PDA 可以轻易地拥有上百种功能——这就是我们所处的时代,产品功能变得如此复杂多样,以至于使用起来困难重重。设计师的挑战重新从设计“好看”的产品,开始转 向设计“易用”的产品。

以易用性和人的需求为核心的UCD 在1999 年甚至被国际标准组织确立为一种工业标准:ISO 13407—— 以人为中心的交互系统设计方法。

郭宇在ID 最初学到的东西之一是如何用视觉语言表达一个概念。在一项课程作业里,他必须用图形教会一个对棒球一无所知的成年人如何打棒球。

在这个看似简单的任务里,实际上已经包含了UCD 方法的核心——设计必须从观察开始,在1) 观察中发现问题,然后将问题2) 抽象为概念,接下来是3) 解决问题,然后把解决方案用直观的语言4) 表达出来。这个最终的结果,就是设计产品。

在ID著名教授查尔斯. 欧文的Structure Planning( 结构规划)课上,欧文布置过一个设计题目:重新设计政府。郭宇和他的同学研究了和政府有关的200 多种行为以及它们相互间的关系权重,从而得出它们的优先顺序和新的组合,并以此为据“重新设计政府”。与此类似的一项重新设计全美州法院工作流程的研究项目在2001 年被全美法院中心在全国实施,另外一项重塑美国医保体系流程的研究项目正在进行之中。

而在UCD 这样的“先进”设计领域,中国和西方国家的差距极大。作为全球最大的互联网交易平台,eBay 已经拥有多达数百人的UCD 团队;IBM 研究部下设有团队和设备都堪称豪华的IBM UCD Process,它已经系统地发展出自己的UCD方法;乔布斯和他的苹果最近数年取得的胜利则是UCD 应用于商业战略取得成功的最佳例证。而在中国,一切只是刚刚开始。

为中国设计

加入百度以前,郭宇最有影响的设计是他在美国硅谷eBay工作时为其中国业务设计的“安付通”交易平台。中国缺少西方发达的电子商务基础和信用体系,eBay 易趣50% 的交易是同城交易,“安付通”则解决了异地交易双方缺乏信用的问题:由eBay 充当中间人。买家先把钱汇给eBay,收到钱后,eBay 通知卖家寄货,等买家收到货、确认没有问题之后,eBay 再把款放给卖家。“这就是适合中国环境的独特产品”郭宇说。

在百度,“适合中国环境的独特产品”仍然是郭宇工作的最高目标。虽然与Google 相比,百度的规模还甚小,但它在中国市场的领导地位却非Google 可及。“Google 是全球运营的公司,目前它还没有能力和精力与我们在中国市场竞争”,郭宇对此颇有信心。

郭宇在百度的工作是引领团队进行基于用户体验的创新,由于高层的重视,事实上百度拥有了一支中国最强大的用户体验团队。用户体验的创新能直接帮助百度进一步提升品牌美誉度,这将有利于维持其在中国的领导地位。

在短短的半年时间,与其他团队一起,用户体验部的设计师与工程师们已经将许多创意转化为成功的新产品。值得一提的是一个叫作“百度指数”的服务——通过搜索任意两个或多个关键词的引用率和点击数,得出它们的相关性和重要性排名。这项搜索功能相当于一个自动调查机,比如你正在为购买哪一款新车而拿不定主意,“百度指数”就可以提供一个不同车型之间非常直观的比较作为参考。目前,这项业务还没有正式对外公布,像Google 的Gmail 一样,你只能通过被邀请而获得使用它的机会。另一个有趣的产品叫做“百度知道”,这一问答知识平台通过网友之间的互动来帮助他们找到互联网上所没有的信 息。

在郭宇的设计生涯中,他从未特别想要设计某种产品。他的设计理想既简单又野心勃勃:通过产品影响尽可能多的人。从这个角度来 说,互联网确是不二之选,而生为中国人又实在是运气。2004 年,百度创始人李彦宏找到还在eBay 公司担任高级设计师的郭宇,试图说服他加盟百度。此时的郭宇只是听说过百度,从未用它搜索过任何东西。但Google 创造的奇迹和巨大的中国市场使他相信,百度会是一个很好的选择。

事实上加入百度之后,郭宇已经越来越喜欢上这个公司和一起共事的同事们,而更加吸引他的是面对的来自Google,Yahoo 甚至微软的挑战,在中国又有有哪个公司能和这些强大的对手抗衡呢?

周敏

高级商业分析经理 2004年12月底加盟百度
1991 年毕业于北京大学信息管理系,获学士学位。1995 年获美国明尼苏达大学计算机硕士学位。

周敏长期从事数据挖掘、信息管理系统以及决策数据分析等方面的软件研发/ 项目管理工作。曾拥有很好的管理及商业分析经验, 在美国许多大型IT/ 网络公司中担任重要职位。1995 年7 月-1996 年7 月Wyston Wyte 任ERP 工程师。1996 年8 月-1998 年7 月在SEAGATE 担任数据库设计工程师。1998 年8 月-1999 年9 月在思科(CISCO) 担任高级工程师。1999 年9 月-2002 年1 月在互联网广告公司ENGAGE 担任资深BI 工程师/ 项目经理。2002 年5 月起,组建咨询公司。2004 年12 月受邀回国。

从北大去美国后,主修的是计算机专业,硕士毕业后,在国外知名的大企业Seagate, Cisco 主持过大规模的物流和数据挖掘系统开发;后来在1999 年网络泡沫的时期,拒绝了像EBAY这样的许多offer, 去了一家做网络广告的公司ENGAGE,负责给用户提供商业化的商业智能系统,其间对各种商业分析以决策系统产生了浓厚的兴趣。因为在同一领域,很多朋友 去了GOOGLE,YAHOO 这类的公司,经常关注互联网的方方面面,越来越觉得网络广告中有其很大发展潜力,搜索引擎以其简单化,直接性,方便性,吸引了我对其广告的效果关注。

回来后,最先找的是robin, 跟他说明我对百度的热情,同时把我在市场分析,商业模式上的心得和他探讨了一番。他建议我到百度看看,当时我对百度有这么多年纪青青,却担当重担的人材, 并且每个人都对自己的工作充满热情,对未来充满希望,感到十分惊奇。我更坚信了来百度的决心。在和电子商务部总监王湛聊过后,对其才华,谈吐以及对业务的了解深表佩服,同时正好其部门也越来越意识到,随着公司的发展,对数据分析与挖掘,商业模式及产品策略上都更需要量化的衡量,跟我的兴趣正好吻合。这样,我就来了。以后的故事,正象我一直以来期盼的——简单,而又快乐

从百度刚有雏形的时候,就开始关注百度,耳闻目睹了它快速成长 的全过程。从一开始的MP3 搜索,倾听自己喜欢的民谣和流行歌曲,到寻找自己当年的同窗好友,就像每天,百度已俨然成为生活中的一部分。这么多年,在国外生活了十来年,虽然稍有成就,但总觉得缺少激情,没有归属感。

当去年冬天,从阳光灿烂的硅谷回到冰天雪地的北京,最想做的第一件事,就是到百度去看看,理由很简单,因为我相信。我相信百度是国内最好,最有发展前途,公司文化最国际化的互联网公司,要去就去最好的;我相信,以自己互联网的工作经历,百度是最能让我学有所用,发挥自己最大潜质,要干就要干最喜欢的;我相信,百度是能让我每天都和聪明,有创意,充满生机的人共事,要处就要处最快乐的;但最重要的,我相信,百度的明天会更好

在百度工作的日子,正像我一直以来期盼的——简单,而又快乐。
 
 
   
 
 
文章分类
 
   
 
文章存档
 
     
 
最新文章评论
  

debug hacks(中文版)里166页有一段脚本就是用来设置一些调试操作的。 脚本写在debu
 

tags.sh: line 22: cscope: command not found 这个是什么情况?
 

回复chy:我记得reverse.put.as 的作者写了个.gdbinit的脚本 很强大 你可以参考一
 

谢谢!写的不错,很受益。
 

大哥,应该加工已下呀,你这东西连主函数也没有,怎么看呀
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu