查看文章 |
沉寂了将近四个月,这四个月来我一直在对搜索引擎的发展做哲学上的思考和自我反思.现在终于能够把我对搜索的理解和认识厘清一些头绪.通过网络,认识了很多业界的朋友,从他们身上学到了很多.所以我想,如果我能够把我的想法同这些朋友以及未来岁月里能成为朋友的人分享,这是我的万分荣幸.搜索,是一项人类的事业.在这篇文章里,我将阐述我关于社会化智能(social intelligence)的思考.大部分人不习惯阅读较长的文字,所以我会把这篇文章的内容压缩在一定字数范围内.一些我认为有必要详细说明的地方,我会以另一方式加以阐明.本文还有另一个目的,是想通过这篇文章结识更多的业界朋友. 围绕着业界的主题问题仍然是如何以最短的时间,全面而准确地找到符合需要的信息.这一问题并不单单是技术上的问题,在更深层次的意义上也是一个哲学问题.搜索信息之所以可能,本质上是通过对信息的处理来实现的.只有经过一定方式处理过的信息,才能有效率地被搜索到.倒排索引、自动类聚、标签等等都是对信息的一种处理方式.信息处理主要有三个主要部分:信息收集、信息存储、信息输出.现在由于蜘蛛和机器人的发明,信息收集已经实现了自动化,这是一次质的飞跃.不但为人们收集信息节省了宝贵的时间和精力,更为未来搜索引擎的智能化奠定了客观基础.马克思说,时间是人类发展的空间.搜索引擎的发明,可以说是人类认识史上的一次革新.我认为,所谓的智能化一定程度上等同于自动化.现在问题是,信息以何种方式存储和以何种方式输出,决定了人们是否能短而有效、全面而准确地找到符合需要的信息.当前的社会化搜索就是对这一问题的努力方向和积极尝试之一. URL也叫统一资源定位器,这一概念也揭示了互联网的存在意义和其本质.互联网的真正意义在于它的统一性,即对资源统一的事质.并且由于互联网更是一个全球性的概念(WWW的意思是世界万维网),而且互联网是搜索引擎存在的物质前提和发展动力,故而不论对哪一个国家来说,其搜索引擎的潜在本质都是向着世界方向去存在的,而不仅仅是固守本土.全面且准确既是对社会化搜索提出的要求和挑战,也是社会化搜索试图解决的问题.我的解决思路是靠社会化智能. 社会化智能,或者更贴切地表达是自动化的社会化搜索.目前用户通常靠自己的体力和脑力用社会化搜索来寻找高质量和高相关度的信息.由于人类体能和注意力的限制,在这个过程中无法保证全面地找到所有有关信息.如果系统能够自动把相同兴趣的用户联系在一起,并且将用户自动推荐给彼此,我认为通过这种自动化的机制不仅可以节省用户的精力,也能够解决查全率和查准率的问题.从而推动整个互联网向更智能化和人性化的方向进步,现实世界的虚拟化,其实也就是虚拟世界的现实化.搜索引擎,使得互联网在现实世界得以深度扩张,而这种扩张的好处是人类真真正正成为知识的主人. 下面该阐述一下社会化智能的实现原理了. 社会化智能需要用户拥有账号,这与现在的社会化搜索没有区别.但不同的是,账号里面有一个叫"兴趣爱好"的一栏.在这里面,用户将DIY自己的兴趣爱好,但不是通过自然语言描述,而是用关键词的方式概括自己关心的问题.关键词之间,用逗号分开.然后系统对这些关键词建立索引,当用户之间兴趣爱好里的关键词有相同部分时,系统会判定用户的兴趣相关,并自动把用户互相推荐给对方.如果相同的关键词越多,则兴趣相关度越高.相关度越高的用户,越排在前面.以上是社会化智能的初步实现.接下来是第二步: 用户在收藏网页时,往往都喜欢给网页贴上标签,标签在这里起的是解释说明的作用.系统需要对标签建立索引,当其他用户也使用相同标签时,则判定兴趣相关.重复的标签越多,兴趣越相关;同一标签使用次数越多,兴趣也越相关.同一标签使用次数越多,也表明某用户持续地关注某一主题,表明该主题下收藏的网页越多.系统根据这种权重,把用户联系在一起,并互相推荐.我把这种兴趣圈子,称之"兴趣群".点击兴趣群里的用户,就可直接进入该用户的相关收藏.最好其他用户访问该收藏时,系统能够列出该用户收藏内的标签云图.下面是社会化智能实现的第三步: 由于有的用户不习惯写标签,所以当该用户收藏的网址与其他用户收藏相同时,系统判定用户之间兴趣相关,并互相推荐.收藏网址的相同数越多,则兴趣越相关.从而影响兴趣群内,用户的排序. 香农的信息论认为,重复的信息不能够增加该信息的信息量.所以社会化智能若能引进重复信息过滤的技术将会大大提高社会化智能的用户体验.另外一点是,兴趣群内的用户,若是有新收藏时系统最好能自动提示其他用户,某用户有新收藏.
|