开源搜索引擎论坛
http://groups.google.com/group/osse
今天在网上找到的一个相关论坛,虽说现在没什么人气,但我相信会有更多的朋友加入进来的,发出来,希望有这方面兴趣的朋友,加入到这个行列中来!
1.LUPA开源社区: http://www.lupaworld.com/index.html
2.共创联盟:http://cosoft.org.cn/
1、互联网2.0,并不止是“编辑方式改变”这么简单。
2、网络媒体的特性在于信息易于大量生产、复制和传播。未来网络媒体特性还要加一条:大量冗余。这不光是前三条的附属品,它符合基于P2P的分布式知识网络的存储传播特性。
3、基于P2P的知识网络,将对内容型网站实施沉重打击。无论原创式、拷贝式、精编式的内容站点,都会受其影响。
4、Blog是“去中心化”过程中的一个阶段,但并非终极形式。从技术的角度来看,Blog内容本身将来可能也是分布式存储的。怎么删除?不知道,我只是提出一个预想。或者,到那时,就不用Blog了。
5、每台电脑(或其他设备)上将有一个P2P终端。这个终端是分布式网络中的一个节点。它是搜索引擎、是浏览器、是IM、是SNS,或者也是其他一些应用。由所有节点加起来的整个分布式网络负责信息的存储和传递。
6、信息将通过“漂流瓶”的模式传播。一种是主动式,一种是反馈式。主动式的例子:发表一篇文章、一条新闻;反馈式的例子:问一个问题。
7、你的P2P节点将“主动抓住”流经本节点的、你可能关心的内容,例如,你朋友Blog的一篇新文章
搜索引擎设计实用教程-以百度为例
之一:查询处理以及分词技术
中科院软件所 张俊林
2005年11月
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。
但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实