百度空间 | 百度首页 
 
文章列表
 
您正在查看 "技术资料" 分类下的文章

2006-07-27 13:46

1、互联网2.0,并不止是“编辑方式改变”这么简单。

2、网络媒体的特性在于信息易于大量生产、复制和传播。未来网络媒体特性还要加一条:大量冗余。这不光是前三条的附属品,它符合基于P2P的分布式知识网络的存储传播特性。

3、基于P2P的知识网络,将对内容型网站实施沉重打击。无论原创式、拷贝式、精编式的内容站点,都会受其影响。

4、Blog是“去中心化”过程中的一个阶段,但并非终极形式。从技术的角度来看,Blog内容本身将来可能也是分布式存储的。怎么删除?不知道,我只是提出一个预想。或者,到那时,就不用Blog了。

5、每台电脑(或其他设备)上将有一个P2P终端。这个终端是分布式网络中的一个节点。它是搜索引擎、是浏览器、是IM、是SNS,或者也是其他一些应用。由所有节点加起来的整个分布式网络负责信息的存储和传递。

6、信息将通过“漂流瓶”的模式传播。一种是主动式,一种是反馈式。主动式的例子:发表一篇文章、一条新闻;反馈式的例子:问一个问题。

7、你的P2P节点将“主动抓住”流经本节点的、你可能关心的内容,例如,你朋友Blog的一篇新文章

类别:技术资料 | 评论(1) | 浏览()
 
2006-07-27 13:42
21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入迷茫。搜索引擎正是为了满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针。现在的商业搜索引擎不少,但都是保密的,不便研究。而Nutch 是一个开源Java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具。
    Nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因此 Nutch 对学术搜索和政府类站点的搜索来说,是个好选择。因为一个公平的排序结果是非常重要的。
  了解一个大型分布式的搜索引擎如何工作是一件让人很受益的事情,但是我们并没有google的源代码,因此学习搜索引擎Nutch是个不错的选择。Nutch的核心部分目前已经被重新用 Map Reduce 实现,而Map Reduce 是一个分布式的处理模型,最先是从 Goog
类别:技术资料 | 评论(0) | 浏览()
 
2006-07-27 13:34

搜索引擎设计实用教程-以百度为例

                          之一:查询处理以及分词技术

                                 中科院软件所 张俊林

                                                 2005年11月

 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。

但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实

类别:技术资料 | 评论(2) | 浏览()
 
2006-07-26 22:26
互联网在全球范围内的迅速发展与成熟,促使社会各领域信息飞速膨胀,为人们查找、获取有用信息提供了丰富的信息源,但也给信息的准确定位提出了挑战。提供 网上资源的检索是网络信息服务的重要内容之一,加之现代人也对信息把握的正确性和全面性提出了越来越高的要求,因此,当务之急是开发性能优越的网络信息检 索工具。
1993年,第一批搜索引擎诞生后,发展至今已经逐渐走向成熟,伴随着计算机智能化研究的不断发展,具有适应性和学习性特征的智能代理技 术也正从试验阶段过渡到实际应用。目前,搜索引擎(search engine)与智能代理(intelligent agent)已经成为网络信息搜索的关键技术与核心思想。
1 搜索引擎技术的发展现状
1.1 搜索引擎技术
目前,网络信 息检索技术最主要的是搜索引擎技术,搜索引擎实际上是一个专用的WWW服务器,也可以说是因特网上的一类网站,这类网站与一般的网站不同,其主要工作是收 集网络上成千上万的网站和网页信息,组成庞大的索引数据库。使用优秀的搜索引擎可以达到事半功倍的效果。目前网络上大约有3000多种搜索引擎,我们较为 熟悉的提供中文搜索引擎的站点有sina、sohu、yahoo、netease和中文Excite等。
一般
类别:技术资料 | 评论(0) | 浏览()
 
2006-07-26 22:24
这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文 和超连接的数据库至少包含24‘000‘000个网页。我们可以从http://google.stanford.edu/ 下载。
设 计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索 引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。
本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。
本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效
类别:技术资料 | 评论(1) | 浏览()
 
     
 
 
文章分类
 
     
 
文章存档
 
 
     
 
最新文章评论
   

看了一下,还可以。
 

怎么联系你
 

中国环保清洗网 http://www.ccleanstar.com
 

顶一下!
------------------------------------------
交友平台 http://www.51fin...
 

不是吧
 
     


©2009 Baidu