文章列表
 
您正在查看 "Info Extraction" 分类下的文章

2009年03月02日 星期一 20:08

当网络爬虫将网页下载到磁盘上以后,需要对这些网页中的内容进行抽取,为索引做准备。一个网页中的数据大部分是HTML标签,索引肯定不会去索引这些标签。也就是说,这种信息是没有用处的信息,需要在抽取过程中过滤掉。另外,一个网页中一般会存在广告信息、锚文本信息,还有一些我们不感兴趣的信息,都被视为垃圾信息,如果不加考虑这些内容,抽取出来的信息不仅占用存储空间,而且在索引以后,为终端用户提供检索服务,用户检会索到很多无用的垃圾信息,势必影响用户的体验。

这里,针对论坛,采用配置模板的方式来实现

 
2009年02月25日 星期三 10:22

Google, Inktomi和FAST都对搜索引擎优化中反垃圾策略做过说明,也就是说不同的搜索引擎厂商对垃圾信息的详细定义不尽相同,但是基本是指对搜索引擎的正常工作进行了一定程度的干扰,使搜索引擎提供的搜索服务质量下降,导致这一结果都是垃圾信息的特征。

下面从http://searchenginewatch.com/2159061上《The Search Engine Spam Policy》一文中,给出Google, Inktomi和FAST分别对垃圾信息的解释的片段:

Google

To determine whether

 
2009年02月24日 星期二 16:52

郭岩,丁国栋,程学旗
     (中国科学院计算技术研究所,信息智能与信息安全中心)
1    引言
     2008年1月17日,中国互联网络信息中心(CNNIC)发布了《第21次中国互联网络发展状况统计报告》[1],报告显示:

    (1) 截至2007年12月,网民数已增至2.1亿人。中国网民数增长迅速,比2007年6月增加4800万人,2007年一年则增加了7300万人,年增长率达到53.3%。,在过去一年中平均每天增加网民20万人。

 
2008年05月01日 星期四 11:31

依然使用到poi-3.0.2的两个jar包,如下为工程的.classpath:

<?xml version="1.0" encoding="UTF-8"?>
<classpath>
<classpathentry kind="src" path="src"/>
<classpathentry kind="con" path="org.eclipse.jdt.launching.JRE_CONTAINER"/>
<classpathentry kind="lib" path="E:/JAR包/POI/poi-3.0.2-FINAL-20080204.jar"/>
<classpathentry kind="lib" path="E

 
2008年04月28日 星期一 17:03

POI是Apache的一个开源项目,可以到Apache网站下载相应的jar包文件,及其源文件。

POI提供了提取一些非TXT文本中文本内容的API,比如提取Word,Excel等,使用起来非常方便。

为了说明POI提起Word文件的方便和简单,通过提取一个Word文件的文本来,来了解POI API的功能。

假设在本地磁盘中存在一个Word文件

E:\POI\word\JBos

 
 
   
 
 
文章存档
 
     
 
最新文章评论
  

这个不错,很详细,对于我们初学spring框架的人不错的帮助,感谢楼主分享
 

最近用,学习了~
 

[表情]
 

[表情]
 

对于Ubuntu用户,有一个简单的办法: 将该用户添加到admin用户组,即 usermod -G adm
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu