文章列表
 
您正在查看 "Web Crawler" 分类下的文章

2009-05-06 12:20

转自:http://www.blogjava.net/Jack2007/archive/2008/08/01/188138.html

该爬虫程序的特色之处在于:加入了robot协议判断环节,可根据指定关键词对网页进行抓取、下载。

作为补充工作,本人给出该程序的流程图:

 
2009-05-05 22:11

转自:http://nmj1987.javaeye.com/blog/348674    

本程序是一个利用多线程实现网页抓取的爬虫程序。程序写的很具专业性,代码齐整,思路清晰,一目了然:输入起始URL—>获取对应的文件内容—>分离出新的URL,存入URL队列—>建立新的线程继续抓取新URL所对应的网页,直到抓取够预定的网页数。缺点是每抓取一组新的网页就要开启一个线程,不免有浪费系统

 
2009-05-05 19:44

该程序仅对单个URL所对应的page网页信息进行抓取(pageSpider.java)。程序流程图如下:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnect

 
2009-05-05 17:02

转自:http://www.cnblogs.com/zycjwdss/archive/2008/09/28/1301575.html

以下是一个Java爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。本人补充给出该爬虫程序的流程图,希望对众读者更容易地读懂程序有所帮助。需要说明的是,流程图中省去生成抓取报告和索引文件的过程。

 
 
   
 
 
文章分类
 
   
 
文章存档
 
     
 
最新文章评论
  

回复prometheus2008:哦
 

回复天使街没有人:你好,我学的计算机。
 

亲 冒昧的问一下你是学什么的?
 

yield()和join()的区别 join方法是,用对象名称调用,在一个线程t2中调用另一个线程t
 

非常好!
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu