查看文章
 
用纯C语言写了一个HtmlParse(网页分析器)外带采集功能,大小只有200K(免费+开源+操作示意图)
2009-02-05 21:31

用纯C语言写了一个HtmlParse(网页分析器)外带采集功能,大小只有200K(免费+开源+操作示意图)

下载地址: http://ishare.iask.sina.com.cn/f/16955619.html

用法很简单,比如:你把网页分析器保存到D:\那你直接在 dos 窗口下输入:
d:\czhtmlparse "http://tieba.cangzhuo.com/"
然后回车就可以了!
运行需要一个参数,
第一个参数
"http://tieba.cangzhuo.com/"
表示要下载的地址

目前测试过的大型网站有
http://www.csdn.net/
http://www.google.cn/

目前支持 GB2312编码、UTF-8编码自动转换、ISO-8859-1 及无编码类型网页!
下一版本将增加对BIG5编码类型网页的转换支持!

我打算等有 200人回复说好的时候就开源!大家要是喜欢就回复哈!

HtmlParser 网页采集分析器已经升级更新

已经增加对UTF-8中文繁体、GBK中文繁体、BIG5中文繁体 转换成BG2312的功能!
另外增加了对宽字符的支持!

另补充说明:未使用任何第三方类库和正则库,完全自己编码实现!

欢迎大家批评指正!多提宝贵意见!谢谢!


类别:默认分类||添加到搜藏 |分享到i贴吧|浏览(1244)|评论 (0)
 
 
最近读者:
 
网友评论:
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
     

   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu