百度空间 | 百度首页 
 
查看文章
 
如何写ASP入库小偷程序
2006-08-12 12:05

最近大家都对小偷程序感兴趣,尤其是入库类的,在这里我简单的介绍一下。希望大家对这个能有所了解,如果您还不知道什么叫小偷,请参考我写的另外一片文章《小偷程序原理和简单示例

个人认为小偷只是一个很通俗的说法,也给很多人带来了误解,认为小偷是什么不好的东西,其实不然,用数据采集程序来形容应该更准确些。

在这里我简单介绍一下:

入库小偷的原理也很简单,就是用XMLHTTP远程读取网页的内容,然后根据需要,对读到的内容进行加工(过滤、替换、分类),最后得到自己需要的数据,加入到数据库中。

首先:我们先用XMLHTTP读取远程网页(我的另一片文章中有介绍)。

其次:对内容进行过滤,这个是比较关键的步骤,比如说,我要从远程网页上提取出所有url连接,我应该怎么做呢?

'这里用的是正则式 Set objRegExp = New Regexp '建立对象 objRegExp.IgnoreCase = True '大小写忽略 objRegExp.Global = True '全局为真 objRegExp.Pattern = "http://.+?" '匹配字段 set mm=objRegExp.Execute(str) '执行查找,str为输入参数 For Each Match in mm '进入循环 Response.write(Match.Value) '输出url地址 next

然后,我们需要根据需要做一些替换功能,把不必要的数据替换掉,这个比较简单,用Replace函数即可。

最后,进行数据库操作,这个我想大家应该都会,就不做介绍了。


类别:[asp加油站] | 添加到搜藏 | 分享到i贴吧 | 浏览() | 评论 (2)
 
最近读者:
 
网友评论:
1
2007-07-02 10:45 | 回复
'这里用的是正则式 Set objRegExp = New Regexp '建立对象 objRegExp.IgnoreCase = True '大小写忽略 objRegExp.Global = True '全局为真 objRegExp.Pattern = "http://.+?" '匹配字段 set mm=objRegExp.Execute(str) '执行查找,str为输入参数 For Each Match in mm '进入循环 Response.write(Match.Value) '输出url地址 next
 
2
2007-07-02 10:46 | 回复
不行呀?
 
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请点击后输入四位验证码,字母不区分大小写
      

     

©2009 Baidu