百度空间 | 百度首页 
 
查看文章
 
查看poj上做题数量的脚本
2009-05-14 01:48

#!/usr/bin/python
import urllib
import re

def getss(id):
    urlbase = 'http://acm.pku.edu.cn/JudgeOnline/userstatus?user_id='
    url = urlbase + id
    html = urllib.urlopen(url)
    rs = re.search(r'<td align=center width=25%><a href=status\?result=0&user_id=.*>(\d+)</a></td>', html.read())
    if rs:
        print id + " : " + rs.group(1)
    else:
        print "查无此人!"
    html.close()

if __name__ == '__main__':
    ids = ['test', 'linux', 'abc']
    for id in ids:
        getss(id)

一开始的想法是去解析html文件,看来简单的用RegExp就能解决了,但是若是服务器有一点的改变(比喻在<td align=center width=25%><a href=status\?result=0&user_id=.*>(\d+)</a></td>中加入一个空格)就会匹配失败.
    
   


类别:Python | 添加到搜藏 | 浏览() | 评论 (1)
 
最近读者:
 
网友评论:
1
2009-10-13 13:38 | 回复
怕加空格匹配失败就匹配0-多个空格呗
 
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请点击后输入四位验证码,字母不区分大小写
      

     

©2009 Baidu