百度空间 | 百度首页 
 
查看文章
 
Python的牢骚
2009-07-01 16:29
最近写一点东西需要解析HTML,本来想以python的强大,简洁的语法应该很好用,结果在解析HTML的时候,尝试了好几个官方的库,都非常的矬,无法满足我的需求。



最后无奈,只好改用JS实现,对于HTML的理解,还是浏览器最方便啊。

看来Python 作为新兴语言,第三方资源的积累还是不如老语言丰富,还有很长的路要走啊。

以后有时间还是自己写个HTML解析的类算了。

类别:象牙塔 | 添加到搜藏 | 浏览() | 评论 (18)
 
最近读者:
 
网友评论:
1
2009-07-01 17:03 | 回复
有个Java开源Html解析类库
 
3
2009-07-01 18:14 | 回复
py的很多第三方库不太严谨,还有很多文档之类也不全或过期,需要跟到源代码去看实现,的确挺不爽的
 
4
2009-07-01 18:22 | 回复
HTMLparser是很不爽,扔几个网页进去就异常了。
 
5
2009-07-01 18:49 | 回复
自己写正则~ - -
 
6
2009-07-01 20:15 | 回复
试试Beautifu Soup吧。
http://www.crummy.com/software/BeautifulSoup/
 
7
2009-07-01 21:16 | 回复
等我闲下来了,就用python重构我的Dolphin,到时候可以一起写几个底层库。
 
8
2009-07-01 21:38 | 回复
还有编码,有些库根本没考虑清楚像gbk这样的编码问题。
进行html的处理,还得自己写扩展。
另外,我对Beautifu Soup暂时还没什么好感。
 
9
2009-07-02 00:56 | 回复
python在中文上非常挫。。。
与之奋斗多年。。哎
 
10
2009-07-02 00:57 | 回复
忘记 有些库 这三个字了。。
 
11
2009-07-02 09:42 | 回复
python 在多语言处理上确实是非常矬,编码整对的情况下有时候都会出错。

在开发Planet 2 的时候就遇到这种问题,官方包里都有这么大的bug。

还是不够成熟呀
 
12
2009-07-02 09:50 | 回复
用正确的语言写正确的程序。
 
13
2009-07-02 10:48 | 回复
应该这样说,
 
14
2009-07-02 14:38 | 回复
Beautifu Soup
 
15
2009-07-02 16:45 | 回复
这方面确实不成熟
 
16
2009-07-03 13:30 | 回复
Beautiful Soup.

官方库不是万能,还得看第三方库…
 
17
2009-07-08 14:49 | 回复
发现 Beautiful Soup 底层也是用的HTMLParser,还是存在同样的bug
 
18
2009-07-08 18:11 | 回复
通过html5lib 解决了,这个库处理不规则的html比较强

http://code.google.com/p/html5lib
 
19
2009-08-03 16:34 | 回复
试试这个?
µTidylib, the TidyLib Python wrapper
不过我没用过,我只用过tidy 还是不错的
也有个别bug 我都是先用RE对html做patch
 
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请点击后输入四位验证码,字母不区分大小写
      

     

©2009 Baidu