百度空间
|
百度首页
大风起兮云飞扬
Secur1ty just lik3 a girl. B0th of th3m h4ve s0me h0les. Y0u alw4ys try to f1nd the h0le, but n0t 3very tim3 y0u c4n 3xpl0it it!
主页
博客
相册
|
个人档案
|
好友
查看文章
Python的牢骚
2009-07-01 16:29
最近写一点东西需要解析HTML,本来想以python的强大,简洁的语法应该很好用,结果在解析HTML的时候,尝试了好几个官方的库,都非常的矬,无法满足我的需求。
最后无奈,只好改用JS实现,对于HTML的理解,还是浏览器最方便啊。
看来Python 作为新兴语言,第三方资源的积累还是不如老语言丰富,还有很长的路要走啊。
以后有时间还是自己写个HTML解析的类算了。
类别:象牙塔
|
添加到搜藏
| 浏览(
) |
评论
(18)
最近读者:
网友评论:
1
2009-07-01 17:03 |
回复
有个Java开源Html解析类库
3
2009-07-01 18:14 |
回复
py的很多第三方库不太严谨,还有很多文档之类也不全或过期,需要跟到源代码去看实现,的确挺不爽的
4
2009-07-01 18:22 |
回复
HTMLparser是很不爽,扔几个网页进去就异常了。
5
2009-07-01 18:49 |
回复
自己写正则~ - -
6
2009-07-01 20:15 |
回复
试试Beautifu Soup吧。
http://www.crummy.com/software/BeautifulSoup/
7
2009-07-01 21:16 |
回复
等我闲下来了,就用python重构我的Dolphin,到时候可以一起写几个底层库。
8
2009-07-01 21:38 |
回复
还有编码,有些库根本没考虑清楚像gbk这样的编码问题。
进行html的处理,还得自己写扩展。
另外,我对
Beautifu Soup暂时还没什么好感。
9
2009-07-02 00:56 |
回复
python在中文上非常挫。。。
与之奋斗多年。。哎
10
2009-07-02 00:57 |
回复
忘记 有些库 这三个字了。。
11
2009-07-02 09:42 |
回复
python 在多语言处理上确实是非常矬,编码整对的情况下有时候都会出错。
在开发Planet 2 的时候就遇到这种问题,官方包里都有这么大的bug。
还是不够成熟呀
12
2009-07-02 09:50 |
回复
用正确的语言写正确的程序。
13
2009-07-02 10:48 |
回复
应该这样说,
14
2009-07-02 14:38 |
回复
Beautifu Soup
15
2009-07-02 16:45 |
回复
这方面确实不成熟
16
2009-07-03 13:30 |
回复
Beautiful Soup.
官方库不是万能,还得看第三方库…
17
2009-07-08 14:49 |
回复
发现 Beautiful Soup 底层也是用的HTMLParser,还是存在同样的bug
18
2009-07-08 18:11 |
回复
通过html5lib 解决了,这个库处理不规则的html比较强
http://code.google.com/p/html5lib
19
2009-08-03 16:34 |
回复
试试这个?
µTidylib, the TidyLib Python wrapper
不过我没用过,我只用过tidy 还是不错的
也有个别bug 我都是先用RE对html做patch
发表评论:
姓 名:
*姓名最长为50字节
网址或邮箱:
(选填)
内 容:
验证码:
请点击后输入四位验证码,字母不区分大小写
看不清?
取消回复
©2009 Baidu