我估计百度的图片是随机爬的 图的质量普遍不高 rank不知道是怎么算
我的想法是 爬图就针对某一些比较著名的图像资源网站 比如163的相册 mofile的共享等等
封装关键字到http请求来抓
虽然这样爬的图质量比较高 但是局限性也大 需要对不同的站点封不同的请求,
而且还不一定要让你爬 比如淘宝就把百度封了
谁有兴趣可以继续研究
一.动态规划
参考资料:
刘汝佳《算法艺术与信息学竞赛》《算法导论》
推荐题目:
http://acm.pku.edu.cn/JudgeOnline/problem?id=1141
简单
http://acm.pku.edu.cn/JudgeOnline/problem?id=2288
中等,经典TSP问题
这几天在想 图片索引是怎么回事
爬网页提取一个网页的图片连接这个好办,当提取出这个连接后怎么处理.
想法是这样:
1)如果针对一个网站来爬,默认希望一篇html里的img连接都是指向本站的,而不是其他站点的img,比如163
的象册
假设只有一个IP1是可以用的,
做成这个结构,是为了以后可以扩展.
IP1
img1[1]
img1[2]
IP2
img2[1]
img2[2]
爬取到一定程度 就存到一个文件Img.raw
对Img.raw进行处理,得到一张 IPID-Offset