您正在查看 "Webharvest" 分类下的文章
2008-01-21 17:29
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_k/2/10_%e8%83%a1%e5%90%8c%e6%af%94%e8%90%a8</template>
</var-def>
<script><![CDATA[
String strReplace(str)
{
|
2008-01-18 14:18
对于采集数据的一个总结:
这两天。有我来负责写采集数据的xml。在这个过程中遇到了很多问题。包括不规则情况下如何定位的问题
在webharvest的专栏下有很多的 代码。我相信对大家会有一个帮助的。
对于点评网上饮食的部分。在“北京”“上海”两个城市出现了很多次的错误。曾不止一次的发牢骚,因为
同样的一个代码在其他城市运行没有问题。但是我忽略了一点北京多了一个标签,例如vip会员。就是这样
一个细节上的错误,让我改了三天的时间。不仅感叹作为一名程序员,细 |
2008-01-18 09:56
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_m/4/10_p51</template>
</var-def>
<script><![CDATA[
String getKeys(str) {
|
2008-01-16 09:39
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_m/10/10_</template>
</var-def>
<script><![CDATA[
String getKeys(str) {
|
2008-01-15 17:46
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_m/10/10_</template>
</var-def>
<script><![CDATA[
String getKeys(str) {
|
2008-01-15 17:38
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_m/10/10_</template>
</var-def>
<script><![CDATA[
String getKeys(str) {
|
2008-01-09 11:17
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_m/10/30_</template>
</var-def>
<script><![CDATA[
String getKeys(str) {
|
2008-01-08 16:51
点评网----休闲文娱----数据
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_m/10/30_</template>
</var-def>
<script><![CDATA[
/*得到地址*/
String getKe |
2008-01-08 16:44
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_m/10/30_</template>
</var-def>
<script><![CDATA[
/*得到地址*/
String getKeys(str) {
|
2008-01-08 15:28
这是一个改进对
<div class="ShopContent">
<b>地址:</b> 天津和平区气象台路98号增1号家世界A108座<br />
<b>电话:</b> 022-23550677<br />
<b>标签:</b> 美发 美容
</div>
情况(xpath ,js,shell)。
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<incl |
2007-11-22 16:55
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_m/10/10_</template>
</var-def>
<var-def name="infoLinks">
<call name="download-multipage-list">
<call-param name="pageUrl |
2007-11-22 14:18
<?xml version="1.0" encoding="UTF-8"?>
<cfconfig charset="utf-8">
<include path="functions.xml"/>
<var-def name="url">
<template>http://www.dianping.com/search_m/10/10_</template>
</var-def>
<var-def name="infoLinks">
<call name="download-multipage-list">
<call-param name="pageUrl |
|
|