查看文章 |
****************************************************************************************************** 程序包:parker-2003.8.20-by-leo.tar.gz ****************************************************************************************************** Parker是一个Linux下ftp搜索引擎服务程序包,原来由Jiri A. Randus所写,后经国内高手多次改进,这个版本是在西安交大的汉化版上经过大量修改得到的。由于目前教育网内FTP还非常的实用,而收集和寻找各个FTP是非常需 要的,希望这个软件包能够给需要的朋友带来一些方便。下载网址: http://sourceforge.net/projects/parker ****************************************************************************************************** 安 装 指 南 ****************************************************************************************************** 1 建议把变动的数据放在/var下。 以root登陆, 解开文件包(如果已经解开,可以拷贝过去) [root@linux /]$ cd /var [root@linux /var]$ tar vxzf parker-200x-x-xx.tar.gz
#mkdir /var/www/cgi-bin/parker #cp /var/parker/html/Parker /var/www/html/Parker -r
2 设定各个文件的读写权限 chown nobody.nobody /var/parker -R chmod 770 /var/parker -R nobody是cgi的执行用户.
3 修改源程序文件路径:修改文件src/Makefile、bin/makestat、bin/flashdata 文件src/Makefile: PARKER_HOME=/var/parker (安装目录) CGI_HOME=/var/www/cgi-bin/parker (cgi目录) 文件bin/makestat: PARKERDIR=/var/parker (安装目录) 文件bin/flashdata: /var/parker/bin/collect /var/parker/bin/makestat 4 根据喜好修改cgi输出界面 src/cgi* 根据需要修改,主要修改页面的输出外观,主要输出函数是 370 PutHeaders(void) 386 Search(void) 494 void PutEnd(void) 还有显示定义文件 src/language.h 5 重新编译代码 #cd src #make #make install
6 配置crontab,以便定时自动更新数据 crontab -u parker –e (回车) 1 1 * * * /var/parker/bin/flashdata % (这里是每天更新,输入以上内容保存退出!)
7 编辑站点列表文件 /var/parker/etc/CollectList
8 执行搜集数据的命令: [root@linux /var/parker/bin]$ ./flashdata &
9 测试搜索引擎 html是我提供的页面例子. http://localhost/Parker/index.html 10 注意事项(GUOF) 10.1 注意文件的读写权限和所有权。parker/log下的所有文件都要设置为 [root@linux /var/parker]# chmod 777 log –R 10.2 注意防火墙的设置!iptables的配置不当将阻挡对外部FTP的检索 10.3 注意parker/bin下的脚步(makestat和flashdata)中的目录信息!都修改为 makestat:PARKERDIR= /var/parker (安装目录) flashdata: /var/parker/bin/collect /var/parker/bin/makestat
*************************************************************** * 下面是各个文件和目录的作用和安排: *************************************************************** bin/: collect [-l|-r|-d] [ftp site] 搜集ftp站点数据用的, ftp站点定义在 etc/CollectList 数据压缩后放在放在LZOData下. 临时工作目录在 tmp/, 站点的统计数据放在 Statist/下 参数使用如下: -l 使用LIST -lR命令列出服务区上的目录; -d 通过下载类似于 ls-lR.tgz的文件来获得目录。(有的服务器上会定时 建立这样的文件。 -r 自动进入各个子目录得到整个目录的列表。 默认的调用顺序是 -l,-d,-r 搜索etc/CollectList中的ftp站点
flashdata 更新数据的调度文件.调用collect和makestat
convertmask 把从http://www.nic.edu.cn/RS/ipstat/internalip/ 取得的教育网免费IP定义列表更新到$parker/HostData/Edu.mask 要求输入文件格式如下: host subnet netmask 如 202.119.32.0 0.0.31.255 255.255.224.0 使用方法:设拷贝下来的文件为list.txt, 执行convertmask list.txt
flashlist 一段时间后,把很大的$parker/etc/onworkhost一些无法联结的 IP去掉, 备份文件在$parker/etc/backlist
listfilter 把搜集到的ftp站点列表转成onworkhost
getdnsname <ip> 返回ip的DNS名字. 没有的话,返回空行.
makestat 对ftp站点上的各种文件进行统计排序, 供Statist使用,可以分析不同站点对不同文件的偏好。
lzo_comp 把目录数据用LZO算法进行压缩的程序. 读取的部分由search直接进行。
|