您正在查看 "ftp搜索引擎" 分类下的文章
2009-04-08 12:39
2007-04-06 20:57
欢迎转载,但请注明出处,并给活力链接。谢谢
有表单的网页通常需要跟服务器交互,比如你要把输入的用户名、密码、生日等提交,以便服务器处理。cgi脚本怎样获取用户的输入?
为了传递一个参数给脚本,可以在URL中使用 (?) 插入脚本名词和参数之间。
表单从浏览器发给服务器有两种方法。GET 和 POST。
|
2007-04-04 23:04
欢迎转载,但请注明出处,并给活力链接。谢谢
这一部分首先来介绍一下什么是cgi脚本。
CGI 意思为 Common Gateway Interface, 一种基于浏览器的输入、在Web服务器上运行的程序方法. CGI脚本 使你的浏览器与用户能交互,为了在数据库中寻找一个名词, 提供你写入的评论,或者从一个表单中选择几个条目并且能得到一个明确的回答. 如果你曾经遇到过 |
2007-04-02 20:29
欢迎转载,但请注明出处,并给活力链接。谢谢
在这一部分的最后一节,来介绍一下W-cyclone ftp搜索引擎的“建立倒排索引模块”的代码结构。
该模块的代码包括以下文件:
buildindex.cpp:包含该模块的main函数,首先fork出两个子进程,一个子进程负责按顺序扫描attr文件;另一个子进程负责扫描path文件。等到两个子进程成功退出后,计算各个文件夹的大小。
|
2007-03-29 14:36
热烈祝贺"SoFTP-超高速千万级ftp文件搜索引擎"荣获《2006’第二届中国开源软件竞赛》铜奖 |
2007-03-21 21:53
欢迎转载,但请注明出处,并给活力链接。谢谢
现在该来讲建立倒排索引的具体流程和方法了。有了这一章中前面几节的基础,理解这个就变得非常容易。
在搜集程序运行完以后,我们的目录下各个站点对应了path、attr、info三种文件。
首先,程序扫描所有的站点,并按字母顺序排序,写到一个叫scanedSite的文件中。
然后主进程fork出两个子进程,一个子进程负 |
2007-03-20 21:38
欢迎转载,但请注明出处,并给活力链接。谢谢
mmap函数是unix/linux下的系统调用,来看《Unix Netword programming》卷二12.2节对mmap的介绍:
The mmap function maps either a file or a Posix shared memory object into the address space of a process.We use this function for three purposes:
1. with a regular file to provide memory-mapped I/O
2. with special files to provide anonymous memory mappings |
2007-03-19 22:27
欢迎转载,但请注明出处,并给活力链接。谢谢
上面的一节介绍了Mapping这个类。该类主要有两个作用,一是求出各个文件夹的大小,文件夹的大小定义为它所含有的各个文件的大小和文件夹的大小的总和。二是“快照”功能。关于快照,将放在第四部分介绍。这一节主要介绍怎样求得文件夹的大小。
回顾一下《3.4 信息搜集模块细节》,在那一节中讲述了在attr文件中,如果是文件夹,则大小一项记为-1.如果是 |
2007-03-16 23:16
欢迎转载,但请注明出处,并给活力链接。谢谢
这一节来分析一个Fileinformation结构体数组对应于各个path文件的类。
Fileinformation结构体数组是所有文件的基本信息,path文件包含的是目录和文件信息。通过Fileinformation结构体数组中的siteid、diroffset、fileoffset可以精确的定位到对应的path文件得到对应的路径和文件名。
|
2007-03-15 22:51
欢迎转载,但请注明出处,并给活力链接。谢谢
查找一个字符串时是基于索引里的双子母倒排表的操作,对其进行归并。通过提取两条索引中高24位(对应到Fileinformation结构体数组的索引)相等、低8位(字母在文件名中的偏移)有确定差值的索引项获得结果。
来看下面的例子:
假设我们搜索“ab”,即含有“ab”这个子串的文件名。查 |
|
|