1、新人肉搜索
我曾经和周鸿祎及李彦宏比较形象地描述该产品为:新人肉搜索。
2、搜索引擎的瓶颈
当我们在百度输入“清洁工 郑州”,多数可能是想找清洁工或清洁工的职位信息,但是我们找到的是:
“郑州清洁工停*市场五天 管理员称与己无关(图)_网易新闻中心” 等之类的结果。
搜索结果的不精准性,是搜索引擎的瓶颈。
机器人的工作效率虽然强,但机器毕竟无法了解人们说什么、想什么、要什么,因此无法给出人们真正想要的结果。
那么:如何解决这个瓶颈?其实方法很简单,就是让人参与进来,让人们说出自己的心声!
我举个例子,当前1000个人为了查找“哈尔滨 公务员考试”,翻了几十页(我翻前十页根本没找到我满意的)、或者是通过其他途径,发现最佳的网站其实是哈尔滨人事局
http://www.hrbrsj.gov.cn/,其中有450人把这个结果给予最高的评分,那么,以后别人再找的时候,就直接将这个最佳的结果推送给用户,这前1000个找这个关键词结果的人“积下的德”为1000后的人省去了很多时间。
同时,假设这个网站发生了变化,已经不再是最佳结果,那么后面的用户可以对其差评,逐步将其挖下去。。。
这个模式,事实上是通过海量的人工劳动者,来替代了机器人的高强度的工作效率,同时又融入了人类的智慧,符合人类的自然语义。
3、产品模式:客户端浏览器上加一个评分的button
需要指出的是:
● 这个评分的button只有在“通过搜索列表跳转到搜索结果——终端网页”时才处于激活状态(此时可用),否则就处于非激活状态(不可用)。也即:用户对搜索结果的评价,只有在打开这个被搜索到的网页时才可以进行。
● 搜索列表页,前期可以主要以传统的搜索排序方式进行排序、将第1条或前2条按照用户对搜索结果的评分来筛选。
4、不少人觉得这个东西太简单,甚至有人(周鸿祎当时也这么问)质问:为什么非要通过客户端做,web方式就完全可以实现这个类似dig的功能啊?
4.1 web方式只能在搜索列表页中实现这个功能,终端网页不是搜索引擎厂商可以控制的,然而用户真正能判别该搜索结果好坏,需要在打开终端页面之后才能确定,因此在搜索列表中加评分系统会给用户的评分带来巨大的成本:谁愿意先买东西、付款,而后再返回超市去到货架上写个评论?
4.2 web方式的评分系统,无法很好地控制作弊行为,导致搜索结果的作弊可能大大增大。
传统的控制作弊的方式主要是靠cookie或ip,这两种方法通过清空cookie和修改IP是仍然可以实现作弊的。但是通过客户端软件,可以监控到用户机器的硬件(如网卡或CPU),通过硬件识别来严格控制作弊行为,除非你钱太多,为了多作弊一次就多买一台电脑。
4.3 将评分系统呈现在web页面上,完全改变了传统的搜索页面的样式,这将使得用户十分“不适”;同时,在搜索列表页中重复出现的累赘的评分系统,会增加用户的阅读成本和理解成本。(大家有没有在dig网站中呆的时候,看到那一个个的dig觉得很“累”?)
5、维基的力量
维基的力量在于,百万、千万甚至上亿的用户,沟通参与某个“项目”。假设我们一个专职的员工的劳动效率为1,而一个网民的劳动效率为0.01,那么如果有100万用户参与的话,用户所产生的结果就是10000,是我们一个专职员工的10000倍,可见维基的力量是无穷的。
“新人肉搜索”这个概念是我一年半前因几起人肉搜索而突发的一个灵感。人肉搜索,让我看到了网民的巨大力量,也意识到人肉搜索是解决搜索引擎精准性的一个很好的办法。一个小姑娘对着镜头说了一句“很黄很暴力”,结果很快人们就把小姑娘的年龄、家庭住址、学校、甚至是周边同学的名字和父母的工作都了解得一清二楚,我们不得不惊讶于这种力量!
于是我想,如果人们有机会对每一个搜索结果给予一个评分和一个评价的话,等这个网页被评价过10000次以上的话,它一定能够反应出这个关键词和这个网页真正的匹配度——人们真正想要、想说的那个东西。
6、统计学
统计学在国外是比较发达的,统计学可以解决一些受限于传统科学束缚的问题。举例,比如说我们统计了一百万个国家主席,发现这100万个人中和常人所不同的地方都是额头大,那么我们就可以说额头大的人和国家主席有一定的关联。至于为什么,很多时候由于科学的限制我们还无法认识,但统计学可以告诉我们一个结果。
在人类的行为中,存在着共性,比如当人们输入“A片”一词的时候,十之八九是想找色情电影,这是统计的结果,是我们无法分析出来的。
从一定角度来看,分析是不科学的、有局限性的、主观的,而统计是科学的、客观的。很多搜索引擎公司都有专门的语言学家研究人类的语义习惯,其实这根本不能解决问题。
在搜索引擎领域,通过统计用户的评分结果,可以解决搜索引擎中人类语义复杂性的问题。否则靠有限的人去分析无限的关键词,那真是不堪设想……
7、WikiaSearch 的艰难之路
WikiaSearch(维基搜索),是维基百科(Wikipedia)创始人吉米·威尔斯于2008年1月7日推出的搜索服务(其详细功能我刚才才目睹…… 与本篇中我阐述的模式有惊人的相似之处,不过本人在一年半前已经有了详细的模式),这个搜索机制和我在本篇中阐述的周鸿祎提到的在web搜索列表中增加dig的概念是一个概念,其弊端在第四条中已经详细阐述。
8、几个细节
8.1 新的模式需要逐步过度,切忌革命式的改变。
关于“好”与“不好”,我一直坚持:用户习惯的就是好的。就像是多窗口浏览器一样,理论上分析其优点是绝对高于IE的,但事实上现在IE的使用率大约占到所有浏览器的90.49%以上(这个我做过海量的统计),因为多数用户从刚接触电脑的第一天起就已经习惯了IE的“不足”,你现在一下子改掉这么多,用户会十分“不适”。
从心理学的角度来看,人类对“旧”的东西更容易信赖,“旧”的东西更容易给人类安全感,因为“旧”的东西都是人类熟知的,而“新”的东西是未知的,未知旧意味着风险,未知旧意味着潜在的不安全。所以人类潜意识里评价好与坏,总是以“习惯”为标准。
我曾经给很多人举过个例子:马云的老婆很丑,马云不喜欢她,于是她为了取悦马云而在某个深夜偷偷地整容,整成了张曼玉,等到下一个夜里出现在马云的枕边时,一定会把马云吓疯,这时候马云十有八九可能会选择离婚,但如果她妻子是逐渐长漂亮了,逐渐变成了张曼玉,那么马云一定会更加喜欢她。事实上对马云来说,她妻子就是一个产品,而对她妻子来说,马云就是一个用户。
所以,一定要逐步改良,而不是革命式的改变。从传统的搜索过度到本篇阐述的搜索,首先要在样式及排名机制上以传统的方式为主,逐步过度,逐步让用户适应。事实上这样的改良,也解决了前期用户搜索不到结果的问题(解决了一个“鸡和蛋”的问题)。
8.2 如何在客户端浏览器中嵌入这个评分系统并提示用户评分?
爱憎分明是人类的天性,但是如果你不去问,大家就不会说,所以在UE上要下功夫,下面是我做的一个草图仅供参考: 
(上图为输入URL地址或未输入字符时的样式)

(上图为输入非URL地址的字符时的样式,提示用户可以搜索,并可以将搜索快捷键设置为“Ctrl+Enter”)
说明:
● 该IE输入框,集成了URL输入及搜索关键词的输入功能,并分别给出两个button和快捷键(转到URL按“Enter”,搜索按“Ctrl+Enter”)
● 由于改框增加了搜索文本输入的功能,因此加大了高度,这样可以通过视觉空白而减轻输入文本时的视觉压力。
● 在用户未输入可搜索的内容时,“搜索”的button处于非激活状态、不可用。
● 在用户未跳转到搜索结果页之前,“评分”系统不可用。
● 评分系统采用拉杆形式,这样降低了用户的理解使用的成本(不用去想几分代表什么,而是靠感觉去评分),同时还包含有一定的“游戏娱乐”性质,提高了用户的使用频率。
9、这个模式一定会很复杂,本篇所阐述的只是一些皮毛,我举个例子,同样输入“汶川”,有的人是想了解汶川地震相关信息,还有的人是想了解汶川这个地区的基本情况,这个如何来分?(涉及到分类??)
因此,需要大家一起讨论、完善!欢迎继续。。。。