百度空间 | 百度首页 
 
文章列表
 
您正在查看 "默认分类" 分类下的文章

2006-10-29 03:57
今天,无法再忍受百度空间,搬家至这里!beyondsearch用户名出了一些问题,因此,更改用户名为clickstone!至于搬家的愿意,前文已经说过!
以后,请大家访问这里 http://my.donews.com/clickstone ,谢谢!
类别:默认分类 | 评论(0) | 浏览()
 
2006-10-27 03:26
百度空间实在令人失望啊!

1、不能保存登录信息,每次更新博客必须重新登录。我自己的电脑,只有我用,每次都这样也太烦了吧!我用的是Firefox。
2、把文章内的一段儿文字设成粗体、斜体或者下划线,然后发布,这之后的所有文字就都变成斜体了。每次都这些,必须再回去重新修改,把后面的斜体取消才行,这个更烦!
3、右侧我想加一个Feedsky的订阅通知,想加一个cc协议的图标,找遍了设置也没有找到,这个最烦!

百度,你这是咋回事儿啊!这么长时间了,都不带测试的啊!
唉~~~,不知道还能忍多久!

类别:默认分类 | 评论(0) | 浏览()
 
2006-10-24 03:55
在Google'的 Q3 2006 earnings call 中,Google CEO Eric Schmidt 用大量篇幅提到了“personalization“,并将”personalization of information”归入了Google的使命,另外,还提到了相关的一些计划。这引起了我的注意!

先对相关内容作简单的摘录:
We believe that people's information and the information they want to receive ... needs to be accessible when and where they want it for them in a very personalized way.

The interesting thing is that this approach to having your information personalized is a benefit not only for the user who can continue to refine and target information ... but also for businesses who want to know they are spending their money in an effective and targeted way.

As we continue to innovate and bring out ... new products, we'll also continue to ... improve the experiences, bringing the most personalized and targeted information to people, which is ultimately our mission.

[We] provide access to the world's information ... [and] organize it in a very personalized and targeted way. That benefit drives the entire cycle of Google, and it's fundamental.
联想到日前备受瞩目的“Kiko拍卖”事件,不得不让人担心,正在围绕“Personalized”展开业务的那些轻量级创业公司,他们的前景究竟如何?

Paul Graham 是Kiko的投资者之一。当Kiko刚开始在eBey上进行拍卖的时候,他曾经表示,Google Calendar的发布以及同GMail的完美结合,是导致Kiko失败的主要原因之一。他建议,新兴的创业公司应当从Kiko身上吸取教训,远离Google的前进道路。那么,现在,当Google准备进军“Personalized”的时候,对于相关的这些公司,应该如何是好呢?

我个人倒是认为,在“Personalized”方面,Google一定不会是通吃的赢家!在《垂直搜索 or 个性化推荐》一文中,我也曾经提到,可以引入个性化技术的应用数不胜数,而且也不存在普遍适用的推荐算法,Google不可能也没有能力将其业务覆盖到所有这些方面。因此,只要选准一个方向,研究出最合适的推荐方法,那么,领先Google绝对是有可能的!

其实,就我个人来看,Google最擅长的,应该是开发Google员工在工作中使用的产品或服务。搜索自然不用讲了,其他的,例如,GMail,Google Calander,Google Reader,这些领域相关的服务商,我想基本上没有什么太多的机会了。但是其他的,例如,Youtube之于Google视频,Findory之于Google News,我认为前者的胜算可能就比Google大。这是因为,Google员工应该很少会在工作中观看视频或者浏览新闻。况且,Google已经完完全全地发展成为一个庞然大物型的公司,而这正是Google为数不多的弱点之一。因为通常情况下,随着公司规模的扩大,官僚主义作风也会随之加重,这会导致其比较难接受新奇的事物。

因此,致力于“Personalized”的轻量级创业公司,我的结论是:选好方向,发挥创意,放心大胆地冲吧!

类别:默认分类 | 评论(0) | 浏览()
 
2006-10-23 02:57
今天,看了一下《Personalied Content 国外市场纵览》里面提到的几个网站,给我印象比较深的是Reddit.comFindory.com

Reddit的UI设计,是典型的外国式的Web2.0网站的界面形式:简洁的页面,极少的图片,快速的打开。我个人非常喜欢这样的UI设计,国内的douban也是这样的UI。他和douban还有另外一个很像的地方,都是使用Python开发,都在持续release新的features。Reddit最开始使用Lisp语言开发,后来转而使用Python。这还在Reddit和Lisp社区内引起不少的争议。有人就发起号召:“用Lisp写一个更好的Reddit!”。

Reddit由一个四个人的团队维护,2个维吉尼亚的,一个harvard的,1个Stanford中途退学的(看来传说中退学的高人又要多一个了)。乍一看,Reddit和digg很像,但不同的是,他们采用的应该是完全不同的算法。digg使用的是聚类的方法,他的用户分成group,然后计算group内用户对文章赋予的digg值,把最popular的内容放到该group的顶端。digg其实有一个根本的问题:按照digg数得到的popular列表,并不一定是你感兴趣的,除非你的兴趣和整个group用户的兴趣一致。Reddit不一样,他的目标是实现personalized。我个人初步使用了一下Reddit,发现其实还是存在一些不足的。而且,网上也有其他人在抱怨,Reddit的推荐不准确。但我必须说,personalized涉及的算法是比较复杂的,想要一下子达到一个好的效果是非常困难的。据猜测,Reddit使用的是“基于内容的推荐”。通过从文章内抽取关键字,得到和这些关键字相关的推荐。从Reddit团队的blog中可以看到,他们非常谦虚,而且还在持续进行改进。

Findory给我的感觉要比Reddit好!据说他是历史最悠久的个性化内容服务站点。他对用户的隐私保护,给我留下相当深刻的印象。你可以不进行任何的注册,就可以享受到具有一定personalized程度的内容。当你在Findory中点击自己喜欢的文章的时候,Findory就会在后台学习你的阅读习惯,之后,Findory就会把他计算出来的推荐结果呈献给你。你阅读的文章越多,Findory对你的阅读习惯的学习越全面,就可能为你推荐越准确的内容。Findory的创办人Greg Linden,是Personalized content方面的资深评论人,并且是Amazon商品推荐引擎与个性化界面的主导开发者。Findory系出名家之手,因此推荐效果自然不一搬。

我把我的RSS提交到Findory的“Favorites”里面,在首页中马上就可以看到带有“”图标的推荐内容,而且我看来还比较准确!暂时不能肯定Findory采用的是哪种算法。但通过他的技术说明,我猜可能使用的是“协同过滤推荐”,或者是“协同过滤与基于内容相结合的推荐”。据说,Findory已经实现正向现金流。

附:在《推荐系统:主要推荐方法》一问中,对“基于内容的推荐”和“协同过滤推荐”有简要的介绍。

类别:默认分类 | 评论(0) | 浏览()
 
2006-10-21 04:48
今天下午,在Read/Write Web上看到了一篇文章,《Personalized News: A Market Overview》。顾名思义,文中介绍了国外专注于Personalized Content的公司,自然,多半是轻量级的公司。内容我不多说了,因为其中提到的网站,我还没有太多的亲身体验,等进行对比分析之后,希望可以完成一篇综述性的文章。有兴趣的是conclusion的部分,该文作者预测,personalized content将在两年内流行起来——这绝对是个好消息!按照以往经验来看,一项新应用在国外流行起来之后,到被国内媒体关注,或者被某些圈内牛人引入,再到被大众接受,也通常需要2年左右的时间。也就是说,大概4年的时间,personalized content会在国内热起来。

对国内的尊重技术的轻量级公司来说,这应该是一个机会!从技术上来讲,“a lot of smart developers think that personalized content is a huge challenge”。因此,这不是一个可以被快速复制的应用。以国内的互联网环境来看,这也是为数不多的适合于国内轻量级公司操作的项目之一。真是羡慕国外的这些轻量级公司的创业者,可以以自己的技术,实现自己的梦想。国内不知道什么时候,才能真正的尊重技术创新,而不再仅仅是满口的所谓的流量。

令人兴奋的是,国内已经有personalized content的先行者。如果把豆瓣算在personalized content的行列,那他绝对是绝对的老大。另外,还有feelor.com的龙志雄,他做的是资讯信息的personalized,以话题聚类的方式实现。不久,可能我也能算其中的一个吧,哈哈。今天和龙志雄在msn上聊了聊,最大印象,他是一个信赖技术的人,而且勇于行动,感觉不错(自己也是一个信赖技术的人^_^)。

另外一个值得注意的,在龙志雄的飞鸟博客上,看到了这篇文章,《google adsense 账号被停用》。不知道具体的情况,我不好妄加评论,但希望“不作恶”的google能以自己的名誉为重。

类别:默认分类 | 评论(1) | 浏览()
 
2006-10-13 22:42

最近在作一个搜索引擎相关的项目,不说大家也清楚肯定是基于Lucene进行开发的,站在前人的肩膀上啊,呵呵!熟悉Lucene的人都知道,Lucene中并没有很好的中文分词实现,本人目前已经完成了中文分词部分的功能,初步测试效果还不错。围绕中文分词的讨论已经不少了,但通过这次实际的开发,本人确实还是有了一些自己的体会,本打算就这方面写一篇博文,没想到今天突然发现,自己的合作伙伴已经写了一篇,细读了一下,感觉自己想要说的,他都提到了,因此,转载了过来。

以下为转载内容,《小议分词》,勇者之心http://leaphy.cnblogs.com/archive/2006/07/06/Segment.html

---------------------------------------------

全文信息检索系统中,创建倒排索引时应当使用什么分词方式一直是众说纷纭,毫无定论。

具我所知,已有某某 paper “研究指出”采用二元切分的方式构建索引是“最好的”;也看到过园子里的一位兄弟认为单字切分最准确(sorry,忘记具体出处);当然,将某个基于词典或者共现频率的中文分词组件包装一下加入自己的项目中也是非常流行的做法。

既然存在这么多的看法与做法,难免会让人生出一较高下或者明辨真伪的决心;

不过作为一个成熟而又理智的热血青年,偶认为这种决心并无必要,原因在于信息检索系统的评价标准是多样化的——召回率、准确率与查询效率三个指标相互矛盾,只有取舍、不能调和;人们关心的指标不尽相同自然会提出不同的观点、奉行不同的做法。假设你在做一个Web搜索引擎,首先要保证的一定是查询效率,因为它所要处理的海量数据与并发请求是一种天然的障碍;其次,在召回率与准确率中你会更倾向于后者,因为最终用户与Web搜索引擎的关系恰如负心男人与痴情女人的关系——用户希望尽快得到最满意的结果,并在下一个瞬间把你抛弃,直到他们再次需要你为止(当然,如果你提供了代号为 Good Morni 的竞价排名服务,为了不致客户投诉,最好还是关心一下召回率。所以说,广大小白和一小撮VIP之间的利益冲突是深刻、长远以及不可调和的。。。);同时,对于一个传统的图书信息检索系统,情况会大不相同——书籍与文章有良好的关键字索引,包括标题、作者、摘要、正文、收录时间等定义明确的结构化数据,文档集合相对稳定并且规模相对较小——这一切都使你的决策更倾向于提高系统的召回率,原因很简单,你有这么做的可能性或者说是先天优势。

既然我们已经明确评价信息检索系统的指标是多元化的,现在让我们来看看不同的索引分词策略到底如何影响这些指标。

首先让我们来比较两个对立的策略,单字切分 vs 中文分词:

单字切分的支持者们最强有力的证据大概如下:
“世界杯”是一个词,用单字切分的话,查“世界”也可以命中这篇文档,而用中文分词就查不到了;
而中文分词的支持者们的反驳大概是:
“参加过世界杯”,用单字切分的话,查“过世”也可以命中这篇文档,但事实上并没有人挂掉;

通过以上陈述我们可以观察得到这样的结论,采用单字切分会提高系统的召回率,而降低准确率;而中文分词则恰恰相反,它提高了准确率,并降低的召回率,并且分词的颗粒越粗糙(平均词长越长)这种趋势就越明显。

这个结论似乎有助于理解为什么 google、百度等等这些理论上更需要高准确率的Web搜索引擎都采用了中文分词技术。但是如果我们的认识仅停留在这种水平就未免显得过于肤浅:事实情况是,需要高吞吐量的Web搜索引擎在处理中文内容时必须采用中文分词技术。

让我们把倒排索引想象成一张表,其中每一行都有一个TermText以及所有包含该TermText的文档编号列表。这样在我们查询某个关键字时,可以一次性获得所有包含该关键字的文档,而不用在原始文档集合中逐一查找。 而采用不同的分词策略创建索引,事实上既是将文档编号集合以不同的程度打散到索引中不同的行。单字切分可以说是打散程度最低的一种方式,行数仅等于汉字数目,而整个倒排索引表会非常的“宽”;相反,颗粒较粗的中文分词将文档编号集合分配到更多的不同行,使得倒排索引表的宽度变小。并且随着分词粒度的增加宽度会逐渐减小,最极端的情况就是将每一篇文档看作一个“词”,此时倒排索引表的宽度处处等于1。

基于以上讨论,我们看出以下两点:
一、在文档集合数量非常庞大时,系统的吞吐量会受到存储倒排索引文件的磁盘的性能限制,因此,采用中文分词,缩短倒排索引表的宽度将有助于提高系统的吞吐量。
二、无论使用布尔查询或者是基于位置信息的查询(如 Lucene 中的 PhraseQuery)单字切分的单词查询性能不会好于中文分词。

这样看来,在Web搜索引擎中使用中文分词就不是一件难以理解的事情了;同样,在文档规模较小时,使用单字切分的策略也不会有什么重大问题。

至于二元切分,在偶看来,这种方法试图以一种战场外科手术的粗犷气质实现中庸之道的思想,单字切分与中文分词之间形成了一种在某些方面不尽人意的折中(歧义、无意义的二元组等)。在实现上它更接近单字切分,而非中文分词。按照偶滴设想,如果实现一种对标准意义的中文分词策略的改进,使其能够在一定程度上缓解中文分词降低召回率的问题,也许会成为一种在各方面都更加平衡的解决方案。

---------------------------------------------

因为本次做的是一个商业项目,因此不能公布源代码以及相关的技术文档。但稍后会放出本人实现的中文分词算法所依据的一篇论文,并就其中的一些问题进行讨论。有兴趣的朋友欢迎讨论,wendell.gu@gmail.com

 

类别:默认分类 | 评论(0) | 浏览()
 
2006-10-13 22:33

google和百度的火热,把人们的眼球都吸引到了“搜索”上面。现在大家都很清楚,做通用搜索,有这样的两座摩天大山在前面,要超越的可能性是微乎其微了,真正即使想要生存,都非常困难。搜索这东西,一旦做好了有很强的排他性。比方说我,如果只想查中文的内容,我会“百度一下”;如果中英文的都要,那我就google it!其他的搜索引擎,我基本上不会去用了。对用户来说,这样用着习惯。但对互联网的从业者来说,这就是悲哀,因为眼看着这么大张香喷喷的肉饼,自己除了闻闻味儿,却很难咬上一口。

于是,“垂直搜索”的概念产生了!垂直搜索,关注的是某一个行业或某一类搜索对象。比如博客搜索、购物搜索、租房搜索、职位搜索等等。既然通用的咱们没戏了,我可以找一个方向深入挖掘,争取能在内容上和质量上超越通用搜索,从而进入搜索市场。乍一看,这个思路是可行的!但仔细分析一下,问题还是不少。“垂直”是对的。垂直使得用户的目的性增强。比如,在百度上我搜“软件开发”,百度不可能知道我究竟想要什么,它会猜:他想要软件开发的相关知识网页,或者他想要软件开发方面的书籍页面,或者他想找软件开发的职位……算了,反正我猜不出来,我把结果都给他得了。这样,你得到了一大堆的搜索结果。但其实呢,我想要搜的是软件开发方面的职位。如果有一个这样的垂直搜索网站,比如http://www.globehr.com/,我输入“软件开发”,那它一下子就可以知道,我要找的是“软件开发”相关的职位,目的明确了,自然搜索的结果就有效的多了!对于“垂直”来说,“搜索”是一个好的切入点,既吸引眼球,又能满足用户的实际需要,但是,我们得弄明白,不应该把搜索定成垂直的终极目标。就目前的互联网情况来看,它仅仅就是一个好的切入点,而已。如果你的目标是做一个垂直搜索引擎,那么有一天,百度在他的搜索框的上面、MP3的旁边,加上两个字:“职位”!你就歇了,你得面对一个如此强大的对手,无论是资本、技术还是人员,你觉得这样的机会大吗?

个人以为,“垂直”的关键,在于“深入”,而不是“搜索”!你得把服务做扎实了,用“搜索”来吸引用户,而目标应该是帮助用户尽少的使用搜索,即使要搜,也得帮助用户最准确地完成搜索。还拿职位搜索来说,我进入一个职位“垂直”网站A,我的目标显然就是寻找一个合适的职位。搜索是目前实现这个目标的一个方法,我输入“软件开发”,网站返回来搜索结果,告诉我现在有哪些相关的职位,我一个一个的点击查看,判断自己和该职位是否合适,合适的发送简历,不合适的关闭网页。周而复始,长此以往,你感觉如何?如果我进入了另外一个职位“垂直”网站B,我刚想输入“软件开发”进行搜索,突然,网站告诉我,有10个和“软件开发”相关的职位,有两个“软件开发”的培训,你看看合不合适你。你的感觉又如何!人家都给我准备好了,那我还搜什么啊!这其实也是搜,但是网站自动搜的,而不需要用户再手动完成。术语管这种技术叫做“个性化推荐”。

点击百度MP3旁边的那个“职位”标签,当然也可能产生这样的效果。但是,百度会做吗?毕竟,百度更专注于通用,这个市场更大,用户也更多,现在的通用搜索还有太多的难关需要去攻克,而可以“垂直”的又这么多,百度不可能把每一个“垂直”都做深入。如果你花时间研究一下“个性化推荐”,你会发现要实现它,你得分析用户的喜好,你得查找用户的邻居用户,你得给搜索对象打分……搞搜索引擎,搜索结果质量不高,你可以把责任推给用户,告诉他你输入的关键字不好;但做个性化推荐,你只能把最合适的结果推荐给用户,一个错误的推荐还不如不推荐!要做好它,难度着实不小!

但是,技术上有难度,领先的厂商又无力顾及,不恰恰是一个很好的机会吗?

 

类别:默认分类 | 评论(1) | 浏览()
 
     
 
 
文章分类
 
     
 
文章存档
 
 
     
 
最新文章评论
   
 

我觉得www.hengzhe.com
蛮好的..
 
 
     


©2009 Baidu