<?xml version="1.0" encoding="gb2312"?>
<rss version="2.0">
<channel>
<title><![CDATA[Beyond Search]]></title>
        <image>
        <title>http://hi.baidu.com</title>
        <link>http://hi.baidu.com</link>
        <url>http://img.baidu.com/img/logo-hi.gif</url>
        </image>
<description><![CDATA[最好走的路越走越难，最难走的路越走越容易！]]></description>
<link>http://hi.baidu.com/wdgu</link>
<language>zh-cn</language>
<generator>www.baidu.com</generator>
<ttl>5</ttl>


<item>
        <title><![CDATA[正式从百度空间搬家到http://my.donews.com/clickstone！]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/eb736159fe31972a2834f012.html]]></link>
        <description><![CDATA[
		
		今天，无法再忍受百度空间，搬家至这里！beyondsearch用户名出了一些问题，因此，更改用户名为clickstone！至于搬家的愿意，前文已经说过！<br />
以后，请大家访问这里 <a href="http://my.donews.com/clickstone" target="_blank" >http://my.donews.com/clickstone</a > ，谢谢！ 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%C4%AC%C8%CF%B7%D6%C0%E0">默认分类</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/eb736159fe31972a2834f012.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-29  03:57</pubDate>
        <category><![CDATA[默认分类]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/eb736159fe31972a2834f012.html</guid>
</item>

<item>
        <title><![CDATA[百度空间咋这样啊？！]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/c7abb31162b1f17eca80c498.html]]></link>
        <description><![CDATA[
		
		<font face="黑体" ><strong ><font size="3" ><font color="#ff0000" >百度空间实在令人失望啊！</font ><br />
</font ></strong ><font size="3" ><br />
</font ></font >1、不能保存登录信息，每次更新博客必须重新登录。我自己的电脑，只有我用，每次都这样也太烦了吧！我用的是Firefox。<br />
2、把文章内的一段儿文字设成粗体、斜体或者下划线，然后发布，这之后的所有文字就都变成斜体了。每次都这些，必须再回去重新修改，把后面的斜体取消才行，这个更烦！<br />
3、右侧我想加一个Feedsky的订阅通知，想加一个cc协议的图标，找遍了设置也没有找到，这个最烦！<br />
<br />
百度，你这是咋回事儿啊！这么长时间了，都不带测试的啊！<br />
唉～～～，不知道还能忍多久！<br />
<strong ><br />
</strong > 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%C4%AC%C8%CF%B7%D6%C0%E0">默认分类</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/c7abb31162b1f17eca80c498.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-27  03:26</pubDate>
        <category><![CDATA[默认分类]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/c7abb31162b1f17eca80c498.html</guid>
</item>

<item>
        <title><![CDATA[Google要来了！那又如何！]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/ed1aac4baa704cf082025cd8.html]]></link>
        <description><![CDATA[
		
		在Google'的 <a target="_blank" href="http://internet.seekingalpha.com/article/18858" >Q3 2006 earnings call</a > 中，Google CEO Eric Schmidt 用大量篇幅提到了&ldquo;personalization&ldquo;，并将&rdquo;personalization of information&rdquo;归入了Google的使命，另外，还提到了相关的一些计划。这引起了我的注意！<br />
<br />
先对相关内容作简单的<a target="_blank" href="http://glinden.blogspot.com/2006/10/eric-schmidt-on-personalized.html" >摘录</a >:<br />
<blockquote > <em >We believe that people's information and the information they want to receive ... needs to be accessible when and where they want it for them in a very personalized way.<br />
<br />
The interesting thing is that this approach to having your information personalized is a benefit not only for the user who can continue to refine and target information ... but also for businesses who want to know they are spending their money in an effective and targeted way.<br />
<br />
As we continue to innovate and bring out ... new products, we'll also continue to ... improve the experiences, bringing the most personalized and targeted information to people, which is ultimately our mission.<br />
<br />
[We] provide access to the world's information ... [and] organize it in a very personalized and targeted way. That benefit drives the entire cycle of Google, and it's fundamental. </em ></blockquote >联想到日前备受瞩目的&ldquo;<a target="_blank" href="http://blogsearch.google.com/blogsearch?q=Kiko+calendar&amp;scoring=d" >Kiko拍卖</a >&rdquo;事件，不得不让人担心，正在围绕&ldquo;Personalized&rdquo;展开业务的那些轻量级创业公司，他们的前景究竟如何？<br />
<br />
<a target="_blank" href="http://paulgraham.infogami.com/blog" >Paul Graham</a > 是Kiko的投资者之一。当Kiko刚开始在eBey上进行拍卖的时候，他<a target="_blank" href="http://paulgraham.infogami.com/blog/kiko" >曾经表示</a >，Google Calendar的发布以及同GMail的完美结合，是导致Kiko失败的主要原因之一。他建议，新兴的创业公司应当从Kiko身上吸取教训，远离Google的前进道路。那么，现在，当Google准备进军&ldquo;Personalized&rdquo;的时候，对于相关的这些公司，应该如何是好呢？<br />
<br />
我个人倒是认为，在&ldquo;Personalized&rdquo;方面，Google一定不会是通吃的赢家！在《<a href="http://hi.baidu.com/wdgu/blog/item/4fa98302dc00930f4afb516c.html" target="_blank" >垂直搜索 or 个性化推荐</a >》一文中，我也曾经提到，可以引入个性化技术的应用数不胜数，而且也不存在普遍适用的推荐算法，Google不可能也没有能力将其业务覆盖到所有这些方面。因此，只要选准一个方向，研究出最合适的推荐方法，那么，领先Google绝对是有可能的！<br />
<br />
其实，就我个人来看，Google最擅长的，应该是开发Google员工在工作中使用的产品或服务。搜索自然不用讲了，其他的，例如，GMail，Google Calander，Google Reader，这些领域相关的服务商，我想基本上没有什么太多的机会了。但是其他的，例如，Youtube之于Google视频，Findory之于Google News，我认为前者的胜算可能就比Google大。这是因为，Google员工应该很少会在工作中观看视频或者浏览新闻。况且，Google已经完完全全地发展成为一个庞然大物型的公司，而这正是Google为数不多的弱点之一。因为通常情况下，随着公司规模的扩大，官僚主义作风也会随之加重，这会导致其比较难接受新奇的事物。<br />
<br />
因此，致力于&ldquo;Personalized&rdquo;的轻量级创业公司，我的结论是：选好方向，发挥创意，放心大胆地冲吧！<br />
<br /> 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%C4%AC%C8%CF%B7%D6%C0%E0">默认分类</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/ed1aac4baa704cf082025cd8.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-24  03:55</pubDate>
        <category><![CDATA[默认分类]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/ed1aac4baa704cf082025cd8.html</guid>
</item>

<item>
        <title><![CDATA[社会新闻网站：Reddit和Findory]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/306a86443173244c510ffe81.html]]></link>
        <description><![CDATA[
		
		今天，看了一下《<a href="http://hi.baidu.com/wdgu/blog/item/f5b314cedc38e939b700c821.html" >Personalied Content 国外市场纵览</a >》里面提到的几个网站，给我印象比较深的是<a href="http://Reddit.com" target="_blank" >Reddit.com</a >和<a href="http://Findory.com" target="_blank" >Findory.com</a >。<br />
<br />
Reddit的UI设计，是典型的外国式的Web2.0网站的界面形式：简洁的页面，极少的图片，快速的打开。我个人非常喜欢这样的UI设计，国内的<a href="http://douban.com" target="_blank" >douban</a >也是这样的UI。他和douban还有另外一个很像的地方，都是使用Python开发，都在持续release新的features。Reddit最开始使用Lisp语言开发，后来转而使用Python。这还在Reddit和Lisp社区内引起不少的争议。有人就发起号召：&ldquo;<a target="_blank" href="http://groups.google.com/group/comp.lang.lisp/browse_frm/thread/f560fdfb211aa8cb/c0159fbbc6496def" >用Lisp写一个更好的Reddit！</a >&rdquo;。<br />
<br />
Reddit由一个<a target="_blank" href="http://reddit.com/help/team_reddit" >四个人的团队</a >维护，2个维吉尼亚的，一个harvard的，1个Stanford中途退学的（看来传说中退学的高人又要多一个了）。乍一看，Reddit和digg很像，但不同的是，他们采用的应该是完全不同的算法。digg使用的是聚类的方法，他的用户分成group，然后计算group内用户对文章赋予的digg值，把最popular的内容放到该group的顶端。digg其实有一个根本的问题：按照digg数得到的popular列表，并不一定是你感兴趣的，除非你的兴趣和整个group用户的兴趣一致。Reddit不一样，他的<a target="_blank" href="http://reddit.com/help/" >目标</a >是实现personalized。我个人初步使用了一下Reddit，发现其实还是存在一些不足的。而且，网上也有其他人在<a target="_blank" href="http://www.dharmesh.com/Blog/tabid/841/articleType/ArticleView/articleId/539/Default.aspx" >抱怨</a >，Reddit的推荐不准确。但我必须说，personalized涉及的算法是比较复杂的，想要一下子达到一个好的效果是非常困难的。据猜测，Reddit使用的是&ldquo;基于内容的推荐&rdquo;。通过从文章内抽取关键字，得到和这些关键字相关的推荐。从<a target="_blank" href="http://reddit.com/blog/" >Reddit团队的blog</a >中可以看到，他们非常谦虚，而且还在持续进行改进。<br />
<br />
Findory给我的感觉要比Reddit好！据说他是历史最悠久的个性化内容服务站点。他对用户的隐私保护，给我留下相当深刻的印象。你可以不进行任何的注册，就可以享受到具有一定personalized程度的内容。当你在Findory中点击自己喜欢的文章的时候，Findory就会在后台学习你的阅读习惯，之后，Findory就会把他计算出来的推荐结果呈献给你。你阅读的文章越多，Findory对你的阅读习惯的学习越全面，就可能为你推荐越准确的内容。Findory的创办人Greg Linden，是Personalized content方面的资深评论人，并且是Amazon商品推荐引擎与个性化界面的主导开发者。Findory系出名家之手，因此推荐效果自然不一搬。<br />
<br />
我把我的RSS提交到Findory的&ldquo;Favorites&rdquo;里面，在首页中马上就可以看到带有&ldquo;<a target="_blank" href="http://findory.com/i/personalized-icon.gif" ><img border="0" class="blogimg" small="1" src="http://findory.com/i/personalized-icon.gif" /></a >&rdquo;图标的推荐内容，而且我看来还比较准确！暂时不能肯定Findory采用的是哪种算法。但通过他的<a target="_blank" href="http://findory.com/help/personalization" >技术说明</a >，我猜可能使用的是&ldquo;协同过滤推荐&rdquo;，或者是&ldquo;协同过滤与基于内容相结合的推荐&rdquo;。据说，Findory已经实现正向现金流。<br />
<br />
<em >附：在《<a href="http://hi.baidu.com/wdgu/blog/item/76c9f703e9c190773912bbc2.html" >推荐系统：主要推荐方法</a >》一问中，对&ldquo;基于内容的推荐&rdquo;和&ldquo;协同过滤推荐&rdquo;有简要的介绍。<br />
<br />
</em > 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%C4%AC%C8%CF%B7%D6%C0%E0">默认分类</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/306a86443173244c510ffe81.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-23  02:57</pubDate>
        <category><![CDATA[默认分类]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/306a86443173244c510ffe81.html</guid>
</item>

<item>
        <title><![CDATA[每日一贴：数学之美系列五 -- 简单之美：布尔代数和搜索引擎的索引]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/2d86a8ec339b5d2762d09f86.html]]></link>
        <description><![CDATA[
		
		<p ><em >转载自：google黑板报，<a href="http://googlechinablog.com/2006/05/blog-post_10.html" target="_blank" >http://googlechinablog.com/2006/05/blog-post_10.html</a >。</em ></p >
<p ><em >发表者: 吴军, Google 研究员</em ><br />
</p >
<p >建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。我们在介绍 <a href="http://googlechinablog.com/2006/02/page-rank-google.html" target="_blank" >Google Page Rank</a > (网页排名) 时已经谈到了一些排序的问题，这里我们谈谈索引问题，以后我们还会谈如何度量网页的相关性，和进行网页自动下载。］<br />
</p >
世界上不可能有比二进制更简单的计数方法了，也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化，其实从根本上讲都没有逃出布尔运算的框框。<br />
<br />
<a href="http://searchwhatis.techtarget.com.cn/searchwhatis/402/1946902.shtml" target="_blank" >布尔</a >（George Boole) 是十九世纪英国一位小学数学老师。他生前没有人认为他是数学家。布尔在工作之余，喜欢阅读数学论著、思考数学问题。1854 年&ldquo;<a href="http://www.nxipo.gov.cn/file/page_5.jsp?code=000400000600004" target="_blank" >思维规律</a >&rdquo; （An Investigation of the Laws of Thought, on which are founded the Mathematical Theories of Logic and Probabilities）一书，第一次向人们展示了如何用数学的方法解决逻辑问题。<br />
<br />
布尔代数简单得不能再简单了。运算的元素只有两个1 （TRUE， 真) 和 0<br />
（FALSE，假)。基本的运算只有&ldquo;与&rdquo;（AND)、&ldquo;或&rdquo; (OR) 和&ldquo;非&rdquo;（NOT) 三种（后来发现，这三种运算都可以转换成&ldquo;与&rdquo;&ldquo;非&rdquo; ＡＮＤ－ＮＯＴ一种运算）。全部运算只用下列几张真值表就能完全地描述清楚。<br />
<br />
AND |  1   0<br />
-----------------------<br />
1      |  1   0<br />
0      |  0   0<br />
这张表说明如果 AND 运算的两个元素有一个是 0，则运算结果总是 0。如果两个元素都是 1，运算结果是 1。例如，&ldquo;太阳从西边升起&rdquo;这个判断是假的(0),&ldquo;水可以流动&rdquo;这个判断是真的（1），那么，&ldquo;太阳从西边升起并且水可以流动&rdquo;就是假的（0）。<br />
<br />
OR   |  1   0<br />
-----------------------<br />
1      |  1   1<br />
0      |  1   0<br />
这张表说明如果OR运算的两个元素有一个是 1，则运算结果总是 1。如果两个元素都是 0，运算结果是 0。比如说，&ldquo;张三是比赛第一名&rdquo;这个结论是假的（0），&ldquo;李四是比赛第一名&rdquo;是真的（1），那么&ldquo;张三或者李四是第一名&rdquo;就是真的（1）。<br />
<br />
NOT |<br />
--------------<br />
1      |  0<br />
0      |  1<br />
这张表说明 NOT 运算把 1 变成 0，把 0 变成 1。比如，如果&ldquo;象牙是白的&rdquo;是真的（1），那么&ldquo;象牙不是白的&rdquo;必定是假的（0）。<br />
<br />
读 者也许会问这么简单的理论能解决什么实际问题。布尔同时代的数学家们也有同样的问题。事实上在布尔代数提出后80 多年里，它确实没有什么像样的应用，直到 1938 年香农在他的硕士论文中指出用布尔代数来实现开关电路，才使得布尔代数成为数字电路的基础。所有的数学和逻辑运算，加、减、乘、除、乘方、开方等等，全部 能转换成二值的布尔运算。<br />
<br />
现在我们看看文献检索和布尔运算的关系。对于一个用户输入的关键词，搜索引擎要判断每篇文献是否含有这个关键 词，如果一篇文献含有它，我们相应地给这篇文献一个逻辑值 -- 真（TRUE,或 1），否则，给一个逻辑值 -- 假（FALSE, 或0）。比如我们要找有关原子能应用的文献，但并不想知道如何造原子弹。我们可以这样写一个查询语句&ldquo;原子能 AND 应用 AND (NOT 原子弹)&rdquo;，表示符合要求的文献必须同时满足三个条件：<br />
- 包含原子能<br />
- 包含应用<br />
- 不包含原子弹<br />
一篇文献对于上面每一个条件，都有一个 True 或者 False 的答案，根据上述真值表就能算出每篇文献是否是要找的。<br />
<br />
早期的文献检索查询系统大多基于数据库，严格要求查询语句符合布尔运算。今天的搜索引擎相比之下要聪明的多，它自动把用户的查询语句转换成布尔运算的算式。当然在查询时，不能将每篇文献扫描一遍，来看看它是否满足上面三个条件，因此需要建立一个索引。<br />
<br />
最 简单索引的结构是用一个很长的二进制数表示一个关键字是否出现在每篇文献中。有多少篇文献，就有多少位数，每一位对应一篇文献，1 代表相应的文献有这个关键字，0 代表没有。比如关键字&ldquo;原子能&rdquo;对应的二进制数是0100100001100001...，表示第二、第五、第九、第十、第十六篇文献包含着个关键字。注 意，这个二进制数非常之长。同样，我们假定&ldquo;应用&rdquo;对应的二进制数是 0010100110000001...。那么要找到同时包含&ldquo;原子能&rdquo;和&ldquo;应用&rdquo;的文献时，只要将这两个二进制数进行布尔运算 AND。根据上面的真值表，我们知道运算结果是0000100000000001...。表示第五篇，第十六篇文献满足要求。<br />
<br />
注意，计算 机作布尔运算是非常非常快的。现在最便宜的微机都可以一次进行三十二位布尔运算，一秒钟进行十亿次以上。当然，由于这些二进制数中绝大部分位数都是零，我 们只需要记录那些等于1的位数即可。于是，搜索引擎的索引就变成了一张大表：表的每一行对应一个关键词，而每一个关键词后面跟着一组数字，是包含该关键词 的文献序号。<br />
<br />
对于互联网的搜索引擎来讲，每一个网页就是一个文献。互联网的网页数量是巨大的，网络中所用的词也非常非常多。因此这个索引 是巨大的，在万亿字节这个量级。早期的搜索引擎（比如 Alta Vista 以前的所有搜索引擎），由于受计算机速度和容量的限制，只能对重要的关键的主题词建立索引。至今很多学术杂志还要求作者提供 3-5 个关键词。这样所有不常见的词和太常见的虚词就找不到了。现在，为了保证对任何搜索都能提供相关的网页，所有的搜索引擎都是对所有的词进行索引。为了网页 排名方便，索引中还需存有大量附加信息，诸如每个词出现的位置、次数等等。因此，整个索引就变得非常之大，以至于不可能用一台计算机存下。大家普遍的做法 就是根据网页的序号将索引分成很多份（Shards)，分别存储在不同的服务器中。每当接受一个查询时，这个查询就被分送到许许多多服务器中，这些服务器 同时并行处理用户请求，并把结果送到主服务器进行合并处理，最后将结果返回给用户。<br />
<br />
不管索引如何复杂，查找的基本操作仍然是布尔运算。布 尔运算把逻辑和数学联系起来了。它的最大好处是容易实现，速度快，这对于海量的信息查找是至关重要的。它的不足是只能给出是与否的判断，而不能给出量化的 度量。因此，所有搜索引擎在内部检索完毕后，都要对符合要求的网页根据相关性排序，然后才返回给用户。<br />
<br /> 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%C3%BF%C8%D5%D2%BB%CC%F9">每日一贴</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/2d86a8ec339b5d2762d09f86.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-23  02:18</pubDate>
        <category><![CDATA[每日一贴]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/2d86a8ec339b5d2762d09f86.html</guid>
</item>

<item>
        <title><![CDATA[Personalied Content 国外市场纵览]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/f5b314cedc38e939b700c821.html]]></link>
        <description><![CDATA[
		
		今天下午，在Read/Write Web上看到了一篇文章，<a href="http://www.readwriteweb.com/archives/personalized_news_market_overview.php" target="_blank" >《Personalized News: A Market Overview》</a >。顾名思义，文中介绍了国外专注于Personalized Content的公司，自然，多半是轻量级的公司。内容我不多说了，因为其中提到的网站，我还没有太多的亲身体验，等进行对比分析之后，希望可以完成一篇综述性的文章。有兴趣的是conclusion的部分，该文作者预测，personalized content将在两年内流行起来&mdash;&mdash;这绝对是个好消息！按照以往经验来看，一项新应用在国外流行起来之后，到被国内媒体关注，或者被某些圈内牛人引入，再到被大众接受，也通常需要2年左右的时间。也就是说，大概4年的时间，personalized content会在国内热起来。<br />
<br />
对国内的尊重技术的轻量级公司来说，这应该是一个机会！从技术上来讲，&ldquo;a lot of <a href="http://www.readwriteweb.com/archives/personalized_cl.php" >smart developers</a > think that personalized content is a huge challenge&rdquo;。因此，这不是一个可以被快速复制的应用。以国内的互联网环境来看，这也是为数不多的适合于国内轻量级公司操作的项目之一。真是羡慕国外的这些轻量级公司的创业者，可以以自己的技术，实现自己的梦想。国内不知道什么时候，才能真正的尊重技术创新，而不再仅仅是满口的所谓的流量。<br />
<br />
令人兴奋的是，国内已经有personalized content的先行者。如果把豆瓣算在personalized content的行列，那他绝对是绝对的老大。另外，还有feelor.com的龙志雄，他做的是资讯信息的personalized，以话题聚类的方式实现。不久，可能我也能算其中的一个吧，哈哈。今天和龙志雄在msn上聊了聊，最大印象，他是一个信赖技术的人，而且勇于行动，感觉不错（自己也是一个信赖技术的人^_^）。<br />
<br />
另外一个值得注意的，在龙志雄的飞鸟博客上，看到了这篇文章，<a href="http://blog.feelor.com/longzx/archive/2006/10/04/30402.html" target="_blank" >《google adsense 账号被停用》</a >。不知道具体的情况，我不好妄加评论，但希望&ldquo;不作恶&rdquo;的google能以自己的名誉为重。<br />
<br /> 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%C4%AC%C8%CF%B7%D6%C0%E0">默认分类</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/f5b314cedc38e939b700c821.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-21  04:48</pubDate>
        <category><![CDATA[默认分类]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/f5b314cedc38e939b700c821.html</guid>
</item>

<item>
        <title><![CDATA[每日一贴：数学之美系列 4 -- 怎样度量信息?]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/cf87b58fa80da8eef01f36d6.html]]></link>
        <description><![CDATA[
		
		<em >  </em >
<p ><em ><em >转载自：google黑板报，<a href="http://googlechinablog.com/2006/04/4.html" target="_blank" >http://googlechinablog.com/2006/04/4.html</a >。</em ></em ></p >
<p ><em ><em ><em >发表者: 吴军, Google 研究员</em ></em ></em ></p >
<span style="font-style: italic;" ><em ><em ><em ><em >前言: Google 一直以 &ldquo;整合全球信息，让人人能获取，使人人能受益&rdquo; 为使命。那么究竟每一条信息应该怎样度量呢？<br />
</em ></em ></em ></em ></span ><em ><em ><em ><em ><em ><br />
</em ></em ></em ></em ></em > 信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年，<a href="http://www.itedu-tsinghua.com/ReadNews.asp?NewsID=309" target="_blank" >香农</a >提出了&ldquo;<a href="http://boole.cs.iastate.edu/book/5-%BC%AF%28%CE%C4%D1%A7%29/2-%CD%F8%C2%E7%D4%D3%D6%BE/%D6%D0%B9%FA%D1%D0%BE%BF/%D6%D0%B9%FA%D1%D0%BE%BF/www.topsin.net/zgyj/zgyj1999/zgyj9910/g991007e.htm" target="_blank" >信息熵</a >&rdquo;(shāng) 的概念，才解决了对信息的量化度量问题。<br />
<br />
一 条信息的信息量大小和它的不确定性有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如 果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。 <br />
<br />
那 么我们如何量化的度量信息量呢？我们来看一个例子，马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯，赛后我问一个知道比赛结果的观 众&ldquo;哪支球队是冠军&rdquo;？ 他不愿意直接告诉我， 而要让我猜，并且我每猜一次，他要收一元钱才肯告诉我是否猜对了，那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号，从 1 到 32， 然后提问： &ldquo;冠军的球队在 1-16 号中吗?&rdquo; 假如他告诉我猜对了， 我会接着问： &ldquo;冠军在 1-8 号中吗?&rdquo; 假如他告诉我猜错了， 我自然知道冠军队在 9-16 中。 这样只需要五次， 我就能知道哪支球队是冠军。所以，谁是世界杯冠军这条消息的信息量只值五块钱。 <br />
<br />
当然，香农不是用钱，而是用 &ldquo;比特&rdquo;（bit）这个概念来度量信息量。 一个比特是一位二进制数，计算机中的一个字节是八个比特。在上面的例子中，这条消息的信息量是五比特。（如果有朝一日有六十四个队进入决赛阶段的比赛，那 么&ldquo;谁世界杯冠军&rdquo;的信息量就是六比特，因为我们要多猜一次。） 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。） <br />
<br />
有些读者此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军，因为象巴西、德国、意 大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此，我们第一次猜测时不需要把 32 个球队等分成两个组，而可以把少数几个最可能的球队分成一组，把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程，根据夺 冠概率对剩下的候选球队分组，直到找到冠军队。这样，我们也许三次或四次就猜出结果。因此，当每个球队夺冠的可能性（概率）不等时，&ldquo;谁世界杯冠军&rdquo;的信 息量的信息量比五比特少。香农指出，它的准确信息量应该是 <br />
<br />
= -（p1*log p1 + p2 * log p2 +　．．．　＋p32 *log p32)，<br />
<br />
其 中，p1，p2 ，　．．．，p32 分别是这 32 个球队夺冠的概率。香农把它称为&ldquo;信息熵&rdquo; (Entropy)，一般用符号 H 表示，单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时，对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X（比如得冠军的球队），它的熵定义如下：<br />
<br />
<img border="0" src="http://googlechinablog.com/uploaded_images/equation1-729041.gif" /><br />
<br />
变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。 <br />
<br />
有 了&ldquo;熵&rdquo;这个概念，我们就可以回答本文开始提出的问题，即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字（一级二级国标）大约有 7000 字。假如每个字等概率，那么我们大约需要 13 个比特（即 13 位二进制数）表示一个汉字。但汉字的使用是不平衡的。实际上，前 10% 的汉字占文本的 95% 以上。因此，即使不考虑上下文的相关性，而只考虑每个汉字的独立的概率，那么，每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性，每个汉字的信息熵只有5比特左右。所以，一本五十万字的中文书，信息量大约是 250 万比特。如果用一个好的算法压缩一下，整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书，大约需要 1MB 大小，是压缩文件的三倍。这两个数量的差距，在信息论中称作&ldquo;冗余度&rdquo;（redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数，同样长度的书，所含的信息量可以差很多。如果一本书重复的内容很多，它的信息量就小，冗余度就大。 <br />
<br />
不同语言的冗余度差别很大，而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识&ldquo;汉语是最简洁的语言&rdquo;是一致的。<br />
<br />
在下一集中， 我们将介绍信息熵在信息处理中的应用以及两个相关的概念互信息和相对熵。<br />
<br />
对中文信息熵有兴趣的读者可以读我和王作英教授在电子学报上合写的一篇文章<br />
<a href="http://engine.cqvip.com/content/citation.dll?id=2155540" target="_blank" >《语信息熵和语言模型的复杂度》</a >。<em ><em ><em ><em ><em ><br />
<br />
<br />
</em ></em ></em ></em ></em > 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%C3%BF%C8%D5%D2%BB%CC%F9">每日一贴</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/cf87b58fa80da8eef01f36d6.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-20  15:24</pubDate>
        <category><![CDATA[每日一贴]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/cf87b58fa80da8eef01f36d6.html</guid>
</item>

<item>
        <title><![CDATA[每日一贴：数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/357adc546199ab58d0090654.html]]></link>
        <description><![CDATA[
		
		<em >
<p >转载自：google黑板报，<a href="http://googlechinablog.com/2006/04/blog-post_17.html" >http://googlechinablog.com/2006/04/blog-post_17.html</a >。</p >
<p >发表者: 吴军, Google 研究员</p >
</em >
<p ><em >前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷地感叹数学模型之妙。<br />
<br />
</em >自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统：<br />
<br />
<img style="BORDER-RIGHT: 1px solid; BORDER-TOP: 1px solid; BORDER-LEFT: 1px solid; BORDER-BOTTOM: 1px solid" border="0" src="http://googlechinablog.com/uploaded_images/channel-712509.jpg" /><br />
<br />
其中 s1，s2，s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1，s2，s3...。<br />
<br />
其实我们平时在说话时，脑子就是一个信息源。我们的喉咙（声带），空气，就是如电线和光缆般的信道。听众耳朵的就是接收端，而听到的声音就是传送过来的信号。根据声学信号来推测说话者的意思，就是语音识别。这样说来，如果接收端是一台计算机而不是人的话，那么计算机要做的就是语音的自动识别。同样，在计算机中，如果我们要根据接收到的英语信息，推测说话者的汉语意思，就是机器翻译； 如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思，那就是自动纠错。<br />
<br />
那么怎么根据接收到的信息来推测说话者想表达的意思呢？我们可以利用叫做&ldquo;<a target="_blank" href="http://www.google.com/search?hl=zh-CN&amp;q=%E9%9A%90%E5%90%AB%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B&amp;btnG=Google+%E6%90%9C%E7%B4%A2&amp;lr=" >隐含马尔可夫模型</a >&rdquo;（Hidden Markov Model）来解决这些问题。以语音识别为例，当我们观测到语音信号 o1,o2,o3 时，我们要根据这组信号推测出发送的句子 s1,s2,s3。显然，我们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述，就是在已知 o1,o2,o3,...的情况下，求使得条件概率<br />
P (s1,s2,s3,...|o1,o2,o3....) 达到最大值的那个句子 s1,s2,s3,...<br />
<br />
当然，上面的概率不容易直接求出，于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项，可以把上述公式等价变换成<br />
<br />
P(o1,o2,o3,...|s1,s2,s3....) * P(s1,s2,s3,...)<br />
其中<br />
P(o1,o2,o3,...|s1,s2,s3....) 表示某句话 s1,s2,s3...被读成 o1,o2,o3,...的可能性, 而<br />
P(s1,s2,s3,...) 表示字串 s1,s2,s3,...本身能够成为一个合乎情理的句子的可能性，所以这个公式的意义是用发送信号为 s1,s2,s3...这个数列的可能性乘以 s1,s2,s3...本身可以一个句子的可能性，得出概率。<br />
<br />
（读者读到这里也许会问，你现在是不是把问题变得更复杂了，因为公式越写越长了。别着急，我们现在就来简化这个问题。）我们在这里做两个假设：<br />
<br />
第一，s1,s2,s3,... 是一个马尔可夫链，也就是说，si 只由 si-1 决定 (详见<a target="_blank" href="http://googlechinablog.com/2006/04/blog-post.html" ><font color="#800080" >系列一</font ></a >)；<br />
第二， 第 i 时刻的接收信号 oi 只由发送信号 si 决定（又称为独立输出假设, 即 P(o1,o2,o3,...|s1,s2,s3....) = P(o1|s1) * P(o2|s2)*P(o3|s3)...。<br />
那么我们就可以很容易利用算法 <a target="_blank" href="http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/viterbi_algorithm/s2_pg1.html" >Viterbi</a > 找出上面式子的最大值，进而找出要识别的句子 s1,s2,s3,...。<br />
<br />
满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用&ldquo;隐含&rdquo;这个词，是因为状态 s1,s2,s3,...是无法直接观测到的。<br />
<br />
隐含马尔可夫模型的应用远不只在语音识别中。在上面的公式中，如果我们把 s1,s2,s3,...当成中文，把 o1,o2,o3,...当成对应的英文，那么我们就能利用这个模型解决机器翻译问题； 如果我们把 o1,o2,o3,...当成扫描文字得到的图像特征，就能利用这个模型解决印刷体和手写体的识别。<br />
<br />
P (o1,o2,o3,...|s1,s2,s3....) 根据应用的不同而又不同的名称，在语音识别中它被称为&ldquo;声学模型&rdquo; (Acoustic Model)， 在机器翻译中是&ldquo;翻译模型&rdquo; (Translation Model) 而在拼写校正中是&ldquo;纠错模型&rdquo; (Correction Model)。 而P (s1,s2,s3,...) 就是我们在系列一中提到的语言模型。<br />
<br />
在利用隐含马尔可夫模型解决语言处理问题前，先要进行模型的训练。 常用的训练方法由伯姆（Baum）在60年代提出的，并以他的名字命名。隐含马尔可夫模型在处理语言问题早期的成功应用是语音识别。七十年代，当时 IBM 的 <a target="_blank" href="http://www.clsp.jhu.edu/people/jelinek/" >Fred Jelinek</a > (贾里尼克) 和卡内基&middot;梅隆大学的 Jim and Janet Baker <a target="_blank" href="http://www.google.com/search?hl=zh-CN&amp;q=Jim+Janet+Baker+Hidden+Markov+Model&amp;btnG=%E6%90%9C%E7%B4%A2&amp;lr=" >(贝克夫妇</a >，李开复的师兄师姐) 分别独立地提出用隐含马尔可夫模型来识别语音，语音识别的错误率相比人工智能和模式匹配等方法降低了三倍 (从 30% 到 10%)。 八十年代李开复博士坚持采用隐含马尔可夫模型的框架， 成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。<br />
<br />
我最早接触到隐含马尔可夫模型是几乎二十年前的事。那时在《随机过程》（清华&ldquo;著名&rdquo;的一门课）里学到这个模型，但当时实在想不出它有什么实际用途。几年后，我在清华跟随王作英教授学习、研究语音识别时，他给了我几十篇文献。 我印象最深的就是贾里尼克和李开复的文章，它们的核心思想就是隐含马尔可夫模型。复杂的语音识别问题居然能如此简单地被表述、解决，我由衷地感叹数学模型之妙。</p >
<p >&nbsp;</p > 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%C3%BF%C8%D5%D2%BB%CC%F9">每日一贴</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/357adc546199ab58d0090654.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-16  21:49</pubDate>
        <category><![CDATA[每日一贴]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/357adc546199ab58d0090654.html</guid>
</item>

<item>
        <title><![CDATA[推荐系统：主要推荐方法]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/76c9f703e9c190773912bbc2.html]]></link>
        <description><![CDATA[
		
		<p ><em ><font face="宋体" size="2" >本文是关于推荐系统的系列研究文章之一，其他内容将陆续发布。这些内容，大多数来自我在2004年底完成的一篇项目方案建议书。放在这里，抛砖引玉，供大家讨论之用。<br />
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－</font ></em ></p >
<p >在推荐系统简介中，我们给出了推荐系统的一般框架。很明显，推荐方法是整个推荐系统中最核心、最关键的部分，很大程度上决定了推荐系统性能的优劣。目前，主要的推荐方法包括：基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。</p >
<p ><font face="黑体" size="3" >一、基于内容推荐</font ></p >
<p >基于内容的推荐（Content-based Recommendation）是信息过滤技术的延续与发展，它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中，项目或对象是通过相关的特征的属性来定义，系统基于用户评价对象的特征，学习用户的兴趣，考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法，常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据，用户资料模型可能随着用户的偏好改变而发生变化。</p >
<p >基于内容推荐方法的优点是：<br />
&#61548;&nbsp;1）不需要其它用户的数据，没有冷开始问题和稀疏问题。<br />
&#61548;&nbsp;2）能为具有特殊兴趣爱好的用户进行推荐。<br />
&#61548;&nbsp;3）能推荐新的或不是很流行的项目，没有新项目问题。<br />
&#61548;&nbsp;4）通过列出推荐项目的内容特征，可以解释为什么推荐那些项目。<br />
&#61548;&nbsp;5）已有比较好的技术，如关于分类学习方面的技术已相当成熟。</p >
<p >缺点是要求内容能容易抽取成有意义的特征，要求特征内容有良好的结构性，并且用户的口味必须能够用内容特征形式来表达，不能显式地得到其它用户的判断情况。</p >
<p ><font face="黑体" size="3" >二、协同过滤推荐</font ></p >
<p >协同过滤推荐（Collaborative Filtering Recommendation）技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术，利用用户的历史喜好信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度，系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求，能处理非结构化的复杂对象，如音乐、电影。</p >
<p >协同过滤是基于这样的假设：为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户，然后将他们感兴趣的内容推荐给此用户。其基本思想非常易于理解，在日常生活中，我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来，基于其他用户对某一内容的评价来向目标用户进行推荐。</p >
<p >&nbsp;基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的，而且是自动的，即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的，不需要用户努力地找到适合自己兴趣的推荐信息，如填写一些调查表格等。</p >
<p >&nbsp;和基于内容的过滤方法相比，协同过滤具有如下的优点：<br />
&#61548;1）&nbsp;能够过滤难以进行机器自动内容分析的信息，如艺术品，音乐等。<br />
&#61548;2）&nbsp;共享其他人的经验，避免了内容分析的不完全和不精确，并且能够基于一些复杂的，难以表述的概念（如信息质量、个人品味）进行过滤。<br />
&#61548;3）&nbsp;有推荐新信息的能力。可以发现内容上完全不相似的信息，用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别，基于内容的过滤推荐很多都是用户本来就熟悉的内容，而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。<br />
&#61548;4）&nbsp;能够有效的使用其他相似用户的反馈信息，较少用户的反馈量，加快个性化学习的速度。</p >
<p >虽然协同过滤作为一种典型的推荐技术有其相当的应用，但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题（Sparsity）和可扩展问题（Scalability）。</p >
<p ><font face="黑体" size="3" >三、基于关联规则推荐</font ></p >
<p >基于关联规则的推荐（Association Rule-based Recommendation）是以关联规则为基础，把已购商品作为规则头，规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性，在零售业中已经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y，其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。</p >
<p >算法的第一步关联规则的发现最为关键且最耗时，是算法的瓶颈，但可以离线进行。其次，商品名称的同义性问题也是关联规则的一个难点。</p >
<p ><font face="黑体" size="3" >四、基于效用推荐</font ></p >
<p >基于效用的推荐（Utility-based Recommendation）是建立在对用户使用项目的效用情况上计算的，其核心问题是怎么样为每一个用户去创建一个效用函数，因此，用户资料模型很大程度上是由系统所采用的效用函数决定的。基于效用推荐的好处是它能把非产品的属性，如提供商的可靠性（Vendor Reliability）和产品的可得性（Product Availability）等考虑到效用计算中。</p >
<p ><font face="黑体" size="3" >五、基于知识推荐</font ></p >
<p >基于知识的推荐（Knowledge-based Recommendation）在某种程度是可以看成是一种推理（Inference）技术，它不是建立在用户需要和偏好基础上推荐的。基于知识的方法因它们所用的功能知识不同而有明显区别。效用知识（Functional Knowledge）是一种关于一个项目如何满足某一特定用户的知识，因此能解释需要和推荐的关系，所以用户资料可以是任何能支持推理的知识结构，它可以是用户已经规范化的查询，也可以是一个更详细的用户需要的表示。</p >
<p ><font face="黑体" size="3" >六、组合推荐</font ></p >
<p >由于各种推荐方法都有优缺点，所以在实际中，组合推荐（Hybrid Recommendation）经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果，然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法，但在某一具体问题中并不见得都有效，组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。</p >
<p >在组合方式上，有研究人员提出了七种组合思路：<br />
&#61548;1）加权（Weight）：加权多种推荐技术结果。<br />
&#61548;2）变换（Switch）：根据问题背景和实际情况或要求决定变换采用不同的推荐技术。<br />
&#61548;3）混合（Mixed）：同时采用多种推荐技术给出多种推荐结果为用户提供参考。<br />
&#61548;4）特征组合（Feature combination）：组合来自不同推荐数据源的特征被另一种推荐算法所采用。<br />
&#61548;5）层叠（Cascade）：先用一种推荐技术产生一种粗糙的推荐结果，第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。<br />
&#61548;6）特征扩充（Feature augmentation）：一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。<br />
&#61548;7）元级别（Meta-level）：用一种推荐方法产生的模型作为另一种推荐方法的输入。<br />
</p >
<p ><font face="黑体" size="3" >&nbsp;七、主要推荐方法的对比</font ></p >
<p >各种推荐方法都有其各自的优点和缺点，见表1。</p >
<p >
<table cellspacing="0" cellpadding="0" border="1" >
    <tbody >
        <tr >
            <td width="541" colspan="3" >
            <div align="center" >表1 主要推荐方法对比</div >
            </td >
        </tr >
        <tr >
            <td width="120" >
            <div >推荐方法</div >
            </td >
            <td width="245" >
            <div >优点</div >
            </td >
            <td width="176" >
            <div >缺点</div >
            </td >
        </tr >
        <tr >
            <td width="120" >
            <div >基于内容推荐</div >
            </td >
            <td width="245" >
            <div >推荐结果直观，容易解释； </div >
            <div >不需要领域知识</div >
            </td >
            <td width="176" >
            <div >稀疏问题；新用户问题；</div >
            <div >复杂属性不好处理；</div >
            <div >要有足够数据构造分类器</div >
            </td >
        </tr >
        <tr >
            <td width="120" >
            <div >协同过滤推荐</div >
            </td >
            <td width="245" >
            <div >新异兴趣发现、不需要领域知识；</div >
            <div >随着时间推移性能提高；</div >
            <div >推荐个性化、自动化程度高；</div >
            <div >能处理复杂的非结构化对象</div >
            </td >
            <td width="176" >
            <div >稀疏问题；</div >
            <div >可扩展性问题；</div >
            <div >新用户问题；</div >
            <div >质量取决于历史数据集；</div >
            <div >系统开始时推荐质量差；</div >
            </td >
        </tr >
        <tr >
            <td width="120" >
            <div >基于规则推荐</div >
            </td >
            <td width="245" >
            <div >能发现新兴趣点；</div >
            <div >不要领域知识</div >
            </td >
            <td width="176" >
            <div >规则抽取难、耗时；</div >
            <div >产品名同义性问题；</div >
            <div >个性化程度低；</div >
            </td >
        </tr >
        <tr >
            <td width="120" >
            <div >基于效用推荐</div >
            </td >
            <td width="245" >
            <div >无冷开始和稀疏问题；</div >
            <div >对用户偏好变化敏感；</div >
            <div >能考虑非产品特性</div >
            </td >
            <td width="176" >
            <div >用户必须输入效用函数； </div >
            <div >推荐是静态的，灵活性差； </div >
            <div >属性重叠问题；</div >
            </td >
        </tr >
        <tr >
            <td width="120" >
            <div >基于知识推荐</div >
            </td >
            <td width="245" >
            <div >能把用户需求映射到产品上；</div >
            <div >能考虑非产品属性</div >
            </td >
            <td width="176" >
            <div >知识难获得；</div >
            <div >推荐是静态的</div >
            </td >
        </tr >
    </tbody >
</table >
</p >
<p >&nbsp;</p > 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%CD%C6%BC%F6%CF%B5%CD%B3">推荐系统</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/76c9f703e9c190773912bbc2.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-16  01:25</pubDate>
        <category><![CDATA[推荐系统]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/76c9f703e9c190773912bbc2.html</guid>
</item>

<item>
        <title><![CDATA[每日一贴：数学之美 系列二 -- 谈谈中文分词]]></title>
        <link><![CDATA[http://hi.baidu.com/wdgu/blog/item/8f42b1516751bf18367abec6.html]]></link>
        <description><![CDATA[
		
		<p >转载自：google黑板报，<a href="http://googlechinablog.com/2006/04/blog-post_10.html" >http://googlechinablog.com/2006/04/blog-post_10.html</a >。</p >
<p >发表者: 吴军, Google 研究员</p >
<p ><strong >谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用</strong ><br />
<br />
上回我们谈到<a target="_blank" href="http://googlechinablog.com/2006/04/blog-post.html" >利用统计语言模型进行语言处理</a >，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子 &ldquo;中国航天官员应邀到美国与太空总署官员开会。&rdquo; <br />
<br />
分成一串词：<br />
中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。<br />
<br />
最容易想到的，也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。<br />
<br />
用 &ldquo;查字典&rdquo; 法，其实就是我们把一个句子从左向右扫描一遍，遇到字典里有的词就标识出来，遇到复合词（比如 &ldquo;上海大学&rdquo;）就找最长的词匹配，遇到不认识的字串就分割成单字词，于是简单的分词就完成了。这种简单的分词方法完全能处理上面例子中的句子。八十年代，<a target="_blank" href="http://www.cs.hit.edu.cn/cn/teacher.jsp?teacher=wangxiaolong" >哈工大的王晓龙博士</a >把它理论化，发展成最少词数的分词理论，即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性 （有双重理解意思）的分割时就无能为力了。比如，对短语 &ldquo;发展中国家&rdquo; 正确的分割是&ldquo;发展-中-国家&rdquo;，而从左向右查字典的办法会将它分割成&ldquo;发展-中国-家&rdquo;，显然是错了。另外，并非所有的最长匹配都一定是正确的。比如&ldquo;上海大学城书店&rdquo;的正确分词应该是 &ldquo;上海-大学城-书店，&rdquo; 而不是 &ldquo;上海大学-城-书店&rdquo;。<br />
<br />
九十年代以前，海内外不少学者试图用一些文法规则来解决分词的二义性问题，都不是很成功。90年前后，清华大学的郭进博士用统计语言模型成功解决分词二义性问题，将汉语分词的错误率降低了一个数量级。<br />
<br />
利用统计语言模型分词的方法，可以用几个数学公式简单概括如下：<br />
我们假定一个句子S可以有几种分词方法，为了简单起见我们假定有以下三种：<br />
A1, A2, A3, ..., Ak,<br />
B1, B2, B3, ..., Bm<br />
C1, C2, C3, ..., Cn<br />
<br />
其中，A1, A2, B1, B2, C1, C2 等等都是汉语的词。那么最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说如果 A1,A2,..., Ak 是最好的分法，那么 （P 表示概率）：<br />
P (A1, A2, A3, ..., Ak） 〉 P (B1, B2, B3, ..., Bm), 并且<br />
P (A1, A2, A3, ..., Ak） 〉 P(C1, C2, C3, ..., Cn)<br />
因此，只要我们利用上回提到的统计语言模型计算出每种分词后句子出现的概率，并找出其中概率最大的，我们就能够找到最好的分词方法。<br />
<br />
当然，这里面有一个实现的技巧。如果我们穷举所有可能的分词方法并计算出每种可能性下句子的概率，那么计算量是相当大的。因此，我们可以把它看成是一个<a target="_blank" href="http://algorithm.diy.myrice.com/algorithm/technique/dynamic_programming/chapter3.htm" >动态规划</a >（Dynamic Programming) 的问题，并利用 &ldquo;维特比&rdquo;（<a target="_blank" href="http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/viterbi_algorithm/s2_pg1.html" >Viterbi</a >） 算法快速地找到最佳分词。<br />
<br />
在清华大学的郭进博士以后，海内外不少学者利用统计的方法，进一步完善中文分词。其中值得一提的是清华大学孙茂松教授和香港科技大学吴德凯教授的工作。<br />
<br />
需要指出的是，语言学家对词语的定义不完全相同。比如说 &ldquo;北京大学&rdquo;，有人认为是一个词，而有人认为该分成两个词。一个折中的解决办法是在分词的同时，找到复合词的嵌套结构。在上面的例子中，如果一句话包含&ldquo;北京大学&rdquo;四个字，那么先把它当成一个四字词，然后再进一步找出细分词 &ldquo;北京&rdquo; 和 &ldquo;大学&rdquo;。这种方法是最早是郭进在 &ldquo;Computational Linguistics&rdquo; （《计算机语言学》）杂志上发表的，以后不少系统采用这种方法。<br />
<br />
一般来讲，根据不同应用，汉语分词的颗粒度大小应该不同。比如，在机器翻译中，颗粒度应该大一些，&ldquo;北京大学&rdquo;就不能被分成两个词。而在语音识别中，&ldquo;北京大学&rdquo;一般是被分成两个词。因此，不同的应用，应该有不同的分词系统。Google 的葛显平博士和朱安博士，专门为搜索设计和实现了自己的分词系统。<br />
<br />
也许你想不到，中文分词的方法也被应用到英语处理，主要是手写体识别中。因为在识别手写体时，单词之间的空格就不很清楚了。中文分词方法可以帮助判别英语单词的边界。其实，语言处理的许多数学方法通用的和具体的语言无关。在 Google 内，我们在设计语言处理的算法时，都会考虑它是否能很容易地适用于各种自然语言。这样，我们才能有效地支持上百种语言的搜索。<br />
<br />
对中文分词有兴趣的读者，可以阅读以下文献：<br />
<br />
1. 梁南元 <br />
<a target="_blank" href="http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf" >书面汉语自动分词系统 </a ><br />
http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf<br />
<br />
2. 郭进<br />
<a target="_blank" href="http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf" >统计语言模型和汉语音字转换的一些新结果</a > <br />
http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf<br />
<br />
3. 郭进<br />
<a target="_blank" href="http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf" >Critical Tokenization and its Properties</a > <br />
http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf<br />
<br />
4. 孙茂松<br />
<a target="_blank" href="http://portal.acm.org/citation.cfm?coll=GUIDE&amp;dl=GUIDE&amp;id=980775" >Chinese word segmentation without using lexicon and hand-crafted training data</a ><br />
http://portal.acm.org/citation.cfm?coll=GUIDE&amp;dl=GUIDE&amp;id=980775</p >
<p >&nbsp;</p > 
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/wdgu/blog/category/%C3%BF%C8%D5%D2%BB%CC%F9">每日一贴</a>&nbsp;<a href="http://hi.baidu.com/wdgu/blog/item/8f42b1516751bf18367abec6.html#comment">查看评论</a>]]></description>
        <pubDate>2006-10-16  00:36</pubDate>
        <category><![CDATA[每日一贴]]></category>
        <author><![CDATA[wdgu]]></author>
		<guid>http://hi.baidu.com/wdgu/blog/item/8f42b1516751bf18367abec6.html</guid>
</item>


</channel>
</rss>