天青色等烟雨而我在等你
百度空间 | 百度首页 
               
 
关于我
 
   
 
文章列表
 
2009-06-19 12:38

联系方式:

batmanfly [AT] live.cn

batmanfly [AT] gmail.com

对于其他留言,由于我已经开始闭关思过,将不再给予任何回复。

 
2009-06-18 14:28
本人一个月内放弃对于此blog的一切经营!
少说话、少发帖子。
 
2009-06-01 19:48
预备知识


     如果牢固掌握这些预备知识,理解原文会更容易些。

     - p(X|Y)的记法。注意|右边的Y既可以表示随机变量(已经取定了某具体值),也可以表示普通的非随机变量。这样我们可以在最大似然估计和 Bayes方法间方便的“切换”,而不会让符号记法影响我们的表述。例如,考虑具有确定但未知参数μ,Σ的高斯分布p(x),可以记为p(x|μ,Σ); 若按照Bayes学派观点,可以将μ和Σ也看作随机变量,x的分布就能记为随机变量μ,Σ取定某值后的条件分布p(x|
 
2009-05-29 12:06

上次大概介绍了一些最基本的问题。这次说一些有用的。。。

首先还是应该思想上的提升,拿最简单的J-M平滑方法举例。

为什么用collection model平滑,为什么那么线性插值就是可以的,也就是为什么可以把文档中没有的词汇的概率变成不是0呢?


1、其实我们可以认为一个文档背后都会有一个文档模型,而实际上我们实际上看到的文档都是基于那个模型采样得到的结果,所以。。。所以。。。我们对这个文档做smoothing可以理解为去估计这个文档背后的文档语言模型。

 
2009-05-22 16:52

基于LDA的Topic Model变形

最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:

David M. Blei

LDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证:
  • J. Chang and D. Blei. Relational Topic Models for Document Networks. Artificial Intelligence
 
2009-05-06 15:45

学习中。。。

不知道WEKA中是否有这样灵活的接口函数。。。

-----------------------------------------------

转载一:

MATLAB提供了两种方法进行聚类分析:

1、利用clusterdata 函数对数据样本进行一次聚类,这个方法简洁方便,其特点是使用范围较窄,不能由用户根据自身需

 
2009-04-30 23:16
恩,首先说语言模型是一个集大成的东西。。。千万不要以为自己知道了一元语言模型后就OK了。。。

据我所知,语言模型到现在为止,发到SIGIR上的论文超过100篇。。。应用语言模型的论文不计其数。。。

随着统计和机器学习的繁荣给了很多计算机领域一个全新的生命。语言模型也是在这种背景下产生的。。。更严格地说,它属于probabilistic relevance model中query generation的框架下。在此框架下,证明了语言模型不是无来由的孩子;而基于无监督的统计方法给了语言模型存活的资本;它的简单及灵活性给了它健壮的发展!
 
2009-04-23 21:54
LDA 着实 带领着 Topic model 火了一把。

但是其实我们华人世界内,也不乏好汉,不过呢,都在UIUC,Prof. Zhai的小组里。
他们关于Topic model的大多数工作,都是基于PLSA的变形,然后EM求解。
这里面,他们有两点使用的出神入化,第一点就是先验概率的使用;第二点就是EM的各种变形了,regularized EM。。。
他们组有一个很大的特点,就是问题新,写作特别流畅。
不愧是华人IR第一组。
---------------------------------------------
那么如何切入他
 
2009-04-23 16:10
LDA是比PLSA更“高级”的一种topic model。“高级”在哪里呢?--它是一个Bayes Hierarchy Model。
所谓Bayes Hierarchy Model说白了就是把模型的参数看作随机变量,这样可以引入控制参数的参数。说起来,比价绕。

Topic model的一个通式为

P(w|d) = sigma{ p(w|z)*p(z|d) }

其中云里雾里的topic,说白了就是一个一元语言模型,没有任何特殊的地方。对应上面的公式,就是 p(w|z)。

而topic model,一般指的是两种分布:第一种就是topic~word的分布,就是p(w|z)。
 
2009-04-21 18:06
恩,我都不知道该写什么。。。因为前面的各位大牛把这个事情写得特别清晰了。
简要地说一下,pLSI是对LSI的一个拓展,LSI大凡搞过IR的人都知道,其中比较著名的是svd分解。然后通过这个分解,每个文档可以在一个较小的维度上表示。
pLSI 隐式地也可以转换为矩阵分解,并且最后矩阵的形式和LSI的很类似,只不过在pLSI里,那里面都是概率值。它是topic model的一种,主要思想是把一篇文档在topic维度表示,这样也就实现所谓的降维;除此之外,topic的引入非常吸引人,一个topic就是一个词的概率分布,其实就是一个一元语言模型。
 
     
 
 
个人档案
 
flyer_hit
男, 24岁
北京 海淀区 
上次登录:
3天前
加为好友
 
   
 
最新照片
 
   
 
最近访客
 
 

ztz_ls_dhz

darkgtbd

Andreabo

beast5117

scrooke

ginobilinie

Fallingwine

item_super
     
 
其它
 
已有人次访问本空间
 
订阅RSS  什么是RSS?

您也想拥有这样的空间?请点此申请。
     


©2009 Baidu