天青色等烟雨
百度空间 | 百度首页 
 
订阅我的空间
 
已有人次访问本空间
 
订阅RSS  什么是RSS?

您也想拥有这样的空间?请点此申请。
     
 
最近访客
 
 

西安华泰证券

pro_To_Life

wqxwy

hitskyer

lunwenjiazuo

lildmh

梦路神迹

Cindy_辛
     
 
 
关于我
 
   
 
文章列表
 
2009-09-11 18:44
给定一个样本集,{X_i},其中X_i是IID的,我们现在想要求出 arg{theta} max p(x | theta)
其中theta是模型的参数。

EM可以解决的问题背景包括:缺失数据和隐含变量
如果没有这两种情况,那么x就是所有的观察数据、也是全部的实际数据,那么我们直接MLE。

而这两种强况都可以归结为 隐含变量。
所以接触EM第一事情,就是要找到complete data,对应mixture models,我们可以用z来表示对应的cluster。 明确这个概念非常重要。

接下来要做的事情就是使用 max p(x|theta) = max sigma{z} p(x, z| t
 
2009-08-02 16:38
上次暑假看了神探狄仁杰I和III,今年暑假看了II。

今天看到前30集终于知道事情真相了,感觉绕了好大的一个弯子。直到最后才知道真相。

我最喜欢看得国产电视剧无非三种:
1、史诗巨作:三国、水浒
2、谍报:暗算、食人鱼事件
3、破案:神探狄仁杰、最早的还有英雄无悔

国产的破案片说实话一般都是很糟烂的,因为现在这个社会,谁也不是白痴和白吃,一般套路的片子从开头就知道结尾或者从开头蒙你到结尾,然后牵强结局。质量上与柯南、越狱之类的质量相差甚远。

狄仁杰这个片子是喜欢不
 
2009-06-01 19:48
预备知识


     如果牢固掌握这些预备知识,理解原文会更容易些。

     - p(X|Y)的记法。注意|右边的Y既可以表示随机变量(已经取定了某具体值),也可以表示普通的非随机变量。这样我们可以在最大似然估计和 Bayes方法间方便的“切换”,而不会让符号记法影响我们的表述。例如,考虑具有确定但未知参数μ,Σ的高斯分布p(x),可以记为p(x|μ,Σ); 若按照Bayes学派观点,可以将μ和Σ也看作随机变量,x的分布就能记为随机变量μ,Σ取定某值后的条件分布p(x|
 
2009-05-29 12:06

上次大概介绍了一些最基本的问题。这次说一些有用的。。。

首先还是应该思想上的提升,拿最简单的J-M平滑方法举例。

为什么用collection model平滑,为什么那么线性插值就是可以的,也就是为什么可以把文档中没有的词汇的概率变成不是0呢?


1、其实我们可以认为一个文档背后都会有一个文档模型,而实际上我们实际上看到的文档都是基于那个模型采样得到的结果,所以。。。所以。。。我们对这个文档做smoothing可以理解为去估计这个文档背后的文档语言模型。

 
2009-05-22 16:52

基于LDA的Topic Model变形

最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:

David M. Blei

LDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证:
  • J. Chang and D. Blei. Relational Topic Models for Document Networks. Artificial Intelligence
 
2009-05-06 15:45

学习中。。。

不知道WEKA中是否有这样灵活的接口函数。。。

-----------------------------------------------

转载一:

MATLAB提供了两种方法进行聚类分析:

1、利用clusterdata 函数对数据样本进行一次聚类,这个方法简洁方便,其特点是使用范围较窄,不能由用户根据自身需

 
2009-04-30 23:16
恩,首先说语言模型是一个集大成的东西。。。千万不要以为自己知道了一元语言模型后就OK了。。。

据我所知,语言模型到现在为止,发到SIGIR上的论文超过100篇。。。应用语言模型的论文不计其数。。。

随着统计和机器学习的繁荣给了很多计算机领域一个全新的生命。语言模型也是在这种背景下产生的。。。更严格地说,它属于probabilistic relevance model中query generation的框架下。在此框架下,证明了语言模型不是无来由的孩子;而基于无监督的统计方法给了语言模型存活的资本;它的简单及灵活性给了它健壮的发展!
 
2009-04-23 21:54
LDA 着实 带领着 Topic model 火了一把。

但是其实我们华人世界内,也不乏好汉,不过呢,都在UIUC,Prof. Zhai的小组里。
他们关于Topic model的大多数工作,都是基于PLSA的变形,然后EM求解。
这里面,他们有两点使用的出神入化,第一点就是先验概率的使用;第二点就是EM的各种变形了,regularized EM。。。
他们组有一个很大的特点,就是问题新,写作特别流畅。
不愧是华人IR第一组。
---------------------------------------------
那么如何切入他
 
2009-04-23 16:10
LDA是比PLSA更“高级”的一种topic model。“高级”在哪里呢?--它是一个Bayes Hierarchy Model。
所谓Bayes Hierarchy Model说白了就是把模型的参数看作随机变量,这样可以引入控制参数的参数。说起来,比价绕。

Topic model的一个通式为

P(w|d) = sigma{ p(w|z)*p(z|d) }

其中云里雾里的topic,说白了就是一个一元语言模型,没有任何特殊的地方。对应上面的公式,就是 p(w|z)。

而topic model,一般指的是两种分布:第一种就是topic~word的分布,就是p(w|z)。
 
2009-04-21 18:06
恩,我都不知道该写什么。。。因为前面的各位大牛把这个事情写得特别清晰了。
简要地说一下,pLSI是对LSI的一个拓展,LSI大凡搞过IR的人都知道,其中比较著名的是svd分解。然后通过这个分解,每个文档可以在一个较小的维度上表示。
pLSI 隐式地也可以转换为矩阵分解,并且最后矩阵的形式和LSI的很类似,只不过在pLSI里,那里面都是概率值。它是topic model的一种,主要思想是把一篇文档在topic维度表示,这样也就实现所谓的降维;除此之外,topic的引入非常吸引人,一个topic就是一个词的概率分布,其实就是一个一元语言模型。
 
     


©2009 Baidu