百度空间 | 百度首页 
 
查看文章
 
Zipf分布
2008-08-23 11:30
http://blog.lmtw.com/b/peon/archives/2006/39703.html


对于CDN的内容管理,有一个基本定律,就是大家常说对于内容的访问遵循80/20原则,也就是20%的内容,会占有80%的访问量。

这是一个定性的原则,定量来说,内容访问近似符合Zipf定律(Zipf's law), 这个定律是美国语言学家Zipf发现的,他在1932年研究英文单词
的出现频率时,发现如果把单词频率从高到低的次序排列,每个单词出现频率和它的符号访问排名存在简单反比关系:



这里 r 表示一个单词的出现频率的排名,P(r)表示排名为r的单词的出现频率.

(单词频率分布中 C约等于0.1, a约等于1)

        后人将这个分布称为齐夫分布,这个分布是一个统计型的经验规律,描述了这样一个定理:只有少数英文单词经常被使用,大部分的
单词很少被使用。这个定理也在很多分布里面得到了验证,比如人们的收入,互联网的网站数量和访问比例,互联网内容和访问比例(其他分>布两个常数有所不同,a越大,分布越密集,对于VOD来说某些时候符合双zipf分布)。


类别:tech(技术) | 添加到搜藏 | 浏览() | 评论 (1)
 
最近读者:
 
网友评论:
1
2008-10-20 18:59 | 回复
今天导师让我把Zipf分布用到我编的simulator里,找了一下午英文的,都说的不一样,还是看中文的好,一下就明白了。 还有博主引的LaTex,也很有用,这里也都要用,无语了,word多好..... 多谢博主。
 
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请点击后输入四位验证码,字母不区分大小写
      

     

©2009 Baidu