百度空间 | 百度首页 
 
查看文章
 
再看Google中国陷害数据
2009-06-27 23:01
几天前看见过一片极具说服力的数据分析:
http://www.javaeye.com/news/8465-data-words-look-at-how-google-was-set-up-carried-sina
http://blog.sina.com.cn/s/blog_60676a3f0100e0xk.html

今天回到javaeye,发现居然顶到最顶,于是也进入http://www.google.com/trends
做了一些查询,也从技术角度补充一些可能被大家忽略的问题,希望能给出一个更加理智的分析。


现在我就来分析一下那个著名的 “儿子母亲不正当关系”关键字

1.数据本身问题
从图表上看,我今天的查询结果和前面blog中报告的结果,出入较大。
从最新的查询可以看到,这个关键字自6月17日起,6月18日高峰。

前面blog采用的数据其实来自仍外一个产品:
http://www.google.com/insights/search/#q=%E5%84%BF%E5%AD%90%E6%AF%8D%E4%BA%B2%E4%B8%8D%E6%AD%A3%E5%BD%93%E5%85%B3%E7%B3%BB&cmpt=q&date=today+1-m&geo=CN
从数据可以看到,insights的数据取样频率明显比trends要低很多,上面说的提前7天,但实际上这7天的都是直线,由此可见insights对这种访问较少的的数据取样时间间隔可能就是7天或者更长,而如此低的取样频率自然不如trends的数据更具说服力。


2.展现图表的问题
统计时间线问题,细心一点的人应该能发现,目前trends上的统计是以天为单位的折线,从图表的表现可以看到,他们都是从0开始,而某关键字第 一天的数据量就是高峰,为了正常显示这个图形,很自然就吧前一天给搭上了。就算17日没有搜索量,图表绘制的时候也是从17日开始的。

3.时间问题
我不是很熟悉trends,但是google的其他产品,比如appengine,都是用美国时间打印日志。这样他统计的日期就比我们晚11小 时,我们18日早晨,就是他们17日下午。而我们在收看焦点访谈播出后,反应最激烈的18小时,都会算进trends日志的18日。

经过以上三点分析,我们可以看出这个被大家炒的沸沸扬扬的诬陷事件其实只是一群“不明真相的群众”的闹剧。

类别:默认分类 | 添加到搜藏 | 分享到i贴吧 | 浏览() | 评论 (0)
 
最近读者:
 
网友评论:
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
验证码: 请点击后输入四位验证码,字母不区分大小写
      

     

©2009 Baidu