查看文章 |
再看Google中国陷害数据
2009-06-27 23:01
几天前看见过一片极具说服力的数据分析: http://www.javaeye.com/news/8465-data-words-look-at-how-google-was-set-up-carried-sina http://blog.sina.com.cn/s/blog_60676a3f0100e0xk.html 今天回到javaeye,发现居然顶到最顶,于是也进入http://www.google.com/trends 做了一些查询,也从技术角度补充一些可能被大家忽略的问题,希望能给出一个更加理智的分析。 现在我就来分析一下那个著名的 “儿子母亲不正当关系”关键字 1.数据本身问题: 从图表上看,我今天的查询结果和前面blog中报告的结果,出入较大。 从最新的查询可以看到,这个关键字自6月17日起,6月18日高峰。 前面blog采用的数据其实来自仍外一个产品: http://www.google.com/insights/search/#q=%E5%84%BF%E5%AD%90%E6%AF%8D%E4%BA%B2%E4%B8%8D%E6%AD%A3%E5%BD%93%E5%85%B3%E7%B3%BB&cmpt=q&date=today+1-m&geo=CN 从数据可以看到,insights的数据取样频率明显比trends要低很多,上面说的提前7天,但实际上这7天的都是直线,由此可见insights对这种访问较少的的数据取样时间间隔可能就是7天或者更长,而如此低的取样频率自然不如trends的数据更具说服力。 2.展现图表的问题: 统计时间线问题,细心一点的人应该能发现,目前trends上的统计是以天为单位的折线,从图表的表现可以看到,他们都是从0开始,而某关键字第 一天的数据量就是高峰,为了正常显示这个图形,很自然就吧前一天给搭上了。就算17日没有搜索量,图表绘制的时候也是从17日开始的。 3.时间问题: 我不是很熟悉trends,但是google的其他产品,比如appengine,都是用美国时间打印日志。这样他统计的日期就比我们晚11小 时,我们18日早晨,就是他们17日下午。而我们在收看焦点访谈播出后,反应最激烈的18小时,都会算进trends日志的18日。 经过以上三点分析,我们可以看出这个被大家炒的沸沸扬扬的诬陷事件其实只是一群“不明真相的群众”的闹剧。 |
最近读者:
