查看文章 |
统计入门 [陆续更新]
2006年08月12日 星期六 01:16
![]() 感谢我的统计学老师: Dr. Robert Roberts 统计学是一切试验科学的基础. 其实如果真的是素质教育,就应该让学生们最早地接受统计教育. 不管你学什么类的科学,统计学都是必要的. 尤其是社会科学一类, 这些是几乎只靠统计的. 在其他科学类也是必要的, 因为是科学就会需要试验,否则就变成了迷信, 而统计是试验的思想,试验的精髓. 话说凉宫春日这个表情很像当年统计课坐我后面为成绩一筹莫展的某学姐...学生会长大人... 学生会有活动,她还得数上千的硬币....>_< 看不懂是我没写好...统计开始不用看懂,死记...我就是为了看懂,结果开始反而落后.对了,对于不了解我的人, 我写这个还是有一定权威的, 所以对这个篇文请有一点信心. 只是很多练习我就没办法放上来了,虽然我也可以写一点练习...同时,基础统计重概念,不重算法,有感觉就行. 不指望学了这个能当统计学家,但是至少会对试验设计和统计学有点了解,以后学起来方便. 这个可能会比较长,所以不会一次弄完。 翻开破旧的统计笔记夹...里面订成一叠一叠的笔记掉了出来...这也是我的宝物... 同时因为估计国内的朋友很少会有在大学前买TI系列的计算器,所以全部手算。(TI-83大约是70美金,更高级的有超过100美金的。很多同学买了最高级的计算器,上课打游戏...>_<...TI-83是标准统计课用计算器) 定义:Statistics is the science of DATA 统计学是数据科学 Rhodes教授的定义: Statistics is the science of making sense of DATA 统计学是让数据有变得有道理,有意义的科学 第一章-作图 包括 Dot Plot Histogram Steam Plot Time Plot ![]() ![]() 第一个是Dot Plot, 就是点图. 一竖行中点的数量代表在那个值有多少个单位是符合的. 比如说, 我们来看附近几家有几个小孩. 有0个小孩的家庭有5个,那么在x=0的位置我们竖着打上三个点,有1个小孩的家庭有10个,我们就在x=1的位置打上10个点,很简单的东西...不要复杂化了. 第二个是Histogram,与Dot Plot原理相同,但是以柱子高度代替点数,注意每条柱子必须靠在一起,除非中间有数值为0的柱子. 第三个Stem Plot大家应该比较熟悉, 这里X就有01,12,12,20,32这几个值,中间的是十位,左边的是个位..Y就有0,1,2,12,21,28这几个值,要说明的是, 当数字很多的时候,可以做Split Stem 这里我们把中间那行放左边 0|124 0|579 1|34 1|56 2|0 2|9 3|33 3|7 每个前Stem只包含0-4,后Stem包含5-9 第四个Time Plot,无非是X轴是时间,Y轴是数值而已. Skewness: 最基本的数据分析. 看图说话. 比如上面那个Time Plot就是"Skew to the Right" (向右倾斜) 其他几个图基本上是Uniform(均匀)或Symmetric(对称) Skew to the Right: 小值多,大值少 (左多右少,所有的收入分布都是这个形状, 钱少的人多,钱多的人少) Skew to the Left: 大值多,小值少 Uniform: 所有值差不多多 Symmetric: 小值和大值差不多多 Measures of Center: 中心计算 Mean : 平均值 Median : 中间值 Mode : 频率最多值 Outlier: 指与其他值差别很大的值, 通常由错误或特例产生. Mean的符号: "x-bar" 写作....打不出来....x上方打一杠 _ x mean is non-resistant 如果有Outlier, Mean会被强烈影响. Median的符号: M, 记得似乎也有用C的 median is resistant 如果有Outlier, Median不会受影响 补充:如果数据中有双数的值,Median是最中间两个值的平均. Mode就算了吧...这里要说明: 一组数据可以有多个Mode Box Plot: ![]() min, Q1, M, Q3, max 这三个值被叫做5 number summery, 用于绘制Box Plot Box Plot随便横着或竖着画都可以. 修改版的Box Plot可以把Outlier当作一个点画出(右边的红色横杠) Measuring Spread: 计算散布 Range - Difference between the largest and smallest obervation Range = 最大和最小值之差 Q1 = 从最左到中间值之间的数据的中间值 Q3 = 从最右到中间值之间的数据的中间值 M = 中间值 min = 最小数据 max = 最大数据 如果数据量为单数,在寻找Q1和Q3时不包括M在内. 如: 12345 Q1 = (1+2)/2 = 1.5 Q3 = (4+5)/2 = 4.5 如: 123456 Q1 = 2 Q3 = 5 IQR = Interquartile Range = Q1 和 Q3之间的距离. 如果一个值大于 [1.5*IQR + Q3]或小于[Q1-1.5*IQR],那么这个值被当作Outlier 注意在画Box Plot的时候,min和max都必须画在有数据的地方,而不是Q3+1.5*IQR或Q1-1.5*IQR 是在Q3+1.5*IQR和Q1-1.5*IQR之间的最大最小值 Measuring Spread: 另一种计算分布 The Standard Deviation - Most Common Description of a distribution uses the mean and standard deviation 大多数分布都使用Standard Deviation和Mean来描述. 因为Standard Deviation是统计专用词,所以直接记英文或中文都没什么问题. Standard Deviation用σ(sigma)或s表示 Variance = S^2 = [1/(n-1)]*Σ[(xi-"x-bar")^2] s = variance^(0.5) xi 是每个数据的值, x-bar是平均值 例子: 123 x-bar = (1+2+3)/3 = 2 s^2 = [1/(3-1)]{[(1-2)^2]+[(2-2)^2]+[(3-2)^2]} = .5*2 = 1 s = 1^0.5 = 1 s只与Mean一起计算分布 分布越大,s越大 s is non-resistant to extrem observations (s 会被特大或特小值影响) Mean 和 s 最好用来形容对称分布(Symmetric)的数据 5 number summery最好用来形容有倾向分布(Skew)的数据 第一章完 第二章-Density Curve [密度曲线] Density Curves Use a smooth curve to describe what proportions of the observation fall in each range. 用曲线来描述有多少比率的观察结果在哪些值之间.. Density Curve下的面积总是1 Density Curve可以有很多形状 Density Curve是一种估计 Density Curve的Median是等面积点.就是说Median左边的面积和Median右边的面积等同. Mean of a density curve is the point where the curve would banlance if made of solid material 如果Density Curve下的面是由物质组成,Mean将是能够让这个物体平衡的顶点. 如果Density Curve是对称(Symmetric)的, Mean 和 Median 在同一点上. ![]() 当一个Density Curve有倾向时, Mean会比Median更接近倾向的方向. Empirical Rule: 在从Mean值开始,左右各一个Standard Deviation的范围内, 会包括大约68%的观察结果, 两个Standard Deviation: 95%, 三个 99.7% 在Density Curve上面要表示Mean和Standard Deviation, 我们使用: Mean: μ(amu) Standard Deviation: σ(sigma) 当Mean和Standard Deviation是从实际数据计算出的时候,我们使用: Mean: "x-bar" [x上面打一杠...迟早得想办法把这个东东弄出来..] Standard Deviation: s Normal Distributions: 常规分布 表达式: N(μ,σ) A normal curve is a density curve that is symmetric, single peaked and bell shaped. 一个常规曲线是一个对称的, 单峰的,拱起的曲线. 见上面那个图的第二条那个解释Empirical Rule的曲线. Normal curves describe normal distributions of data in real life... 常规曲线描述现实中的常规分布 σ控制曲线的Spread(分布宽度,或分布大小)和和形状. The Inflection Point is the point on the normal curve where the change of the curvature occurs. (The point 1σ from μ) Inflection Point是曲度变化的地方出现的点.. 定义在离μ有1σ的地方. 关于Inflection Point,其实在微积分里定义的话更清楚...但是国内高中似乎不教微积分...所以暂时理解为曲弧从凹变凸或凸变凹的地方吧. 这个在股票观测之类的时候有很大作用... Standard Normal Distribution: 重要!!!! Z = (x - M) / σ (x-M) 特定值与Mean之间的差别 当那个差别除以σ就可以得到那个值离Mean差几个σ了! 然后就可以找到这个值在Standard Normal Distribution上的位置,并计算出这个值出现的几率! 第二章完 第二章里的东西以后的章节里可能有补充.. 第五章-采样与试验 学习顺序:3 Sampling: 采样 Entire group is called the population 整个组被叫做population we gather data on part of the group to draw conclusions about the whole group 我们从整个组中收集小部分组员的信息来估计整个组的属性 Sample Design - Method used to obtain the sample. Convenience Sample :( 方便采样: 通过调查身边最容易得到的样本,如朋友亲戚,来做调查... 坏采样 Voluntary Response Sample :( 自愿回复采样: 如电话采样和邮件采样,别人是否回复要看心情和条件 坏采样 Simple Random Sample :) 简单随机采样 好采样 aka SRS In the SRS, each individual has an equal chance to be chosen and every set of n individuals has equal chance to be chosen. 在一个简单随机采样中, 每一个组员都有同样的被选中的机会,且每n个组员的小组有同样的被选中的机会. Randomize how you pick the SRS by using a computer or table of random digits. 利用计算机或随机数字表来帮助得到SRS 先给所有组员序号, 然后利用随机数字按照序号选组员... 更后面我会介绍随机数字表的使用方法..其中也包括一点SRS Stratified Random Sample :) Divides population into groups (Strata) Then an SRS is chosen in each groups or strata 把population分解成叫做Strata的小组后在每个小组里做SRS another similar design is multistage sampling multistage sampling有很相似的设计 一些在做Sample的时候容易出现的问题: Wording EFFects :( 因语言方式造成错误 如问卷上问: 你不喜欢接电话吧? 如果是一个对接电话本身没感觉的人,在被这样问后可能会产生一种幻想.因为问题中已经估计了答案 "你是否讨厌接电话"是一个更好的问法 Response bias :( 回答有误 可以是回答者或采访者的错误造成的 undercoverage :( 有些人在采样中被忽略 如: 在做电话采样的时候容易忽略那些不安电话的人和那些经常不在家里的人. 更详细一点,比如问卷是想知道月收入,利用电话采样,可能会忽略高收入的不自己接电话的, 会忽略低收入的安不起电话的... 又如: 在大学里做全人口的支持某人当选总统的支持率,忽略了大学外的人..但是事实上的研究是在做全人口的. Non Response :( 不回应 各个地区,不同的人,可能不会回应Voluntary Response类的采样 常常是undercoverage的原因 Systematic Random Sample :) 系统随机采样 Break into equal groups search a # and add # of group 例子说话更容易: 序号有400个 需要5个样本 则把400/5 = 80 5 个 80的小组 提取随机数字,如12 则得到5个样本序号: 12, 92, 172, 252, 332 (12, 80+12, 160+12, 240+12, 320+12) 这是一种比较快速的方法.. 随机数字表的使用 ![]() 其实在网上随便找找就应该可以找到很多随机数字生成器,有条件的话还是用那个吧,这里介绍一下,大家在遇难的时候身上带张表,用这个算生还率什么的吧.. 首先随便选一个行数,或者闭着眼睛在表上点也可以... 然后从那行第一个数字开始一个一个数下去..或者根据需要,两个两个,三个三个数下去..之类的,也没问题 只要符合条件的都取走,不符合条件就继续数 例子: 需要从7人中选5个, 每个人都已经有了序号, 那么我们可以用0到6或1到7..先确定这个.我们这里用1到7. 随便选行, 这里选14行作为例子, 选好行之后要纪录下行数 96256 提取6, 提取2, 提取5, 70653 提取7, 提取3 那么2,3,5,6,7号被选中了. 但是我们是要7人中提取5个,所以也可以反着来..还是14行 96256提取两个 最开始的是6 和 2 (9太大) 那么除了6号和2号都被选择 可以随便用这个表,只要有一定的规则就可以 一行用完了可以开始用下一行, 到这页最底下了的话可以从最上面那行开始. 5.2 Experiments 试验 Difference in an observational study and an experiment: in an experiment we impose some change or treatment and measure the result or response. 试验与观察研究的区别: 在试验中我们加入变化或处理并测量结果或反应. In most experiments there is a group that receives the treatment and there is a control group that doesn't 在大多数试验中, 有一个组会接受处理, 另一个控制组(Control)不会 Responses in the treatment group are compared to responses in the control group 最后会把处理组的结果与控制组的结果对比 many people respond to any kind of preceived treatment (the placebo effects) 宽心剂效用: 很多人不管你给了他们什么treatment都会有效果...比如心理医生给患者糖片说是镇静剂.. to help minimize bias in experiments, single blind and double blind studies are done 为了减小误差, 人们使用单盲和双盲的研究方式 Single Blind - Subjects don't know which treatment they are receiving 单盲: 试验对象不知道自己在受到哪种处理 Double Blind - Neither the subjects nor those evaluating their responses know who is receiving which treatment 双盲: 试验对象和检查分析他们结果的人都不知道谁接受了哪种处理 Advantages of Experiments 试验的好处 1. Study the effects of specific treatments 研究的是特定处理的效果 2. Study the combined effects of several factors simutaneously 同时研究多因素的效果 Three important principles of statistical design of experiments: 试验的统计类设计的三大要点 1 Control the effects of lurking veriables 控制潜伏因素 2 Randomization 随机化 3 Replication 重复试验 Block Design 块设计 A block is a group of homogeneous experimental units. Experimental units in a block are similar in certain characteristics where those in different blocks differ in those characteristics i.e. two groups by gender 把试验对象分成块, 让相似的试验对象放在一个块中. 例子: 两个小组, 一男组,一女组 Matched Pairs Design 成对设计 Compares just two treatments, each block consists of just two units as closely matched as possible. 只对比两种处理, 每个块中只有两个非常相似的试验对象. Each block may consist of just one subject. Each subject serves as hs/her own control. since both treatment are asigned to the same experimental unit, the individual effects of experitmental units are nullified, and the differences in response can be attributed to the differences in treatments. 每个块也可以只有一个试验对象. 每个试验对象成为他们自己的控制。因为两个处理都在同一个对象上使用过, 个人反应被去掉了, 一个人对两个处理的不同反应将被看作是不同处理的不同效果. 为了控制处理的使用顺序的影响, 我们随机化处理在对象上的使用顺序. 比如投硬币决定哪个处理先进行.. Replication Refers to the process of giving a certain treatment numerous times in an experiment or of applying it to a # of different experimental units. 重复 - 把一个处理进行多次, 或把一个处理用在多个试验对象上 In general, a strong association does not imply causation. 通常, 非常强的关联性不代表因果关系. However, a strong association in data from a well designed experiment does imply causation. 但是数据中的一个强的的关联性, 如果是从一个设计得很好的试验中得到的话, 是可以意味着因果关系的. Lack of realism is the most serious potential weakness of experiments. the experimenter must have an excellent knowlede of the subject matter of the experiment, as well as the knowledge of the statistical principles. 缺少真实性是唯一一个严重的可能有的试验缺陷. 一个试验者必须对其试验主题和统计原理非常了解才能更好的避免这个问题. 第五章完 .. |
最近读者:





