免费送彩金_注册免费彩金网站大全_澳门新旧永利
当前位置:首页»quantile»分位数

正态分布分位数 不是正态分布 | 协和八

2018年07月04日 来源:正态分布分位数 大字体小字体

  我们说过,总体分布我们无法直接测量。当样本是随机抽取的情况下,总体的分布和样本分布会随着样本量的增加趋于接近(这在统计学上称为大数定律)。于是我们可以用样本(即采集到的数据)分布来近似总体分布。

  蓝精灵们运用了t检验的知识,发现格格巫做的包子显著地小于食堂的标准。一起要把格格巫抓起来绳之以法,没想到格格巫却很淡定,气定神闲地说了句:「你们用t检验,合适吗?我统计学学得少,你们可不要骗我,我怎么听说,要用t检验,数据要符合正态分布呢?」蓝精灵们还得继续加把劲儿,先得证明数据确实是满足t检验对正态性的要求。

  对于服从正态分布的过程的特性X,其0.135%分位数X0.135%=μ-3σ,99.865%分位数X99.865%=μ+3σ,因此,过程变异的宽度=6σ。

  蓝精灵们为了查出格格巫做的包子是不是小于食堂标准,随机抽取了100个包子作为样本,通过这一样本来推测包子总体的平均值有没有显著的不同于一个已知的标准值。由于包子大小的随机性,如果重复抽样多次,每次抽样的样本平均值会不一样,并在总体平均值周围浮动,t检验其实是利用了抽样的样本平均值的分布来计算p值的(详情请戳此处回顾《》)。

  1.总体的分布:格格巫完成的所有包子的质量的分布

  装备上了中心极限定理的蓝精灵们又跑过去找格格巫理论,格格巫显然有点坐不住了,但是他还是要垂死挣扎一下:「别跟俺扯神马中心极限定理,那说的都是样本量很大时候的事儿,你真能证明抽样分布确实是正态的么?」

  为了体现样本量对抽样分布的影响,我们考虑样本量分别为3和15的情形。在这两种情形下,我们分别让计算机抽取20000个样本,然后作出这些样本均值的频率直方图(也就是近似的抽样分布)。可以看到,当样本量为3时,抽样分布的形状还有明显的不对称;但当样本量为15时,抽样分布看起来已经很接近于一个正态分布了。

  在下图中,我们可以看到中心极限定理的威力。在这个例子里,我们先从一个明显不服从正态分布的总体分布出发,然后从这个分布里随机抽样,计算样本平均值。

  在上一集《》里,我们追随蓝精灵智斗格格巫的足迹,学习了t检验的不同类型。今天我们来原文再续,书接上一回:

  那么,多大的样本是足够大呢?

  这三个分布里面,只有样本(也就是测量到的100个包子质量)的分布是看得见摸得着的。总体的分布我们自然不知道(要是知道了哪里还用得着做统计?),它是我们最终想要了解的对象。

  2:正态分布的Q-Q图:在spss里的基本统计分析功能里的探索性分析里面可以通过观察数据的q-q图来判断数据是否服从正态分布。

  首先我们可以从t检验的原理回顾一下,正态性的要求具体是指什么。

  在我们推导t检验背后原理的时候,其实涉及到了三个概率分布:

  可是,我们刚才说了,要算出抽样分布,我们得先知道总体分布。但我们并不知道总体分布是什么呀?

  也就是说,当样本量足够大时,抽样分布的正态性就会比较好,t检验计算出的p值从而比较准确。

  中心极限定理!

  3.抽样分布:假设样本量为100个包子,如果蓝精灵重复多次抽取样本(抽取许多批包子,每批100个),不同的样本会产生稍微不一样的平均质量。在假想的情境中,蓝精灵重复抽取无限多的样本,此时它们得到的所有样本的平均质量就会形成一个新的分布。这种样本平均值(或者样本的其他统计量,如标准差等)因为抽样随机性产生的分布,称为抽样分布。

  可是,要进行假设检验,我们恰恰需要了解抽样分布。我知道你耳朵都要听出茧子了,不过我们还是得再回顾一遍p值的定义——在原假设为真(格格巫的包子平均质量不小于食堂规定标准)的前提下,观察到与我们的数据(蓝精灵抽取的包子样本平均质量)相同或更极端的数据的概率。

  我们知道,标准正态分布的均值是0,方差是1,左右一个方差内的概率是68%,两个方差内是95%,三个方差内是99%。

  你看,既然这个概率是关于样本平均质量的,那不就应该从抽样分布里算吗?

  中心极限定理从理论上面保证了只要样本量足够大,不论数据总体是不是呈正态分布,样本均值的分布(抽样分布)都会近似为正态分布(可回顾《》和《》)。

  嘿嘿,别忘了我们的终极武器——

  这个问题很难给出一个一刀切的答案。在上图这个例子里,总体分布虽然不对称,但大体趋势相差不远,因而样本量n达到15左右就已经能使抽样分布具有相当好的正态性了。但是,如果总体分布非常不正态(比如说不连续或者两头大中间小),要使抽样分布接近正态的n就要大得多了。

  2.样本的分布:被随机抽取的100个包子的质量的分布

  简单来说,如果样本的抽取是完全随机的,总体的分布和样本分布会很接近。而最抽象的就是抽样分布了,因为我们实际操作中,并不可能真的重复抽取无限多的样本(哼,这种要把本宝宝累死的事情我才不干!)。

  幸运的是,借助统计学的原理,给定总体的分布,我们就能推算出样本平均值服从的分布,也就是抽样分布。

  而且更重要的是,t检验是否适用,抽样分布是关键——不管样本或者总体符合什么分布,只要抽样分布是正态的,t检验就是可靠有效的。

  如果总体本身就是符合正态分布的话,那从这个总体里面随机抽取的样本的平均值就一定是服从正态分布的,而不仅仅是在n值较大时近似正态分布。所以蓝精灵们得想出一些办法来考察总体分布的形状,如果总体是服从正态分布的,格格巫就再也无话可说了。

相关内容

编辑精选

Copyright © 2015 免费送彩金_注册免费彩金网站大全_澳门新旧永利 . All rights reserved.