为什么小学初中学的样本方差分母是 n,可到了大学学管理统计学的时候方差分母却是 n-1 呢? 匡世珉,INTP 本来把这个问题重定向到为什么样本方差(sample variance)的分母是 n-1? - 数学这里的,但后来觉得这两个问题还是不太一样。 这个问题的关键在于,小学和初中学的并不是样本方差,而是总体方差。 总体方差的分母是 N,样本方差的分母是 (n-1). 举个例子:假如我现在得到了学校里某一个班级中每位同学的身高数值。 如果我想研究的是这个班级里同学的身高的方差,此时这个班级的同学作为总体,那么分母是 N. 如果我想研究的是这所学校里同学的身高的方差,此时这个班级的同学作为样本,那么分母是 (n-1). 以下是细致一点的回答 首先定义一下: 总体是在一个特定研究中所有感兴趣的个体的集合。描述总体的特性被称为参数。 样本是从一个总体中选择出来的个体的集合,通常在研究中被期望代表总体。描述样本的特性被称为统计量。 总体方差的公式是 ,其中 为总体平均数。 这个公式是在说什么呢?就是把每一个数据与总体平均数的差的平方加起来,再除以数据的个数。也就是说,这个公式算的是离差的平方的平均数。额,离差就是数据与平均数的差啦。 为什么要平方?因为我们要衡量的是离散程度(变异性),正方向偏离与负方向偏离都是偏离,不平方的话就抵消掉啦! 那为什么一定要是平方而不能是绝对值呢?看为什么用标准差而不是平均差来反映数据的离散程度?这里。 但方差对于变异性的测量基于距离的平方之上,所以我们定义标准差为: . 目前为止应该没什么问题,跟初中数学书上讲的都差不多…… 当我们从总体中选取样本的时候,情况就不太一样了。 这时候我们做的事情是推理统计,即使用从有限的样本中得到的信息作出关于总体的一般结论。此时我们必须用样本统计量来估计总体参数。(记不得这两个词就看一下开头的定义……) 这个过程的基本假设是这个样本能够代表它所在的总体! 然而,样本的变化总是小于总体的变化,如下图: 又因为离差越大的数据对方差影响就越大(因为平方嘛)而样本变异性小于总体变异性,这就意味着如果我们按照计算总体方差的方法来计算样本方差,得到的统计量就会偏小! 如果一个样本统计量对相应总体参数的估计过高或者过低,那么这个样本统计量就被称为有偏误的统计量。 所以,这样算出来的样本方差是有偏误的: ,其中 是样本平均数。 为了校正这个偏误,我们必须对样本方差的计算方法进行调整。 问题来了,要调整到什么样子才能被称为没有偏误呢? 设想,我们从总体里取出一个大小为 n 的样本,计算方差。这个方差往往跟总体方差不一样,对吧? 我们再取一个大小为 n 的不同的样本,计算方差。这次的结果往往又会跟上次不一样,对吧? 如果我们把总体中所有可能取出的大小为 n 的样本的方差都算出来,然后计算出它们的平均数,这个平均数就被称为是样本方差的期望,记为 . 当样本方差的期望 等于总体期望 时,这个方差就是无偏的。 更一般地说,如果样本统计量的期望等于相应的总体参数值,那么这个样本统计量就是无偏的。 调整之后的样本方差公式为: ,其中 是样本平均数。 我比较懒,就直接用书上的例子了: 一个 N=6 的总体:, 可以得出总体平均数 ,方差 . 接下来,我们从这个总体里选出所有的 n=2 的样本,然后计算出每个样本的平均数和方差。计算方差的时候,我们用调整前和调整后的公式分别计算: 我们先来看样本平均数这一列。没有一个样本平均数等于总体平均数 ,但是所有样本平均数的平均数(即样本平均数的期望)为 ,所以这是一个无偏的统计量。 再来看用除以 n 得到的样本方差这一列。它们的平均数为 ,而总体方差是 ,所以这是一个有偏的统计量。 最后来看除以 (n-1) 得到的样本方差这一列。尽管没有任何一个样本的方差恰好等于总体方差 ,但它们的平均数为 ,所以这是一个无偏的统计量。 至于为什么调整成除以 (n-1),这就是一个数学问题啦,具体的推导过程请看这个回答。 所以,回到题主的问题:分母不同是什么原因呢? 因为一个是总体方差,一个是样本方差,它们是不同的东西呀╮(╯▽╰)╭ 这篇回答献给那个正在学统计的小朋友=w= 那么就这样=w= 图片来源与参考资料: Frederick J. Gravetter, Larry B. Wallnau.《行为科学统计(第七版)》.中国轻工业出版社 查看知乎原文