我们接着前面的内容继续讨论抽样逻辑。
对于抽样设计的人而言, 虽然出现误差是在意料之中的,可误差真的出现的时候,
似乎又很难接受,尽管如此,面对误差,要么接受误差, 到底能接受多大的误差呢?
每一类研究对于误差的可接受范围是有约束的,约束的
条件来自于研究问题的特征,或者研究变量的总体特征值,
比如,我们的研究问题,入学机会的概率通常在千分位,
即一个地区的学生,考入北京大学的机会为千分之几,如果误差在百分位,
就是不可接受的误差。在研究实践中, 通常使用可接受误差的经验值,
例如,可接受百分之三的误差,百分之五的误差,一般而言不超过百分之五,
超过百分之五,估计值的执行区间就会小于百分之九十。
对我们的研究课题而言指的是千分位以上的百分之三到百分之五。
当然,对估计精度的要求尽管与统计推论有密切关系, 更重要的是与可用资源之间有密切的关系。
人、财、物、时间、技术、能力,
都是重要的影响因素。举一个例子,2011年在做
医改满意度调查时,春节期间,贵州北部的一个样本村大雪封山,调查人员根本进不去,
放弃村子的几十个样本就会出现误差,如果不放弃, 又不可能始终等着,此时就必须做出选择。
如果由放弃产生的误差在可接受的范围之内,
那么就可以放弃,如果不得不放弃同时产生的误差又超出了可接受的范围,
就只能遗憾地宣布调查没有成功。这就是为什么说, 社会调查与研究始终会面对遗憾。
尽管如此,面对误差, 我们还有选择,那就是尽量减少误差,
解铃还须系铃人,既然误差是从代表性来的, 无论用什么方法,尽量获得代表性的样本,
就是减少误差最根本的途径。
问题是,如何寻找代表性的样本呢?我们来看一个例子,教材中的例子。
用十个人的收入作为例子,显然在统计上是有错误的,
我们假设这里不是真的十个人,而是一百个人,甚至一千个人中收入有十个类别好了,
每个人的收入状态不一样,男的,女的都有, 且不管男女,只管收入,从零到九都有。
假设在十个人中,只抽取一个样本,有多少种可能呢?
每一个人被抽中的概率是十分之一,十种可能对吗?
每次抽到的样本对总体的代表性都不相同,以平均值为例, 真实的平均值为
4.5美元,我们看估计平均值的点,横轴与4.5美元之间都有差距,没有一个点
是在4.5美元上,可以说完全没有代表性,对吗? 假设我们增加样本量到2,
每一个人被抽中的概率为十分之二,有四十五种可能对吗,还是以平均值为例,
真实的平均值为4.5美元,我们看估计的平均值的点, 不像样本量为一那个时候的
分散了,集中在真实平均值上的点有五个,是最多的,对吗?
也就是说,代表性在增强。我们进一步增加样本量到三和四,
增加样本量为三时,每一个人被抽中的概率为十分之三,有一百二十种可能,
同样等于真实平均值的估计值也是最多的。同理看右边的图,
样本量为四时,等于真实平均值的估计值更加集中了对吗? 不仅如此,左右两边的图都显示出
估计值的范围在逐步收敛,对吗? 进一步地,将样本量增加到五、
六,我们看到了,不仅估计值中等于真实平均值的数量在增加, 估计值的范围也在进一步地收敛,
在样本量为一的时候, 当样本量为六时,估计值的范围已经收敛到2.5到6.5之间了,
与真实平均值之间的差距就更短了, 这就意味着代表性更强了。
呵呵,有点意思了。在一个完全
异质性的总体中,随着样本量的增加,样本对总体特征值的代表性在逐步增强,
误差在逐步缩小,用增加样本量的方式是不是就可以减少误差呢?
如果是,我们是不是可以把所有的对象都纳入?普查,还是有必要啊,
问题是,除了国家,谁会有如此的资源呢? 还有,既然在总体中存在着同质性,
就没有必要把所有的对象都纳入,用同类代表就具有经济性。
如此,抽样面对的问题就变成了有没有办法在样本量足够大的情况下, 比较逼真地接近于真实值呢?
为了进一步讨论地方便,我们需要了解三个非常重要的概念,第一,
抽样分布。抽样分布,又称统计量分布,指样本估计值的分布,
如果按照给定的样本容量,注意,条件很重要,
用同一种抽样方法反复抽样,每一套样本都 可以计算一个估计值,比如说,均值,前面的例子中,
当样本容量为五时,用简单随机抽样方法抽了二百五十二套样本,
每一套都有一个均值,这就得到了一个估计值的分布,
那么估计值呢,也应该是随机的,也遵从一定的分布,这就是抽样分布。
抽样分布可以用来测量抽样方法的稳定性。
第二个重要的概念,总体分布。
总体,不是说总体有怎样的分布,指的是总体特征值的分布,
总体中研究变量特征值的分布,比如说某个班级的年龄会有一个分布,对吧?
年龄,是我们的研究变量,由每一位同学的年龄构成,在年龄序列上的分布
就是特征值的分布,也叫总体分布,总体分布并不总是可得的,
即使可得,也不满足经济性原则,因此,对样本特征值的了解非常重要。
同样,样本特征值也有一个分布,假定从规模一百人的班级中抽取十位同学作为样本,
这十位同学有一个年龄分布, 问题在哪里呢?回到代表性上来了,
如果说,这十个人的年龄分布与一百个人的年龄分布拟合度越高, 那么就年龄分布而言,
代表性就越高,抽样误差也就越小。
否则,抽样误差就越大,重复一遍,抽样分布, 是估计量的分布,样本分布,则是特征值的分布。
从上面的讨论中我们已经了解到,一方面, 样本量的大小与推论误差的大小有直接的关系,样本量越接近于总体,
推论误差就越小,尽管每一位从事社会调查与研究的人都希望有大样本量,
可是有资源的约束却使我们不得不考虑如何经济地获得
充分代表整体的样本,因此,社会调查与研究的两难就在于如何在资源约束、 经济性和可接受误差之间作出合理的选择。
这一节,既有原理,也有概念,内容比较丰富。下边呢,我们做一个小结。
抽样的基本逻辑,就是运用同质性和异质性的原理,
在了解总体的特征值分布的前提下, 在有限资源的约束下,既要经济有效地用代表推论总体,
又要尽可能地降低推论中的误差,提高代表性, 尽量少花钱多办事,这就是抽样的原则。
听起来似乎抽样是问卷调查的事,其实不是,
实证研究都有抽样问题,几乎所有搜集数据
的过程,都涉及抽样。这一节的内容就到这里,谢谢大家。