张珺,大部分时候是理性人 介绍一些统计、调查的基本知识。 网络投票中的「民调」和通常主流媒体所说的「民调」,两者的意义相去甚远。简单而言,这两种调查中,投票者来自不同的两个总体。 比如我们在看到一份新浪新闻的调查问卷时,它的投票者总体基本是「看新浪新闻并有意愿进行投票的人」,不能代表网易用户,也不能代表知乎用户,更遑论代表中国网民甚至中国人民。而同样的道理,适用于诸位看到的任何网络投票(哪怕是主流媒体或权威机构)。 还有什么呢?网络投票所抽取的,是一种「自愿回应样本」 (Voluntary response sample),受访者是主动加入到投票中的。在一些议题中,持某些观点的人会有更强的意愿表达自己的意见,从而造成样本是有偏的,在一些情况下甚至可能离真实情况相去甚远。 (推荐一个回答:「数据会说谎」的真实例子有哪些?) 仅仅是概念性的解释肯定会让人不服气。一个最常见的反驳思路是:投票 A 有几十万人参与,而投票 B 只有几百人,怎么可能 B 比 A 更准?下图是该思路的通常表达形式: 这里就需要插入一个问题:我们在做调查时,需要多大的样本量?我建议在往下看前,自己凭感觉猜猜看以下条件下,所需要的样本量(全部为 95% 置信度): 1、1000 人 ,5% 的误差。 2、10000 人,5% 的误差。 3、100000 人,5% 的误差。 4、324583363 人(现美国人口数,http://www.census.gov/popclock/),5% 的误差。 5、324583363 人,3% 的误差。 想好了么,下面公布答案: 如果对以上答案有疑问的,请到 Sample Size Calculator 自行计算,或采取自行根据公式计算,找其他的样本量计算器等方法。 当总体足够大时,这个总体是多少,并不影响样本量(因其近似于二项分布),公式是:n=Z^2*P(1-P)/E^2。 n- 样本量 Z- 置信水平,95% 时是 1.96。 P- 总体比例,取最大值时 P=0.5。 E- 允许的误差范围 在能做到足够好「随机抽样」的前提下,想在 95% 置信度下满足 ±3% 的误差,1000 多人的样本量已经足够。 这也是为什么我们看到的主流媒体「民调」通常在千人上下,因为这是一个在精确度和花费上得到较好折中的选择:从 5% 到 3% 所需要的样本量上升了不到 700 人,而如果要再提高到 1%,则需要近万的样本量,这从时间和经济成本上都是难以接受的。 那么主流媒体一般是怎么去努力做到「随机抽样」的呢?答案是电话 / 手机调查,这首先有赖于电话 / 手机的高普及率。事实上在电话还比较昂贵的 1948 年,试图用电话调查扩大样本量的盖洛普们就出了洋相,因为接受电话调查的群体和「美国人民」的总体就有很大的偏差。而在 2016 年,如果只使用固定电话调查而忽略了手机用户,同样无法反映真实的声音。 (下图:皮尤研究中心在所进行的电话调查中,手机调查占比的变化趋势。) 为了避免系统偏差,主流媒体或研究机构一般会有一系列的配套措施去保证民调尽可能的准确,这里不赘述。而很显然,目前的这些网络调查是不具备什么纠偏能力的,它所能代表的「总体」,和一般意义上民调所代表的「总体」并不一致。 阅读原文