随机抽样

这是收集数据的主要方法,核心是必须保证每个对象被抽到的概率完全相等。但大部分调查的对象是人群,人口组成非常复杂。如果不能保证等概率抽样,抽样数据就会存在“偏见”,就会得出错误结论。

1. 选择性偏见:样本选择带有潜在倾向性时就会出现。

1936年美国总统大选时,《文学文摘》杂志面向订阅者开展的民意测验,是史上知名度最高的统计错误。杂志编辑没有意识到,订阅这本杂志的人平均来说要比普通美国民众更富有,他们更倾向于投票给保护富人利益的共和党。这样带有选择性偏见的样本即使容量很大,也无法正确反映民意。

2. 幸存者偏见:如果样本中有数据缺失,会导致样本组成发生改变。

很多投资基金公司会同时开放20只新基金,经过三年的经营,总会有2到3只基金连续三年“跑赢”标准普尔指数。公司只要把十几只失败的基金悄悄关闭,大肆宣传这两三只“幸存者”,就可以把投资者的钱骗进来了。而实际上,这些“幸存”基金接下来的表现会逐渐回归平均水平。

3. 健康用户偏见:用来比对的样本其实选择在了不同群体当中。

假设卫生部门发现,哈佛大学新生中有98%的人在少年时期穿紫色睡衣,而监狱里的犯人中只有3%的人这样做过。因此得出了一个结论:穿紫色睡衣的孩子确实更有可能取得成功。这很显然是很荒谬的结论,这个问题在于我们用来对比的两组人根本就是两类人。真正对孩子大脑发育起作用的,是给孩子穿上紫色睡衣的家长,他们更注重对孩子的家庭教育。


图片发自App

你可能感兴趣的:(随机抽样)