数据错误
统计谬误是数据可以利用的常见伎俩,它会导致数据解释和分析中的错误。通过现实生活中的例子,探索一些常见的谬误,并找出如何避免它们。
选择符合你要求的结果并排除不符合要求的结果的做法。对数据不诚实的最坏和最有害的例子。

当提出一个案例时,数据会增加份量——无论是一项研究、实验还是你读过的东西。然而,人们往往只强调支持他们观点的数据,而不是整个结果。这在公开辩论和政治中很普遍,双方都可以提出支持自己立场的数据。采摘可以是有意的,也可以是无意的。通常,当你接收二手数据时,有人有机会选择分享什么数据,从而歪曲他们兜售的任何观点的真相。当你在接收数据的时候,一定要问自己:“有什么是你没有告诉我的?”
相关阅读:
数据挖掘是指未能认识到相关性实际上是偶然的结果。

只有当你预先定义了你的假设时,统计学显著性检验才有效。从历史上看,这一直是临床试验的一个问题,研究人员对结果进行“数据挖掘”,并改变了测试对象。这解释了为什么科学期刊上发表的许多结果后来被证明是错误的。为了避免这种情况,现在注册临床试验已经成为标准做法,提前说明你的主要终点是什么。
相关阅读:
从一组不完整的数据中得出结论,因为这些数据已经“幸存”了一些选择标准。

在分析数据时,问问自己哪些数据是你没有的是很重要的。有时,由于您所获得的数据在某种选择中幸存下来,所以整个画面变得模糊。例如,在第二次世界大战中,一个小组被问到在哪里最好地安装飞机装甲。从战场回来的飞机除了引擎和驾驶舱外,到处都是弹孔。该小组决定最好在没有弹孔的地方安装装甲,因为在这些地方射击的飞机还没有回来。
相关阅读:
当激励产生预期的相反结果时。也被称为一种反常的激励。

眼镜蛇效应得名于一个历史传说,当解决问题的动机造成意想不到的负面后果时,就会发生眼镜蛇效应。据说在19世纪,大英帝国想要减少印度的眼镜蛇咬伤死亡率。他们为每一块眼镜蛇皮提供经济奖励,以激励他们捕猎眼镜蛇。但相反,人们开始种植它们。当政府意识到激励不起作用时,他们将其移除,于是眼镜蛇养殖者释放了他们的蛇,增加了蛇的数量。在设定激励或目标时,要确保你没有无意中鼓励错误的行为。
相关阅读:
当两个事件同时发生时,错误地认为一定是一个事件导致了另一个事件。

在过去的150年里,全球气温一直在稳步上升,海盗的数量也在以类似的速度下降。没有人会合理地宣称,海盗数量的减少导致了全球变暖,或者更多的海盗会扭转这种局面。但通常情况下不会这么明确。通常,两件事之间的关联让我们相信其中一件事导致了另一件事。然而,这通常是一个巧合,或者有第三个因素导致了你所看到的这两种效果。以海盗和全球变暖为例,两者的原因都是工业化。永远不要仅仅因为相关性就假定因果关系——总是要收集更多的证据。
相关阅读:
故意操纵政治选区边界以影响选举结果的行为。

在许多政治体系中,通过重新定义政治选区——在一个选区中包括更多的农村地区,从而使在城市中更受欢迎的政党处于不利地位,等等,可以操纵一个政党击败另一个政党的可能性。在分析数据时也会出现类似的现象,称为可修改面积单位问题(MAUP)。你如何定义收集数据的区域——例如,你如何定义“北方县”——可能会改变结果。用于分组数据的规模也有很大的影响。不管使用的是邮政编码、县还是州,结果都会有很大的不同。
相关阅读:
从一组不能代表你想了解的人群的数据中得出结论。

这是选举民意调查中的一个经典问题,由于自我选择或分析师的偏见,参与民意调查的人不能代表全部人口。一个著名的例子发生在1948年,当时《芝加哥论坛报》(Chicago Tribune)根据一项电话调查错误地预测托马斯·e·杜威(Thomas E. Dewey)将成为下一任美国总统。他们没有考虑到只有特定的人群买得起电话,把整个人群排除在他们的调查之外。确保考虑你的研究参与者是否真正具有代表性,不受一些抽样偏差的影响。
相关阅读:
一种错误的信念,认为某件事比平常发生得更频繁,所以它现在不太可能在将来发生,反之亦然。

这也被称为蒙特卡洛谬论,因为1913年发生在轮盘赌桌上的一个臭名昭著的例子。黑球连续26次落在黑球上,赌徒们赌黑球输掉了数百万,他们认为连胜必须结束。然而,不管过去发生了什么,黑色和红色的概率总是相同的,因为潜在的概率是不变的。轮盘赌桌上没有内存。当你被这个谬论所诱惑时,提醒自己,宇宙中并没有纠正力量来“平衡事物”!
相关阅读:
当发生异常好或不好的事情时,随着时间的推移,它将恢复到平均水平。

任何随机因素在结果中起作用的地方,你都有可能看到向均值的回归。例如,商业上的成功往往是技巧和运气的结合。这意味着,今天表现最好的公司在10年后可能会更接近平均水平,不是因为它们不称职,而是因为它们可能从一连串的好运气中获益——比如反复掷出双6。
相关阅读:
当监视某人的行为会影响那个人的行为时。也被称为观察者效应。

20世纪20年代,在伊利诺伊州的霍桑工厂,一项社会科学实验假设,工人在工作时间、照明水平和休息时间等环境发生变化后,工作效率会提高。然而,事实证明,真正激发工人生产力的是对他们感兴趣的人。在使用人体研究对象时,分析结果数据并考虑霍桑效应非常重要。
相关阅读:
一种现象,某一趋势出现在不同的数据组中,但当这些数据组合并时,趋势消失或逆转。

20世纪70年代,伯克利大学被指责性别歧视,因为女性申请者被录取的可能性低于男性申请者。然而,当试图确定问题的来源时,他们发现对于个体受试者来说,女性的接受率通常比男性好。这一悖论是由男性和女性申请的科目不同造成的。更多的女性申请者申请竞争激烈的科目,这些科目的录取率对男女都低得多。
相关阅读:
在复杂的情况下,仅仅依靠指标可能会导致你忽视全局。

以美国国防部长罗伯特·麦克纳马拉(1961-1968)的名字命名,他认为只有在数据和严谨的统计中才能找到真相。这个谬论指的是他在越南战争中以敌人的死亡人数作为衡量胜利的标准。沉迷于此意味着其他相关的见解,如美国公众的情绪变化和越南人民的感情,在很大程度上被忽视了。当我们分析复杂的现象时,我们经常被迫使用一个指标来代表成功。然而,武断地优化这个数字并忽略所有其他信息是有风险的。
相关阅读:
一个更复杂的解释通常比一个简单的解释更好地描述你的数据。然而,更简单的解释通常更能代表潜在的关系。

在查看数据时,您需要了解底层关系是什么。为此,您需要创建一个数学描述模型。问题在于,更复杂的模型比简单的模型更适合初始数据。然而,它们往往非常脆弱:它们适用于您已有的数据,但过于努力地解释随机变化。因此,只要添加更多数据,它们就会崩溃。简单的模型通常更稳健,更能预测未来趋势
相关阅读:
一项研究发现的有趣程度会影响其发表的可能性,从而扭曲我们对现实的印象。

对于每一项显示统计显著结果的研究,可能都有许多类似的测试是不确定的。然而,重要的结果更有趣,因此更有可能被发表。不知道有多少“无聊”的研究被归档,会影响我们判断所读结果有效性的能力。当一家公司声称某项活动对增长产生了重大的积极影响时,其他公司可能也尝试过同样的事情但没有成功,所以他们不会谈论它。
相关阅读:
只看数据集的概要度量可能会产生误导。

为了证明这种效果,统计学家弗朗西斯·安斯科姆(Francis Anscombe)在20世纪70年代将四个样本数据集放在一起。被称为Anscombe的四重奏,每个数据集都有相同的均值、方差和相关性。然而,当用图表表示时,很明显每个数据集都是完全不同的。Anscombe想要表达的观点是,数据的形状与汇总指标一样重要,在分析中不可忽视。