统计学中的相关性和因果关系

一天午餐时,一位年轻女士正在吃一大碗冰淇淋,一位同事走到她跟前说:“你最好小心点,冰淇淋和溺水之间有很高的统计相关性。”当他进一步阐述时,她一定是困惑地看了他一眼。“在冰淇淋销售最多的日子里,溺水的人也最多。”...

一天午餐时,一位年轻女士正在吃一大碗冰淇淋,一位同事走到她跟前说:“你最好小心点,冰淇淋和溺水之间有很高的统计相关性。”当他进一步阐述时,她一定是困惑地看了他一眼。“在冰淇淋销售最多的日子里,溺水的人也最多。”

Student works on a mathematics problem on chalkboard

当她吃完我的冰淇淋后,两位同事讨论了一个事实,即仅仅因为一个变量在统计上与另一个变量相关,并不意味着一个变量是另一个变量的原因。有时有一个变量隐藏在背景中。在这种情况下,一年中的某一天隐藏在数据中。在炎热的夏天卖的冰淇淋比在下雪的冬天卖的多。夏天游泳的人比冬天多,因此夏天淹死的人比冬天多。

小心潜在的变量

上述轶事是一个被称为潜伏变量的主要例子。顾名思义,潜伏变量可能是难以捉摸和难以检测的。当我们发现两个数值数据集是强相关的时,我们应该总是问,“是否还有其他原因导致这种关系?”

以下是潜在变量引起的强相关性示例:

  • 一个国家的人均计算机数量和该国的平均预期寿命。
  • 火灾中消防员的人数以及火灾造成的损失。
  • 小学生的身高及其阅读水平。

在所有这些情况下,变量之间的关系非常密切。这通常由值接近1或-1的相关系数表示。无论这个相关系数与1或-1有多接近,这个统计数据都不能表明一个变量是另一个变量的原因。

潜在变量的检测

就其性质而言,潜伏变量很难检测。一种策略(如果可用)是检查数据随时间的变化。这可以揭示季节性趋势,例如冰淇淋的例子,当数据集中在一起时,这些趋势变得模糊。另一种方法是查看异常值,并尝试确定它们与其他数据的不同之处。有时,这提供了幕后发生的事情的线索。最好的做法是积极主动;仔细质疑假设并设计实验。

为什么这很重要?

在开头的场景中,假设一位善意但统计上不知情的国会议员提议禁止所有冰淇淋,以防止溺水。这样一项法案将给大部分人带来不便,迫使几家公司破产,并在该国冰淇淋行业关闭时消除数千个工作岗位。尽管本意是好的,但这项法案不会减少溺水死亡人数。

如果这个例子看起来有点牵强,请考虑下面的事实。在20世纪初,医生们注意到一些婴儿在睡眠中神秘地死于呼吸问题。这被称为婴儿床死亡,现在被称为小岛屿发展中国家。对死于SIDS的患者进行的尸检中突出的一件事是胸腺增大,这是一个位于胸部的腺体。根据SIDS婴儿胸腺增大的相关性,医生们推测异常增大的胸腺会导致呼吸不正常和死亡。

建议的解决方案是用高剂量的辐射收缩胸腺,或者完全切除腺体。这些手术死亡率很高,导致更多的死亡。可悲的是,这些手术不必进行。随后的研究表明,这些医生的假设是错误的,胸腺不是SIDS的原因。

相关性并不意味着因果关系

当我们认为统计证据被用来证明医疗方案、立法和教育建议等合理性时,上述情况应该让我们停下来。在解释数据时做好工作是很重要的,特别是当涉及相关性的结果将影响他人的生活时。

当有人说,“研究表明A是B的一个原因,一些统计数据支持它,”准备好回答,“相关性并不意味着因果关系。”总是要注意数据背后隐藏着什么。

  • 发表于 2021-10-07 02:42
  • 阅读 ( 113 )
  • 分类:数学

你可能感兴趣的文章

如何用excel求相关系数

... 如果你对因果关系感兴趣,你需要使用线性回归。您还可以通过数据分析工具包访问它。(本文不会详细介绍线性回归的工作原理,但有大量免费的统计资料可以帮助您了解基础知...

  • 发布于 2021-03-11 16:27
  • 阅读 ( 572 )

你应该避免的四个常见的统计误解

...应该合理地用“假设没有变化”这个短语并不总是意味着因果关系的相关性(但可能)避免“相关性并不意味着因果关系”的谬论是一个古老的爱好。事实上,它是如此古老,以至于它有自己的拉丁格言:cum hoc ergo proptor hoc。然...

  • 发布于 2021-05-23 13:22
  • 阅读 ( 173 )

如何使用excel计算相关性?

什么是相关性(correlation)? 相关性衡量两个变量之间的线性关系。通过测量和关联每个变量的方差,相关性给出了关系强度的指示。 换句话说,相关性回答了一个问题:变量A(自变量)在多大程度上解释了变量B(因变量)? ...

  • 发布于 2021-06-11 21:09
  • 阅读 ( 163 )

相关系数正、负和零意味着什么?

...是衡量两个变量之间线性关联的强度和方向的指标,没有因果关系的假设。皮尔逊系数显示相关性,而不是因果关系。皮尔逊系数范围从+1到-1,+1表示正相关,-1表示负相关,0表示无相关。 简单线性回归使用统计模型描述响应...

  • 发布于 2021-06-12 05:23
  • 阅读 ( 844 )

负相关

...一个变量随着另一个变量的减少而增加,反之亦然。 在统计学中,完全负相关用-1.0表示,0表示无相关,+1.0表示完全正相关。一个完美的负相关意味着两个变量之间的关系一直是完全相反的。 关键要点 负相关或逆相关描...

  • 发布于 2021-06-12 15:52
  • 阅读 ( 248 )

因果关系(causation)和相关性(correlation)的区别

因果关系与相关性 在对因果关系和关联的理解和正确使用上存在许多混乱。这两个术语经常互换,特别是在健康和科学研究领域。 每当我们看到一个事件或行动与另一个事件或行动之间的联系时,脑海中浮现的是,这个事件...

  • 发布于 2021-06-23 12:47
  • 阅读 ( 415 )

协方差(covariance)和相关性(correlation)的区别

协方差与相关 协方差和相关是概率论和统计学中的两个概念。这两个概念都描述了两个变量之间的关系。另外,两者都是测量变量之间某种依赖关系的工具。 “协方差”被定义为“两个随机变量的期望值与它们的期望值之间...

  • 发布于 2021-06-24 07:48
  • 阅读 ( 607 )

相关性(correlation)和协会(association)的区别

...这种相关性也出现了,那么这两个变量之间确实存在某种因果关系的可能性,比如香烟和肺癌。   什么是协会(association)? 联想可能意味着很多事情,有时甚至可以与关联互换使用。然而,本文的重点将放在不允许这种情况的...

  • 发布于 2021-06-25 06:49
  • 阅读 ( 404 )

相关性(correlation)和回归(regression)的区别

...分布的两种分析方法。多元分布被描述为多变量的分布。相关性被描述为一种分析,它让我们知道两个变量“x”和“y”之间是否存在关联。另一方面,回归分析,根据自变量的已知值预测因变量的值,假设两个或多个变量之间...

  • 发布于 2021-07-09 07:41
  • 阅读 ( 421 )

二元(bivariate)和偏相关(partial correlation)的区别

...量的影响后,对两个变量的测量。 二元相关和偏相关是统计学中的两类相关。相关性是描述两个变量之间关系的概念。这些变量相互依赖。因此,二元相关和偏相关是对变量具有某种依赖性的度量工具。 为了确定变量之间是否...

  • 发布于 2021-07-13 15:29
  • 阅读 ( 416 )
1730782645
1730782645

0 篇文章

相关推荐