理解统计学中的四分位区间

四分位数范围(IQR)是第一个四分位数和第三个四分位数之间的差值。计算公式如下:...

四分位数范围(IQR)是第一个四分位数和第三个四分位数之间的差值。计算公式如下:

007Ys3FFgy1gv9b115351g609p04w0sp02

IQR=Q3-Q1

对一组数据的可变性有许多测量方法。范围和标准偏差都告诉我们数据的分布情况。这些描述性统计的问题在于,它们对异常值非常敏感。四分位数范围是对数据集的扩展的一种度量,它更能抵抗异常值的存在。

四分位范围的定义

如上所述,四分位数范围是建立在其他统计数据的计算基础上的。在确定四分位数范围之前,我们首先需要知道第一个四分位数和第三个四分位数的值。(当然,第一和第三个四分位数取决于中位数的值)。

一旦我们确定了第一个和第三个四分位数的值,四分位数范围就很容易计算了。我们所要做的就是从第三个四分位数中减去第一个四分位数。这就解释了该统计数据使用术语四分位范围的原因。

实例

为了看到一个四分位数范围的计算的例子,我们将考虑数据集:2, 3, 3、4, 5, 6、6, 7, 8、8, 8, 9。这组数据的五个数字摘要是:

  • 最少2个
  • 3.5的第一个四分位数
  • 中位数6
  • 8的第三个四分位数
  • 最多9个

因此,我们看到四分位数范围为8–3.5=4.5。

四分位区间的意义

该范围为我们提供了整个数据集分布情况的度量。四分位数范围告诉我们第一个四分位数和第三个四分位数之间的距离,表示数据集中中间50%的分布情况。

对异常值的抵抗力

使用四分位范围而不是测量数据集分布的范围的主要优点是四分位范围对异常值不敏感。为了了解这一点,我们将看一个例子。

根据上述数据集,四分位数范围为3.5,范围为9–2=7,标准偏差为2.34。如果我们将最高值9替换为极端异常值100,则标准偏差为27.37,范围为98。尽管这些值有很大的变化,但第一和第三个四分位数不受影响,因此四分位数范围不会改变。

四分位数范围的使用

除了作为数据集传播的不太敏感的度量之外,四分位数范围还有另一个重要用途。由于其对异常值的抵抗力,四分位范围在确定值何时为异常值时非常有用。

四分位范围规则告诉我们是否存在轻度或重度异常值。为了寻找异常值,我们必须在第一个四分位数以下或第三个四分位数以上寻找。我们应该走多远取决于四分位范围的值。

  • 发表于 2021-10-09 19:54
  • 阅读 ( 433 )
  • 分类:数学

你可能感兴趣的文章

如何在microsoftexcel中绘制框须图

... 最小值:数据集中的最小值。 第一个四分位数:最小值和中间值之间的中间值——第25个百分位数。 中位数:数据集的中间值。 第三个四分位...

  • 发布于 2021-03-21 15:18
  • 阅读 ( 288 )

如何(以及为什么)在excel中使用outliers函数

...中讨论的方法。 如何在数据中发现异常值 要查找数据集中的异常值,我们使用以下步骤: 计算第1和第3个四分位数(我们将稍微讨论一下它们是什么)。 评估四分位范围(我们还将进一步解释这些)。 返回数据范围的上限和...

  • 发布于 2021-04-04 02:15
  • 阅读 ( 733 )

五分位数

...或低端的异常值可能会增加或减少平均值。因此,在试图理解数据和平均值时,值得考虑数据点的分布和任何显著的异常值。 五分位数的常见用法 政客们援引五分位数来说明政策变革的必要性。例如,一位拥护经济正义的政...

  • 发布于 2021-06-11 02:16
  • 阅读 ( 830 )

标准差(standard deviation)和标准误差(standard error)的区别

...的技术免责声明 将标准差视为“平均偏差”是从概念上理解其含义的一个很好的方法。然而,它实际上并不是作为平均值来计算的(如果是的话,我们称之为“平均偏差”)。相反,它是“标准化”的,一种使用平方和计算值...

  • 发布于 2021-06-24 19:20
  • 阅读 ( 1270 )

百分比(percentage)和百分位数(percentile)的区别

...息。当我们使用百分比而不是分母不同的分数时,使用和理解差异往往更容易。 为了便于比较,使用百分比是标准化不同数量的一种简单方法。因此,百分比有许多应用,并用于许多不同的情况,甚至在日常生活中。   比如...

  • 发布于 2021-06-25 04:28
  • 阅读 ( 668 )

t检验(t-test)和f试验(f-test)的区别

...均值的假设,而f检验用于检验样本方差的假设。结论在统计学的世界里,对样本数据进行一些检验,以检验所要求的假设。其中两个检验是t检验和f检验。T检验用于检验给定均值与样本均值是否存在显著差异。另一方面,使用F-...

  • 发布于 2021-07-07 02:30
  • 阅读 ( 1051 )

以图形形式显示数据

...同样的信息通常可以以图形的形式呈现,这使得它更容易理解,也不那么吓人。图表通过视觉而不是文字或数字来讲述故事,可以帮助读者理解调查结果的实质,而不是数字背后的技术细节。 在显示数据时,有许多图形选项...

  • 发布于 2021-09-12 06:09
  • 阅读 ( 193 )

什么是第一和第三个四分位数?(the first and third quartiles?)

...一的数据将低于这一水平。因为我们处理的是原始数据集的四分之一,所以数据下半部分的中值称为第一个四分位数,用Q1表示。 第三个四分位数 我们没有理由看数据的下半部分。相反,我们可以看看上半场,执行与上面相...

  • 发布于 2021-09-21 10:01
  • 阅读 ( 244 )

什么是内部和外部围栏?(inner and outer fences?)

...大多数其他数据有很大差异的值。当然,对异常值的这种理解是不明确的。要被视为异常值,该值与其余数据的偏差应该有多大?一位研究人员所说的离群值会与另一位研究人员的离群值相匹配吗?为了给异常值的确定提供一些...

  • 发布于 2021-09-24 12:25
  • 阅读 ( 408 )

置信区间:4个常见错误

...置信区间是推断统计的关键部分。我们可以使用概率分布中的一些概率和信息,通过使用样本来估计总体参数。置信区间的陈述方式很容易被误解。我们将研究置信区间的正确解释,并调查与此统计领域相关的四个错误。 什...

  • 发布于 2021-09-27 06:37
  • 阅读 ( 375 )
lr35hx
lr35hx

0 篇文章

相关推荐