平均值vs中值vs模式
平均数、中位数和模式是描述性统计中用来衡量集中趋势的主要指标。它们完全不同,用于汇总数据的情况也不同。
中庸
算术平均数是数据值的总和除以数据值的个数,即。
If the data is from a sample space it is called a sample mean (), which is a descriptive statistic of the sample. Although it is the most commonly used descriptive measure for a sample, it is not a robust statistic. It is very sensitive to the outliers and oscillati***.
例如,考虑一个特定城市市民的平均收入。由于所有的数据值都被相加,然后再除以,一个非常富有的人的收入会显著影响平均值。因此,平均值并不总是很好地表示数据。
另外,在交流信号的情况下,通过元件的电流周期性地从正方向变化到负方向,反之亦然。如果我们取单个周期内通过元件的平均电流,它将给出0,这意味着没有电流通过元件,这显然是不正确的。因此,在这种情况下,算术平均是不好的。
当数据分布均匀时,算术平均值是一个很好的指标。对于正态分布,平均值等于模态和中值。当考虑均方根误差时,它的残差最小;因此,当需要用单个数字表示数据集时,它是最好的描述性度量。
中值的
将所有数据值按升序排列后的中间数据点的值定义为数据集的中值。中位数是第2个四分位数、第5个十分位数和第50个百分位数。
•如果观测值(数据点)的数量为奇数,则中值为位于有序列表中间的观测值。
•如果观测值(数据点)为偶数,则中值为有序列表中两个中间观测值的平均值。
中值将观察结果分为两组,即一组(50%)的值高于中值,另一组(50%)的值低于中值。中位数专门用于偏态分布,并且比算术平均值更能代表数据。
模式
模态是一组观测值中出现最多的一个数。通过计算数据集中每个元素的频率来计算数据集的模式。
•如果没有值出现不止一次,则数据集没有模式。
•否则,以最大频率出现的任何值都是数据集的一种模式。
一个集合中可以存在多个模式;因此,模式不是数据集的唯一统计信息。在均匀分布中,有一种模式。离散概率分布的模式是概率质量函数达到其最高点的点。从上述解释来看,我们可以说,全局极大值是模式。
考虑对以下数据集应用所有三个度量。
数据:{1,1,2,3,5,5,5,5,6,8,8,9,9,9,9,10,10,10,14,14,15,15,15}
平均值=(1+1+2+3+5+5+5+5+6+6+8+8+9+9+9+9+10+10+10+14+14+15+15+15)/25=8.12
中值=9(第13个元素)
模式=9(频率9=5)
平均值、中位数和模态有什么区别?
•算术平均值是值(观测值)除以观测值数量的总和。它不是一个稳健的统计,并且严重依赖于所考虑的分布中的正态分布性质。一个单独的离群值可能导致平均值的显著变化,给出相对误导的值。这个概念可以推广到几何平均、调和平均、加权平均等。
•中值是观测值集的中间值,受异常值的影响相对较小。作为高度倾斜情况下的汇总统计量,它可以给出一个很好的估计。
•模式是数据集中最常见的观测值。如果分布为正偏态,则模式位于中值左侧;如果为负偏态,则模式位于中值右侧。
•如果正偏差,则平均值位于中值右侧;如果负偏差,则平均值位于中值左侧。
•在正态分布中,平均值、模式和中位数均相等。