Page 1 of 1

统计学中的中位数、均值、众数是什么意思?

Posted: Thu Jan 16, 2025 4:16 am
by nurnobi40
中位数是统计学中集中趋势的度量。它表示将样本或有序数据集划分为两组元素数量相等的值。

换句话说,中位数是位于一系列有序数据中间的值。

什么是平均数?
平均值本质上是数据集的模型。这是最常见的值。

但是,您会注意到,平均值通常不是您在数据集中观察到的实际值之一。然而,它的重要属性之一是它可以最大限度地减少预测数据集中任何值的错误。也就是说,它是数据集中所有其他值中产生最小误差的值。

平均值的一个重要属性是它包含数据集中的所有值作为计算的一部分。此外,平均值是集中趋势的唯一度量,其中每个值与平均值的偏差之和始终为零。

平均值有一个主要缺点:它特别容易受到异常值的影响。与数据集的其余部分相比,这些是不寻常的值,数值特别小或特别大。

通过黑带认证,您将获得扎实的方法论工具知识,以及协调人员和改 美国数据 进项目的技能,这些将影响您所在组织的指标。成为精益六西格码专家。

黑带提升课程
什么是中位数?
一组数字的中位数是一半数字较低和一半数字较高的位置。

例如,就房地产而言,这意味着中位数是当月出售的房屋中一半较便宜、一半较昂贵的价格。

如果元素数量为偶数,我们使用两个中心值的算术平均值来计算中位数。如果观测值的数量是奇数,则中位数就是中心值。中位数比算术平均值受极值(离群值)的影响更小。

中位数和平均值有什么区别?
一组数字的平均值是该组元素中的数字总和除以该组中的项目数。中位数和平均值可能很接近,也可能不接近。这一切都取决于数字。

当我们通常更喜欢中位数而不是平均值(或众数)时,我们的数据就会出现偏差(即数据的频率分布出现偏差)。

如果我们考虑正态分布——因为这是统计学中最常评估的——当数据完全正态时,平均值、众数和中位数是相同的。此外,它们代表了数据集中最典型的值。

然而,当数据出现偏差时,无论是升序还是降序,平均值都会失去为数据提供最佳中心位置的能力,因为偏差的数据将其拖离典型值。在这些情况下,中位数最能保持这一位置,并且不受扭曲值的强烈影响。

例子:
以下是 11 套公寓的价格。

100,000雷亚尔
101,000 雷亚尔
102,000 雷亚尔
103,000 雷亚尔
104,000 雷亚尔
105,000 雷亚尔
106,000 雷亚尔
107,000 雷亚尔
650,000雷亚尔
1,000,000雷亚尔
3,000,000雷亚尔
这 11 套公寓的中位价为 105,000 雷亚尔。五套公寓价格较低,五套公寓价格较高。这11套公寓的平均价格为498,000雷亚尔。这就是将所有这些价格相加并除以 11 得到的结果。

有什么不同!当您查看房价时,请确保您知道这些数字是平均值还是中位数。这两个数字都提供了很好的信息,但它们具有不同的含义。

其他区别是什么?
尽管均值是常用且易于理解的统计量,但中位数也是用于表示一组数据中的“平均”值的常用描述符。这个“平均”值也称为集中趋势。中位数是通过将数据从大到小排序,然后确定中间位置,使得大于和小于该数据值的数量相等来确定的。

虽然平均值和中位数可以相同或几乎相同,但如果数据值聚集到其范围的一端和/或存在一些极值,则它们是不同的。

在统计术语中,这称为“偏度”。在这种情况下,平均值可能会受到少数值的显着影响,这不能很好地代表数据集中的大多数值。在这种情况下,中位数比平均值更能代表集中趋势。

什么是时尚?
该众数是我们数据集中最常见的分数。

在直方图中,它代表图表上的最高条形。因此,您可以认为时尚是最受欢迎的选择。通常,众数用于分类数据,我们想知道最常见的类别是什么。

然而,该模式的问题之一是它不是唯一的,因此当我们有两个或多个共享最高频率的值时,它会给我们带来麻烦。

现在,我们陷入了哪种模式最能描述数据集中趋势的困境。当我们拥有连续数据时,这尤其成问题,因为我们很可能无法比另一个值更频繁地获得一个值。

例如,考虑测量 30 个人的体重(精确到 0.1 公斤)。我们找到两个或两个以上体重完全相同(例如 67.4 公斤)的人的可能性有多大?

答案是不太可能——人们可能很接近,但由于样本量如此之小(30 人)和可能的体重范围很广,你不太可能找到两个体重完全相同的人,即接近 0.1 公斤以内的人。这就是为什么众数很少用于连续数据。

阅读更多: