2022/09/24

均值、中值、众数

反映数据趋势的中心数据:

均值(平均数)适合描述趋于正态分布的数据

中值(中位数)适合描述存在极大或极小值的数据

众数适合描述多峰数据(存在多个频繁出现的值)。

均值、中值、众数的关系可以反映出数据的多种分布情况。

在符合正态分布的数据中,均值、中值、众数三者相等。

中值与均值相等,则说明分布是偶对称的。

当中值与均值不相等时,说明数据分布是非对称的(偏态),存在极端值(在数据的某一侧偏大或偏小)。

偏态分布的众数,依然是峰值,中值无影响,均值则会偏向异常数据端。

如果均值比中值、众数大,则说明存在多个异常的偏大数据;如果偏小,则说明存在多个异常的偏小数据。

例如当居民的平均工资增加时,是否意味着大家的生活越来越好?

不一定。

如果居民收入的均值增加,中值却下降了,这说明高收入人群的财富在增加,而低收入人群的收入却没有太大变化,大部分居民的生活并没有变好。

在互联网行业,数据中心数据实际应用之一,便是对用户群的分组——将不同属性的用户区分开,并针对性的进行用户管理。

例如我们按照活跃程度试图将用户分成高、中、低三个用户组,那么三个组之间的界限在哪里?这就可以通过分析数据的集中趋势来设置基准值。

没有评论:

发表评论