反映数据趋势的中心数据:
均值(平均数)适合描述趋于正态分布的数据
中值(中位数)适合描述存在极大或极小值的数据
众数适合描述多峰数据(存在多个频繁出现的值)。
均值、中值、众数的关系可以反映出数据的多种分布情况。
在符合正态分布的数据中,均值、中值、众数三者相等。
中值与均值相等,则说明分布是偶对称的。
当中值与均值不相等时,说明数据分布是非对称的(偏态),存在极端值(在数据的某一侧偏大或偏小)。
偏态分布的众数,依然是峰值,中值无影响,均值则会偏向异常数据端。
如果均值比中值、众数大,则说明存在多个异常的偏大数据;如果偏小,则说明存在多个异常的偏小数据。
例如当居民的平均工资增加时,是否意味着大家的生活越来越好?
不一定。
如果居民收入的均值增加,中值却下降了,这说明高收入人群的财富在增加,而低收入人群的收入却没有太大变化,大部分居民的生活并没有变好。
在互联网行业,数据中心数据实际应用之一,便是对用户群的分组——将不同属性的用户区分开,并针对性的进行用户管理。
例如我们按照活跃程度试图将用户分成高、中、低三个用户组,那么三个组之间的界限在哪里?这就可以通过分析数据的集中趋势来设置基准值。
没有评论:
发表评论