如何描述数据分布的特征? | 您所在的位置:网站首页 › 统计学怎么描述分布特征 › 如何描述数据分布的特征? |
数据分布的特征可以从集中趋势,离中趋势,偏态和峰态三个方面进行描述 一.集中趋势(位置)是一组平均指标,它反映了总体的一般水平或分布 1.平均数 分为:简单平均数(均值),加权平均数,几何平均数 特点:是集中趋势最常用的测度值;是一组数据的均衡点所在;易受极端值影响;用于数值型数据,不能用于分类数据和顺序数据 简单平均数 加权平均数 几何平均数 主要用于计算平均增长率
2.中位数 排序后处于中间位置上的值 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据 不受极端值的影响 3.众数 一组数据中出现次数最多的数据值 一组数据可能没有众数或有多个众数 适合数据量较多时,并且在数据分布偏斜程度较大且有明显峰值时应用 二.离中趋势(分散程度)是一组变异指标,主要是用来刻画总体分布的变异状况或离散程度 1.极差 是一组数据的最大值和最小值之差 特点:极差越大,离散程度越大;离散程度最简单的测度值;易受极端值影响;未考虑数据的分布 2.平均差 是各变量与均值差的平均数,即平均差异,反映一组数据的离散程度 特点:各变量与均值差的绝对值的平均数;数学性质较差,实际应用较少;未考虑数据的分布 3.方差 反映的是各变量与均值差的平均差异,是数据离散程度最常用的测度值 总体方差:根据总体数据计算的 样本方差:根据样本数据计算的 4.标准差 是方差的算术平方根,也是数据离散程度常用的测度 5.变异系数 是标准差与其对应的均值之比 用于对不同组别的数据比较其离散程度 当比较两组数据离散程度时:如果他们的平均数相同,可以直接利用标准差来比较,标准差越大,离散程度越大;但如果平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(即变异系数)来比较 三.偏态和峰态(形状)反映数据总体分布形态的指标 偏态:反映数据分布不对称的方向和程度 峰态:反映数据分布图的尖峭程度或扁平程度 1.偏态系数 是数据分布偏斜程度的测度 偏态系数 = 0时:对称分布 偏态系数 > 0时:右偏分布 偏态系数 < 0时:左偏分布 2.峰态系数 是数据分布尖峭程度的测度 峰态系数 = 0时:峰度适中 峰态系数 > 0时:尖峰分布 峰态系数 < 0时:偏平分布 四.数据标准化定义:数据指数化 意义:能够去除数据的单位限制,将其转化为无单位的纯数值,便于不同单位或量级的指标能够进行比较和加权 0-1标准化:也叫离差标准化,是对原始数据进行线性变换,是结果落到 [0,1] 区间 z-score标准化:也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1 |
CopyRight 2018-2019 实验室设备网 版权所有 |