前言

最近为了参加一个数据分析比赛,在复习统计这块的知识。首先什么是统计呢?我采用北京大学出版社出版的《应用经济统计学》中的定义:统计学是一门对群体现象数量特征进行计量描述和分析推论的科学。从定义可以看出统计学主要干两件事一个是对群体现象特征进行计量描述,第二个是对群体数量进行分析得出推论。那我们一件一件事来,先来讲一下统计学干的第一件事:对群体现象特征进行计量描述。本文主要理一下脉络,对于细节不过多纠结(主要是Markdown打公式太麻烦……)

描述集中趋势的计量

算数平均数

  • 简单算数平均数
    简单算数平均数就是一组数据N个数值的和除以N。
  • 加权算数平均数
    每个数值的权重乘以数值的和除以数据个数。

缺点:容易受极端值影响

中位数

将一组数据排序,处在数据中点位置的数值就是中位数。(位置平均数)

优点:稳健,不收极端值影响
缺点:缺乏敏感性,不适合代数运算

众数

一组数据中出现次数最多的数值。

优缺点:和中位数一样

三者的关系

我们知道如果一直增加观察项数,同时又缩小组距,那么分布的直方图就接近一条光滑的曲线。按这条曲线来解释的话,均值是数据分布的平衡点或者说是中心,中位数把这个分布划分为两半,众数
正好是分布顶端的数值。并且在对称分布中三个测度重合,斜分布中三个测度分离。

其他测度

1.分位数
中位数的推广,中位数可以看做二分位数,同样也有四分位数,十分位数,N分位数…
2.几何平均数
变量X的n项观察值x_1,x_2,x_3…x_n的乘积的n次根。
3.调和平均数
一组观测值的倒数的算数平均数的倒数。

描述离中趋势的计量

极差

一组观测数据中最大值与最小值的差。表现数据的变动范围。

平均差

一组数据值与其均值之差的绝对值的和的平均值。

方差

一组资料中各数值与其算数平均数离差平方的平均数。

标准差

标准差的平方就是方差

Chebishev定理

对于任何一组资料,观测值落于均值左右k个标准差的区间内的比例至少为(1-1/k^2).

四分位差

四分位差是第三个四分位值于第一个四分位值之差的二分之一。实际就是一组资料中间一半观测值的极差。

异众比率

非众数值的次数之和占总次数之比重。

平均差系数

平均差于均值之比。