Chap 1. 描述性统计

2026-02-02 11:29:12

1 描述统计量

1.1 位置与分散程度的度量

1.1.1 各种中间值

mean

数列的算术平均值,反应了数列的集中趋势,等于有效数值的合除以有效数值的个数

median

等于排序后中间位置的值,当数列长度为偶数时,取中间两个值的均值

mode

等于数列出现次数最多的数字,当多个数字都出现最高次数时,多个数字都是众数

1.1.2 各种平均数

arithmetic mean

population mean

简称 期望 ,是描述随机变量取值平均状况的数字特征。包括 离散型随机变量 的总体均值和连续型随机变量的总体均值。

geometric mean

用于计算增长率或平均利率。

harmonic mean

用于计算平均速度或电阻的平均数。

Note

算数平均数 ≥ 几何平均数 ≥ 调和平均数

1.1.3 数据的离散程度

分位数

四分位数 | quartile

将数据按从小到大的顺序排列并分成四等份时,位于各个分割点的数值。

按顺序排列的一组数据中位于正中间的数。不易受离群值的影响。

四分位距

第三四分位数与第一四分位数的差。数据越向中位数集中,四分位距就越小。

百分位数 | percentile

如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一组数的百分位数。

偏差 Deviation ? Bias?why

表示的是每个数据与平均数的差

Variance

衡量离散程度的指标。用来衡量样本偏离均值的程度,或者描述数据取值分散性程度一个度量。

Standard Deviation

方差的算术平方根,用 σ 表示。在概率统计中最常使用作为统计分散分布程度上的测量依据。在概率统计中最常使用作为测量一组数值的离散程度之用。

Standard Error

描述平均数抽样分布的离散程度及衡量平均数抽样误差大小的尺度,反映样本平均数之间的变异。

离群值 | Outlier

Coefficient of Variation

标准差与平均数的比。用于比较单位不同的样本之间的离散程度。

1.2 变量的相关性

等级相关系数 | coefficient of rank correlation

测量两个定序变量之间相关程度的指标。等级相关系数中有斯皮尔曼等级相关系数和肯德尔等级相关系数。具体使用哪一个,没有明确的基准。

皮尔逊积矩相关系数 | Correlation - Pearson

相关系数 | coefficient of correlation

…表示两个变量之间的关联(相关)程度的指标。相关系数越接近 1,正相关就越强;越接近 -1,负相关就越强;0 表示不相关。

r=∑i=1n​(xi​−x)2(yi​−y​)2​∑i=1n​(xi​−x)(yi​−y​)​

斯皮尔曼等级相关系数 | Correlation - Spearman

被观测的两个变量的等级的差值 di​=xi​−yi​

ρ=1−n(n2−1)6∑di2​​

肯德尔等级相关系数

《原子陨落》评测:拼尽全力无法战胜
Win7怎么隐藏任务栏|Win7隐藏任务栏的方法