100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 数据的概括性度量

数据的概括性度量

时间:2023-06-09 16:21:25

相关推荐

数据的概括性度量

统计学学习第四章–数据的概括性度量

0X00 前言

图表可以让我们对数据分布有直观的了解:形状和特征,但是还需要从抽象的角度使用统计量来把我数据分布的特征。数据分布特征可以从三个方面进行测度和描述:一是分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,帆布各数据远离其中心值的趋势;三是分布的形状,反应数据分布的偏态和峰态。

0X01 集中趋势的度量

集中趋势是指一组数据向某一中心靠拢的程度,它反应一组数据中心点的位置所在。

1.1 众数

众数是一组数据中出现次数最多的变量值,用$\ce{M_000}$来表示。众数主要用来测度分类数据的集中趋势,也可以作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下才有意义。众数,是一个位置的代表值,它不受数据中极端值的影响,一组数据分布的最高峰点所对应的数值即为众数,众数可以是多个。

1.2 中位数和分位数

中位数(median)是一组数据排序后处于中间位置上的变量值,用KaTeX parse error: Undefined control sequence: \ce at position 1: \̲c̲e̲{M_eKaTeX parse error: Expected 'EOF', got '}' at position 1: }̲来表示。中位数会将数据等分,左侧比中位数小,右侧比中位数大。中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用分类数据。

根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,最后再确定中位数的具体数值。

​ 中位数的位置=n+12= \frac{n + 1}{2}=2n+1​

式中,n为数据的个数。

此处缺少一个公式;

四分位数(quartile)也成为四分位点,他是一组数据排序后处于25%和75%位置上的值。四分位数将全部数据等分成4部分,很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(也称为下四分位数)和处在75%为史上的数值(成为上四分位数)。计算四分位数首先要对数据进行排序,然后确定四分位数所在的位置。

设下四分位数为KaTeX parse error: Undefined control sequence: \ce at position 1: \̲c̲e̲{Q_LKaTeX parse error: Expected 'EOF', got '}' at position 1: }̲,上四分位数为KaTeX parse error: Undefined control sequence: \ce at position 1: \̲c̲e̲{Q_UKaTeX parse error: Expected 'EOF', got '}' at position 1: }̲

此处缺少四分位数的计算公式

如果位置是整数,四分位数就是该位置对应的值;如果是再0.5的位置上,则取该位置两侧值的平均数,如果是再0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。

1.3 平均数

平均数也成为均值(mean),它是一组数据相加后初一数据的个数得到的结果。

平均数是集中趋势的主要测度值,它主要是用于数值型数据,而不适用于分类数据和顺序数据。平均数是进行让统计分析和统计推断的基础,通统计思想上看,平均数是一组数据的中心所在,是数据误差相互抵消后的鼻炎结果。

1.3.1 简单平均数和加权平均数

根据未经分组数据计算的平均数称为简单平均数(simple mean)。简单平均数用−x\frac{-}{x}x−​表示;

此处缺少简单平均数的公式

根据分组数据计算的平均数成为加权平均数(weighted mean)。设原始数据被份成kkk组,各组的组中值分别用$\ce{M_111}、、、\ce{M_222}、...,、...,、...,\ce{M_kkk}表示,各组变量值出现的频次分别用表示,各组变量值出现的频次分别用表示,各组变量值出现的频次分别用\ce{f_111},,,\ce{f_222},...,,...,,...,\ce{f_kkk}$表示,则样本加权平均数的计算公式为:

此处缺少加权平均数的计算公式。

1.3.2 一种特殊的平均数:几何平均数

几何平均数(geometric mean)是nnn个变量值乘积的nnn次方根,用GGG表示。计算公式如下:

此处缺少几何平均数的计算公式。

当数据中出现零值或者负值时,不宜计算集合平均数。几何平均数主要用于计算现象的平均增长率。当所平均的个比率数值差别不大时,算术平均和几何平均的结果相差不大;如果个比率数值相差比较大时,二者的差别就比较明显。

1.4 众数、中位数和平均数的比较

众数、中位数、平均数是集中趋势的三个主要测度值,他们具有不同的特点和应用场合。

1.4.1 众数、平均数、中位数的关系

对于单峰分布中,众数、中位数、和平均数之间据由以下关系:如果数据的分布是对称的,则三者相等;如果数据是左偏分布,数据存在极小值,则平均数< 中位数 < 众数;如果数据是右偏分布说明数据存在极大值,必然拉动平均数向极大值以放靠拢,因此众数< 中位数 < 平均数。

1.4.2 众数中位数和平局书的特点与应用场合

众数:

是一组数据分布的峰值,不受极端值的影响

不具有唯一性

只有再数据量较多时才有意义

适合场景:众数适合作为跟类数据的集中趋势测度值

中位数:

是一组数据中间位置上的值,不受数据极端值的影响

适合场景:适合作为顺序数据的集中趋势测度值

平均数:

针对数值型计算的,利用全部数据信息,应用最广泛的集中趋势测度值。易受极端值的影响适用场景:数据呈对称分布或者接近对称分布

当数据成堆成分布或接近对称分布时,三个代表值相等或相近相等,这是则应选择平均数作为集中趋势的代表值。当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数或者众数,这是他们的代表性比较好。

0X02 离散程度的度量

数据的离散程度反应的时各变量值远离其中心值的程度。描述数据离散程度采用的测度值,葛奴数据类型的不同主要有:异众比率、四分位差、方差和标准差。此外还有极差、平均差以及辞夺相对离散程度的离散系数等。

2.1 分类数据:异众比率

异众比率(variation ratio)是指费中数组的评述占总频数的比例,用KaTeX parse error: Undefined control sequence: \ce at position 1: \̲c̲e̲{V_rKaTeX parse error: Expected 'EOF', got '}' at position 1: }̲表示。

此处缺少异众比率的计算公式

异众比率主要用于衡量众数和一组数据的代表程度。异众比率越大,说明众数的代表性越差。异众比率适合测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。

2.2 顺序数据:四分位差

四分位差(quartile deviation)也成为内距或四分间距,是上四分位数和下四分位数之差,用KaTeX parse error: Undefined control sequence: \ce at position 1: \̲c̲e̲{Q_dKaTeX parse error: Expected 'EOF', got '}' at position 1: }̲来表示

KaTeX parse error: Undefined control sequence: \ce at position 2: \̲c̲e̲{Q_$d$} = \ce{Q…

四分位差反映了中间50%的数据的离散程度,数值越小,说明中间的数据越集中;由于中位数处于数据的中间位置,因此四分位差的大小一定程度上说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度,不适合分类数据。

2.3 数值型数据:方差和极差

测度数值型数据离散程度的方法主要有极差、平均差、方差和标准差,常用的是方差和标准差。

2.3.1 极差

一组数据的最大值与最小值之差成为极差(range),也称全距,用R表示。

KaTeX parse error: Undefined control sequence: \ce at position 10: R = max(\̲c̲e̲{x_$i$}) - min(…

容易受极端值的影响,由于极差知识利用了一组数据两端的信息,不能反映出中间数据的分散状况,因此补能准确描述出数据的分散程度。

2.3.2 平均差

平均差(mean deviation)也称平均绝对离差(mean absolute deviation),它是各变量值与其平均数力差绝对值的平均数,用KaTeX parse error: Undefined control sequence: \ce at position 1: \̲c̲e̲{M_$d$}表示。

此处缺少未分组计算公式

此处缺少分组计算公式

平均差一平均数为中心,反映了每个数据和平叔叔的平均差异程度,它能全面准确地反应以至于数据的离散程度。由于使用绝对值,计算不方便,实际中较少使用到。

2.3.3 方差和标准差

方差(variance)是各变量值与其平均数力差平方的平均数,再数学处理上通过平方的方法消除离差的正负号,然后在进行平均。方法的平方根成为标准差(standard deviation)。方差或标准差能较好地反应数据的离散程度,应用醉坊的离散程度的测度值。

设样本方差为$\ce{s^222}$,未分组数据和分组数据的计算样本方差的公式为:

此处缺少未分组数据方差公式

此处缺少分组数据方差公式

样本方差使用样本数据个数建议后去除力差平方和,其中样本数据个数减1即n−1n - 1n−1称为自由度(degree of freedom)。方差开平方后得到标准差。标准差是有量纲的,它与变量值的计算单位相同,其实际意义要比方差更清楚,因此在对实际问题分析时,更多地使用标准差。

此处缺少未分组数据的标准差计算公式

此处缺少分组数据的标准差计算公式

2.3.4 相对位置的度量

变量值与其平均数的离差初一标准差后的值称为标准分数(standard score),也称为标准画质或z分数,设标准分数为zzz,则有

KaTeX parse error: Undefined control sequence: \ce at position 2: \̲c̲e̲{x_{i}} = \frac…

标准分数发给出了一组数据中个数据的相对位置。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变改组数据分布的形状,而只是将该组数据变成了平均数为0,标准差为1。

经验法则

当一组数据对称分布时,则有:

约有68%的数据在平均数±\pm± 1个标准差的范围之内。

约有95%的数据在平均数±\pm± 2个标准差的范围之内。

约有99%的数据在平均数±\pm± 3个标准差的范围之内。

在平均数$\pm3个标准差范围内几乎包含了所有数据,因此3个标准差范围内几乎包含了所有数据,因此3个标准差范围内几乎包含了所有数据,因此\pm$3个标准差之外的数据,统计上称为离群点(outlier)。

如果一组数据不是对称分布,可以使用切比雪夫不等式,它对任何分布形态的数据都适用。切比雪夫不等式提供的是“下界”,对于任意分布形态的数据,根据切比雪夫不等式,至少有KaTeX parse error: Undefined control sequence: \k at position 7: (1 - 1\̲k̲^2)的数据落在±k\pm k±k个标准差之内。

至少有75%的数据在平均数的±2\pm 2±2个标准差的范围之内。至少有89%的数据在平均数的±3\pm 3±3个标准差的范围之内。至少有94%的数据在平均数的±4\pm 4±4个标准差的范围之内。

2.4 相对离散程度:离散系数

为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。

离散系数(coefficient of variation)也成为变异系数,他是一组数据的标准差与其相应的平均数之比,其计算公式为:

KaTeX parse error: Undefined control sequence: \ce at position 2: \̲c̲e̲{v_s} = \frac{s…

离散系数是测度数据离散程度的统计量,组要用于比较不同样本数据的离散程度。离散数据大,说明数据的离散程度也大。当平均数接近零是,离散系数的值趋于增大,此时必须慎重解释。

主要异众比率来测度其离散程度,对于数值型数据,主要使用方差或者标准差来测度其离散程度。当需要对不同验本数据的离散程度进行比较时,则使用离散系数。

0X03 偏态与峰态的度量

偏态丰台就是对分布形状的测度。

3.1 偏态及其测度

测度偏态的统计量是偏态系数(coefficient of skewness),记作SKSKSK。

未分组的原始数据偏态系数计算公式:

此处缺少公式

如果一组数据的分布是对称的,则偏态系数等于0;如果偏态叙述明显不等于0,表明分布是非对称的。若偏态分布大于1或小于-1,称为高度偏态分布;若偏态系数在0.5 ~ 1或-1 ~ -0.5之间,则认为是中等偏态分布;偏态叙述越接近0,偏斜程度越小。

分组数据计算偏态系数公式:

此处缺少公式

3.2 峰态及其测度

测度峰态的统计量是峰态系数。峰态系数是相对标准正态分布而言的,如果一组数据服从标准正态分布,曾峰态系数为0;若峰态系数明显不等于0常称为平峰分布或尖峰分布。

根据未分组数据计算峰态系数,公式如下:

此处缺少公式

根据分组数据计算峰态系数是用离差四次方的平均数再除以标准差的四次方,公式如下:

此处缺少公式

由于正态分布的峰态系数为0,当K>0K > 0K>0时为尖峰分布,数据的分布更集中;当K<0K < 0K<0时,为扁平分布,数据分布越分散

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。