集中趋势
一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值
分类数据:众数
众数:
一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数,如:
(1)没有众数:1,2,3,4,5
(2)一个众数:1,2,3,4,4
(3)多个众数:1,2,2,3,3主要用于分类数据,也可用于顺序数据和数值型数据
(1)分类数据中的众数:调查的89人中有30人喜欢数理科学类书籍,占34%,所以众数=数理科学
(2)顺序数据中的众数:评价分类为顺序数据,众数为“一般”
顺序数据:中位数和分位数
中位数:
排序后处于中间位置上的值
不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小中位数位置=n+12中位数位置=\frac{n+1}{2}中位数位置=2n+1
当n为奇数时:中位数M=xn+12中位数M=x_{\frac{n+1}{2}}中位数M=x2n+1
当n为偶数时:中位数M=12(xn2+xn2+1)中位数M=\frac{1}{2}(x_{\frac{n}{2}}+x_{\frac{n}{2}+1})中位数M=21(x2n+x2n+1)
(1)顺序数据中的中位数:中位数的位置为(53+1)/2=27,从频数看,中位数在“不满意”这一分类中。
(2)数值型数据中的中位数:中位数位置=(5+1)/2=3,所以中位数=950
四分位数:
排序后位于25%和75%位置上的数值不受极端值影响QL位置=n4Q_L位置=\frac{n}{4}QL位置=4n, QU位置=3n4Q_U位置=\frac{3n}{4}QU位置=43n
(1)顺序数据的四分位数: QL位置=53/4=13.25Q_L位置=53/4=13.25QL位置=53/4=13.25, QU位置=(3∗53)/4=39.75Q_U位置=(3*53)/4=39.75QU位置=(3∗53)/4=39.75
所以四分位数为
QL位置=不满意Q_L位置=不满意QL位置=不满意, QU位置=一般Q_U位置=一般QU位置=一般
(2)数值型数据中的四分位数:QL位置=n4=1.25Q_L位置=\frac{n}{4}=1.25QL位置=4n=1.25, QU位置=3n4=3.75Q_U位置=\frac{3n}{4}=3.75QU位置=43n=3.75
所以四分位数为
QL=500+(750−500)∗0.25=562.5Q_L=500+(750-500)*0.25=562.5QL=500+(750−500)∗0.25=562.5, QU=950+(1000−950)∗0.75=987.5Q_U=950+(1000-950)*0.75=987.5QU=950+(1000−950)∗0.75=987.5
注:当计算下标是非整数时,对应值为,低位+(高位-低位)* 小数部分。
数值型数据:平均数
平均数:
集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响可分为简单平均数和加权平均数之分
简单平均数:
设一组数据为:x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn,则样本平均数为
总体平均数为(xNx_NxN为总体数据):
注: 所有和总体相关的都是定值,所有和样本相关的都是变量(样本和抽样有关)。
加权平均数:
设各组的值为:M1,M2,....,MkM_1,M_2,....,M_kM1,M2,....,Mk
相应的频数为:f1,f2,...,fkf_1,f_2,...,f_kf1,f2,...,fk
样本加权平均为:
总体加权平均为:
几何平均数:
n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为