from:/s/blog_5f049388010170ab.html
FROM :/qiaozhanwen@126/blog/static/1295539258225952558/
-proc univariate统计量:----------------------------------------------------------------------------------------------------------------------------------
默认:
1.观测值(未缺失的)2.平均值3.方差4.标准差5.偏系数6.峭度系数7.未校正和校正后的平方和8.差异系数(相对标准差)9.平均数的标准误10.比较变量值是否等于0 的t检验11.最大值12.最小值13.全距范围14.中数,第3和第2四分位数15.四分位差16.众数17.第1、2、10、90、95和99的百分位数18.5个最大值和5个最小值
需指定的(加上选项normal和plot):
19.W或D统计量,检验数据是否正太分布20.茎叶图21.箱式图22.正太概率图,将累加频数分布和理想正太分布相比较
-proc univariate统计结果的一些说明:----------------------------------------------------------------------------------------------------------------------------------
1、极值观测:
极端观测列出了数据中最大和最小的 5个值,每个极端数据旁边还有数据的编号。
如果proc univarite中使用了ID语句,则极端数据旁显示的是ID变量。本例中我们可以将subject作为ID,可以用如下语句:
proc univariate data=htwt normal plot;
var height weight;
title "more descriptive statistics";
ID subject;
run;
在极端值这一部分,还有个常用的选项:nextobs=n,用于指定呈现几个最大值最小值。例如要呈现10个,则写成:proc univariate data=htwt nextobs=10;
当加了ID语句和nextobs选项后(值:大小;subject:指定的ID;观测:数据所处的位置):
2、正态概率图:
它是将真实的数据与理想的正太分布数据比较。Y轴呈现数据值,X轴与反向标准正太函数有关。
*表示真实数据,+表示由样本均值和标准差得到的基线。如果样本分布越偏离正太,则*越偏离+。
-----------------------------------------------------------------------------------------------------------------------------------
在proc univariate语句下加入histgram语句,可以生成直方图,加上normal选项可以在直方图上进一步生成一条正态曲线,以便将自己的数据分布与标准正态分布相比较。并嵌入标示:5.2格式的均值,6.3格式的标准差,字体为Arial,高度为3放于西北角。
histogram height/midpoints=60 to 75 by 5 normal;
在proc univariate语句下加入qqplot语句,可以生成QQ图(分位数图),如果变量为正态分布,则QQ图就是一条直线。另外也可生成其他分布,例如对数正态分布(lognormal选项),beta分布(beta选项),Weibull分布(weibull选项)等。
在proc univariate语句下加入probplot语句,可以生成概率图,横轴表示真实数据,纵轴表示标准正态分布中期望的百分比,如果呈一直线,则可以认为数据来自正态分布。
PROC UNIVARIATE 含七道指令它们的格式如下(每道指令结束后才用逗号分开):
PROC UNIVARIATE 选项串;
VAR 变量名称串;
BY 变量名称串;
FREQ 变量名称;
WEIGHT 变量名称;
ID 变量名称串;
OUTPUT OUT=统计值输出文件名称 统计值关键字符串=统计值变量;
备注:在一个 UNIVARIATE 程序中,可以多次使用 OUTPUT 指令但其他六道指令只能出现一次,此外PROC UNIVARIATE 指令后的六道指令可以按任何顺序出现。
指令 #1:PROC UNIVARIATE 语句的选项串有下列七个选项可供选择:
常用选项:
(1) DATA=输入资料文件名称
指明到底对那一个资料文件进行分析,若省略此选项则 SAS 会自动找出在本程序之前最后形成的资料文件并对它进行分析。
(2) NOPRINT
使用此选项分析结果将不在result里输出。
(3) PLOT
使用此选项UNIVARIATE 过程将产生三种图形:茎叶图 (Stem-And-Leaf Plot) 、平行条状图 (Horizontal Bar Chart)、盒状图(Box Plot)、正态分布拟合图 (Normal Probability Plot)(参阅 Tukey 1977)。
(4) FREQ
使用此选项 UNIVARIATE 过程将对变量各个取值的频数及百分比进行分析
(5) NORMAL
此选项可用来要求 UNIVARIATE 过程检定分析的变量是否呈现正态分布并且输出其检验结果。
不常用选项:
(6) PCDLDEF={1/2/3/4/5}此选项是用来决定计算百分位数 (Percentiles)的方法
PCDLDEF=1 表示用第一种计算方法以此类推 ,若省略此选项则UNIVARIATE程序会自动采用用第四种计算方法。
(7) VARDEF={N/DF/WEIGHT (或 WGT) /WDF}此选项决定计算变异数所用的分母
N 观察体总数
DF 观察体总数减去 1 这是本选项的内设值
WEIGHT (或 WGT) 加权后的观察体总数
WDF 上述 WEIGHT 值减去 1
指令 #2VAR 变量名称串
此指令列举需要进行描述性统计分析的数值变量名称,若省略将对输入资料文件中所有数值变量进行分析,若选用 OUTPUT 指令
则不可省略 VAR 指令
指令 #3BY 变量名称串
程序依据此指令所列举的变量将观测进行分组,然后对每组观测分别执行分析,选用此指令时资料文件内的数据必须先按照 BY变量的值做由小到大的重新排列,这个步骤可由 PROC SORT 过程完成。
指令 #4FREQ 变量名称
这个变量必须是一个数值变量,其值代表观察测重复出现的次数,若此变量的值含小数则取其整数部分若其值小于 1 则此观测将 被剔除在计算过程之外。
指令 #5WEIGHT 变量名称
这个变量称为加权变量,用以说明所要分析的变量的权重是多大,其主要功用在于计算加权平均数、加权标准差、及加权变异数。
注意:若选用了 WEIGHT 指令则 UNIVARIATE 程序将不计算偏度与峰度这两个统计值,这两个统计值将以缺失(.)表示,此外WEIGHT 指令对四分位数极端分数及观察体总数的计算并不发生任何作用(freq选项会对其有影响)。
指令 #6ID 变量名称串
用来标示输出的变量。
指令 #7OUTPUT OUT=统计值输出文件名称 统计值关键字符串=关键值变量
保存计算的N mean std等关键统计量
(1) OUT=统计值输出文件名称
存储要输出的关键统计的表名,省略此选项则 SAS 将以内设的命名方式自动给予 DATAn 的文件名 (如 DATA1 DATA2...) n 按输出文件产生的先后顺序由 1 逐次累加而成
(2) 统计值关键字符串
这些关键字代表要输出的统计值,首先说明要保存哪些统计值,然后对要存储的统计值给予变量名。
UNIVARIATE 程序内有二十六个统计值:
统计值及对应含义N 非缺失值个数NMISS 缺失值个数NOBS 观察体总数MEAN 平均数SUM 变量值的总和STD 标准差VAR 变异系数(标准误)SKEWNESS 偏度KURTOSIS 峰度SUMWT 所有观察体在 WEIGHT 变量上的总和MAX 变量的最大值MIN 变量的最小值RANGE 最大值减去最小值所得的差Q3 第三个四分位数MEDIAN 中位数 (第 50 的百分位数)Q1 第一个四分位数QRANGE Q3 减去 Q1 之差P1 第 1 的百分位数P5 第 5 的百分位数P10 第 10 的百分位数P90 第 90 的百分位数P95 第 95 的百分位数P99 第 99 的百分位数MODE 众数如果有不只一个众数取最小值的那一个SIGNRANK 等级符号检定法 (The Signed Rank Statistic Lehmann 1975)NORMAL 常态分配的检定 (Test Statistic for Normality)若观察体个数少于 51 则采用Shapiro-Wilk 的 W Statistic 的方法检定否则采用用 Kolomogorov
备注:这些关键字的表达方式是统计值关键字 = 变量名
些代表统计值的变量名称必须根据 VAR 指令内所列举的变量顺序对应地一一列举未列举者不予输出请看下面这个例子
PROC UNIVARIATE;
VAR X Y;
BY SEX;
OUTPUT OUT=MSD MEAN=MX MY STD=SDX;
假如分组变量 SEX 的值是 1 或 2 则 UNIVARIATE 程序所产生的报表输出文件将是两个 SEX 组在变量 X 与 Y 上的描述性统计值,OUTPUT 指令的界定这个输出数据集WORK.MSD (暂时的文件), MSD数据集包括四个变量即SEXMX MY 及 SDX, 其中 SEX 是分组变量、MX 与 MY 分别是变量 X 与 Y 的平均数、DX 是变量 X 的标准差,由于关键字 STD 后只界定一个变量名称 (SDX) 故此变
量自动指 VAR 指令内所列举的第一个变量,变量 Y 的标准差因未界定其相对应的变量名称因此不输出。
注 意 事 项:
1.缺失数据的处理,处理的方法依遗漏数据的性质而异
(1) VAR 指令中的变量
若观察体在 VAR 指令之某个变量上含遗漏数据则该观察体将被排除在这个变量的计算过程之外,然而若在其他变量上无遗漏数据仍会被纳入其他 VAR 变量的计算过程内,这些含遗漏数据的观察体个数及它们占总观察体数的百分比将被纳入报表输出文件
(2) WEIGHT 指令中的变量
若在 WEIGHT 的加权变量上含遗漏数据则观察体的加权变量值就是 0 这些观察体仍然而会被纳入百分位数的计算以及极端分数的挑选
(3) FREQ 指令中的变量
若在 FREQ 指令的次数变量上含遗漏数据则观察体将被剔除在所有计算过程之外
(4) BY 指令中的变量
若在BY 的分组变量上含遗漏数据则这些观察体在分析的过程中自成一个分组
(5) ID 指令中的变量
若在 ID 的识别变量上有遗漏数据则在需要识别观察体的地方仍以遗漏值 (.)呈现