实验7 假设检验(一)
实验7 假设检验(一)
一、实验目的:
1. 掌握重要的参数检验方法(单个总体的均值检验,两个总体的均值检验,成对样本的均值的检验,两个
总体方差的检验,二项分布总体的检验);
2
2. 掌握若干重要的非参数检验方法(Pearson拟合优度检验,Kolmogorov-Smirnov单样本和双样本检验)。 二、实验内容: 练习: 要求:①完成练习并粘贴运行截图到文档相应位置(截图方法见下),并将所有自己输入文字的字体颜色设为红色(包括后面的思考及小结),②回答思考题,③简要书写实验小结。④修改本文档名为“本人完整学号姓名1”,其中1表示第1次实验,以后更改为2,3,...。如文件名为“09张立1”,表示学号为09的张立同学的第1次实验,注意文件名中没有空格及任何其它字符。最后连同数据文件、源程序文件等(如果有的话,本次实验没有),一起压缩打包发给课代表,压缩包的文件名同上。 截图方法: 法1:调整需要截图的窗口至合适的大小,并使该窗口为当前激活窗口(即该窗口在屏幕最前方),按住键盘Alt键(空格键两侧各有一个)不放,再按键盘右上角的截图键(通常印有“印屏幕”或“Pr Scrn”等字符),即完成截图。再粘贴到word文档的相应位置即可。 法2:利用QQ输入法的截屏工具。点击QQ输入法工具条最右边的“扳手”图标,选择其中的“截屏”工具。)
1. 自行完成教材第五章的例题。 92. (习题5.1)正常男子血小板计数均值为225 × 10/L,今测得20名男性油漆作业工人的血小板计数值9(单位:10/L) 220 188 162 230 145 160 238 188 247 113 126 245 164 231 256 183 190 158 224 175 问油漆工人的血小板计数与正常成年男子有无差异? 解:提出假设: H0:油漆工人的血小板计数与正常成年男子无差异 H1:油漆工人的血小板计数与正常成年男子有差异 源代码及运行结果:(复制到此处,不需要截图) >x<-c(220 ,188, 162, 230, 145, 160, 238, 188, 247, 113,126, 245, 164, 231, 256, 183, 190, 158, 224, 175) >t.test(x,mu=225) 结论: One Sample t-test data: x t = -3.4783, df = 19, p-value = 0.002516 alternative hypothesis: true mean is not equal to 225 95 percent confidence interval: 172.3827 211.9173 sample estimates: mean of x 192.15
P=0.002516<0.05,拒绝原假设,认为油漆工人的血小板计数与正常成年男子有差异
3. (习题5.2)已知某种灯泡寿命服从正态分布,在某星期所生产的该灯泡中随机抽取10 只,测得其寿
命(单位:小时)为
1067 919 1196 785 1126 936 918 1156 920 948
求这个星期生产出的灯泡能使用1000小时以上的概率。
------来源网络,仅供参考
解:
源代码及运行结果:(复制到此处,不需要截图)
> x<-c(1067, 919, 1196, 785, 1126, 936, 918, 1156, 920, 948) > p<-pnorm(1000,mean(x),sd(x)) > 1-p
[1] 0.4912059 结论:
这个星期生产出的灯泡能使用1000小时以上的概率为0.4912059
4. (习题5.3)为研究某铁剂治疗和饮食治疗营养性缺铁性贫血的效果,将16名患者按年龄、体重、病
程和病情相近的原则配成8对,分别使用饮食疗法和补充铁剂治疗的方法,3个月后测得两种患者血红资白如下表所示,问两种方法治疗后的患者血红蛋白有无差异?
铁剂和饮食两种方法治疗后患者血红蛋白值 (g/L) 铁剂治疗组 113 120 138 120 100 118 138 123 饮食治疗组 138 116 125 136 110 132 130 110 解:提出假设: H0:两种方法治疗后的患者血红蛋白无差异 H1:两种方法治疗后的患者血红蛋白有差异 源代码及运行结果:(复制到此处,不需要截图) > x<-c(113,120,138,120,100,118,138,123) > y<-c(138,116,125,136,110,132,130,110) > t.test(x,y,paired=T) Paired t-test data: x and y t = -0.65127, df = 7, p-value = 0.5357 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -15.628891 8.878891 sample estimates: mean of the differences -3.375 结论: p=0.5357>0.05,不拒绝原假设,两种方法治疗后的患者血红蛋白无差异 5. (习题5.4)为研究国产四类新药阿卡波糖股嚢效果,某医院用40 名Ⅱ型糖尿病病人进行同期随机对照实验。试验者将这些病人随机等分到试验组(阿卡波糖股嚢组)和对照组(拜唐苹股嚢组),分别测得试验开始前和8周后空腹血糖,算得空腹血糖下降值,如下所示。能否认为国产四类新药阿卡波糖股嚢与拜唐苹股嚢对空腹血糖的降糖效果不同? 试验组与对照组空腹腔血糖下降值(mmol/L)
试验组 -0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.50 (n1 = 20) 2.50 -1.60 1.70 3.00 0.40 4.50 4.60 2.50 6.00 -1.40 对照组 3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.10 (n2 = 20) 6.00 3.80 2.00 1.60 2.00 2.20 1.20 3.10 1.70 -2.00 (1)检验试验组和对照组的的数据是否来自正态分布,采用正态性W检验方法(见第3章)、
2
Kolmogorov-Smirnov检验方法和Pearson拟合优度检验; 解:提出假设: ------来源网络,仅供参考
H0:认为国产四类新药阿卡波糖股嚢与拜唐苹股嚢对空腹血糖的降糖效果不同 H1:认为国产四类新药阿卡波糖股嚢与拜唐苹股嚢对空腹血糖的降糖效果相同 ①正态性W检验方法 源代码及运行结果:(复制到此处,不需要截图)
>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.50,6.00,-1.4) > shapiro.test(x)
Shapiro-Wilk normality test data: x
W = 0.9699, p-value = 0.7527
>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10,1.70,-2.00) > shapiro.test(y) Shapiro-Wilk normality test data: y W = 0.97098, p-value = 0.7754 结论: 试验组p=0.7527>0.05,对照组p=0.7754>0.05,所以检验试验组和对照组的的数据是来自正态分布 ②Kolmogorov-Smirnov检验方法 源代码及运行结果:(复制到此处,不需要截图) > ks.test(x,\"pnorm\ One-sample Kolmogorov-Smirnov test data: x D = 0.10652, p-value = 0.9771 alternative hypothesis: two-sided Warning message: In ks.test(x, \"pnorm\ Kolmogorov - Smirnov检验里不应该有连结 > ks.test(y,\"pnorm\ One-sample Kolmogorov-Smirnov test data: y D = 0.11969, p-value = 0.9368 alternative hypothesis: two-sided Warning message: In ks.test(y, \"pnorm\ Kolmogorov - Smirnov检验里不应该有连结 结论:
试验组p=0.9771>0.05,对照组p=0.9368>0.05,所以检验试验组和对照组的的数据是来自正态分布
2
③Pearson拟合优度检验 源代码及运行结果:(复制到此处,不需要截图)
>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.50,6.00,-1.4)
> A<-table(cut(x,br=c(-6,-3,0,3,6,9))) > p<-pnorm(c(-3,0,3,6,9),mean(x),sd(x)) > p
> p<-c(p[1],p[2]-p[1],p[3]-p[2],p[4]-p[3],1-p[4]) ------来源网络,仅供参考
> p
> chisq.test(A,p=p)
Chi-squared test for given probabilities data: A
X-squared = 0.56387, df = 4, p-value = 0.967 Warning message:
In chisq.test(A, p = p) : Chi-squared近似算法有可能不准
>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10,1.70,-2.00)
> B<-table(cut(y,br=c(-2,1,2,4,7)))
> p<-pnorm( c(-2,1,2,4,7),mean(y),sd(y)) > p
[1] 0.02801752 0.2 > p<-c(p[1],p[2]-p[1],p[3]-p[2], 1-p[3]) > p
> chisq.test(B,p=p) Chi-squared test for given probabilities data: B X-squared = 28.087, df = 3, p-value = 3.483e-06 Warning message: In chisq.test(B, p = p) : Chi-squared近似算法有可能不准 结论: 试验组的p=0.967>0.05,对照组的p= 3.483e-06>0.05,因此试验组和对照组都服从正态分布 (2)用 t检验两组数据均值是否有差异,分别用方差相同模型、方差不同模型和成对t检验模型; 解:提出假设: H0:两组数据均值没有差异 H1:两组数据均值是有差异 ①方差相同模型 源代码及运行结果:(复制到此处,不需要截图) >x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.50,6.00,-1.4) >y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10,1.70,-2.00) > t.test(x,y, var.equal=TRUE) Two Sample t-test data: x and y t = -0.64187, df = 38, p-value = 0.5248
alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.326179 1.206179 sample estimates: mean of x mean of y 2.065 2.625 结论:
p=0.5248>0.05,不拒绝原假设,两组数据均值没有差异 ②方差不同模型 ------来源网络,仅供参考
源代码及运行结果:(复制到此处,不需要截图)
>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.50,6.00,-1.4)
>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10,1.70,-2.00) > t.test(x,y)
Welch Two Sample t-test data: x and y
t = -0.64187, df = 36.086, p-value = 0.525
alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.32926 1.20926 sample estimates: mean of x mean of y 2.065 2.625 结论: p= 0.525>0.05, 不拒绝原假设,两组数据均值没有差异 ③成对t检验模型 源代码及运行结果:(复制到此处,不需要截图) >x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.50,6.00,-1.4) >y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10,1.70,-2.00) > t.test(x,y,paired=T) Paired t-test data: x and y t = -0.64644, df = 19, p-value = 0.5257 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.373146 1.253146 sample estimates: mean of the differences -0.56 结论: p=0.5257>0.05, 不拒绝原假设,两组数据均值没有差异 (3)检验试验组与对照组的方差是否相同。 解:提出假设:
H0:试验组与对照组的方差相同 H1:试验组与对照组的方差不相同 源代码及运行结果:(复制到此处,不需要截图)
>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.50,6.00,-1.4)
>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10,1.70,-2.00) > var.test(x,y)
F test to compare two variances ------来源网络,仅供参考
data: x and y
F = 1.5984, num df = 19, denom df = 19, p-value = 0.3153
alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.6326505 4.0381795 sample estimates: ratio of variances 1.598361 结论:
p= 0.3153>0.05,不拒绝原假设,试验组与对照组的方差相同
6. (习题5.5)为研究某种新药对抗凝血酶活力的影响,随机安排新药组病人12例,对照组病人10例,
3分别测定其抗凝血酶活力(单位:mm),其结果如下: 新药组:126 125 136 128 123 138 142 116 110 108 115 140 对照组:162 1 72 1 77 1 70 1 75 152 157 159 160 162 试分析新药组和对照组病人的抗凝血酶活力有无差别( = 0.05)。 (1)检验两组数据是否服从正态分布; (2)检验两组样本方差是否相同; (3)选择最合适的检验方法检验新药组和对照组病人的抗凝血酶活力有无差别。 解:
(1)检验两组数据是否服从正态分布 ①新药组数据 提出假设: H0:新药组数据服从正态分布 H1:新药组数据不服从正态分布 源代码及运行结果:(复制到此处,不需要截图) > x<-c(126,125,136,128,123,138,142,116,110,108,115,140) > ks.test(x,\"pnorm\ One-sample Kolmogorov-Smirnov test data: x D = 0.14644, p-value = 0.9266 alternative hypothesis: two-sided ②对照组数据 提出假设: H0:对照组数据服从正态分布 H1:对照组数据不服从正态分布 源代码及运行结果:(复制到此处,不需要截图) > y<-c(162, 172 ,177 ,170 ,175, 152 ,157 ,159, 160 ,162) > ks.test(y,\"pnorm\
One-sample Kolmogorov-Smirnov test data: y
D = 0.22216, p-value = 0.707
alternative hypothesis: two-sided Warning message:
In ks.test(y, \"pnorm\ Kolmogorov - Smirnov检验里不应该有连结 (2)检验两组样本方差是否相同; ------来源网络,仅供参考
提出假设:
H0:两组样本方差相同 H1:两组样本方差不相同 源代码及运行结果:(复制到此处,不需要截图)
> x<-c(126,125,136,128,123,138,142,116,110,108,115,140) > y<-c(162, 172 ,177 ,170 ,175, 152 ,157 ,159, 160 ,162) > var.test(x,y)
F test to compare two variances data: x and y
F = 1.9646, num df = 11, denom df = 9, p-value = 0.32
alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.5021943 7.0488630 sample estimates: ratio of variances 1.964622 (3)选择最合适的检验方法检验新药组和对照组病人的抗凝血酶活力有无差别。 提出假设: H0:新药组和对照组病人的抗凝血酶活力无差别 H1:新药组和对照组病人的抗凝血酶活力有差别 源代码及运行结果:(复制到此处,不需要截图) > x<-c(126,125,136,128,123,138,142,116,110,108,115,140) > y<-c(162, 172 ,177 ,170 ,175, 152 ,157 ,159, 160 ,162) > t.test(x,y, var.equal=TRUE) Two Sample t-test data: x and y t = -8.8148, df = 20, p-value = 2.524e-08 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -48.24975 -29.78358 sample estimates: mean of x mean of y 125.5833 164.6000 结论: p= 2.524e-08<0.05,拒绝原假设,新药组和对照组病人的抗凝血酶活力有差别 7. (习题5.6)—项调查显示某城市老年人口比重为14.7%。该市老年研究协会为了检验该项调查是否可靠,随机抽选了400名居民,发现其中有57人是老年人。问调查结果是否支持该市老年人口比重为14.7%的看法( =0.05)。(提示,此题是二项分布总体的检验) 解:提出假设: H0:p=p0=0.147 H1:p≠p0
源代码及运行结果:(复制到此处,不需要截图) > binom.test(57,400,p=0.147) Exact binomial test data: 57 and 400 ------来源网络,仅供参考
number of successes = 57, number of trials = 400, p-value = 0.8876
alternative hypothesis: true probability of success is not equal to 0.147 95 percent confidence interval: 0.1097477 0.1806511 sample estimates:
probability of success 0.1425 结论:
P值= 0.8876>0.05,不拒绝原假设,调查结果支持该市老年人口比重为14.7%的看法 8. (习题5.7)作性别控制试验,经某种处理后,共有雏鸡328只,其中公雏150只,母雏178只,试问
这种处理能否增加母雏的比例?(性别比应为1:1)。 解:提出假设: H0:这种处理不能增加母雏的比例 H1:这种处理能增加母雏的比例 源代码及运行结果:(复制到此处,不需要截图) > binom.test(178,328,p=0.5,alternative=\"greater\") Exact binomial test data: 178 and 328 number of successes = 178, number of trials = 328, p-value = 0.06794 alternative hypothesis: true probability of success is greater than 0.5 95 percent confidence interval: 0.4957616 1.0000000 sample estimates: probability of success 0.5426829 结论: P值=0.06794>0.05,不拒绝原假设,这种处理不能增加母雏的比例 9. (习题5.8)Mendel用豌豆的两对相对性状进行杂交实验,黄色圆滑种子与绿色皱缩种子的豌豆杂交后,第二代根据自由组合规律,理论分离比为 黄圆:黄皱:绿圆:绿皱 = ( 9/16):(3/16):(3/16):(1/16) 实际实验值为:黄圆315粒、黄皱101粒、绿圆108粒、绿皱32粒,共556粒。问此结果是否符合自由组合规律的理论分离比? 解:提出假设: H0:符合自由组合规律的理论分离比 H1:不符合自由组合规律的理论分离比 源代码及运行结果:(复制到此处,不需要截图) > chisq.test(c(315,101,108,32),p=c(9,3,3,1)/16) Chi-squared test for given probabilities data: c(315, 101, 108, 32)
X-squared = 0.47002, df = 3, p-value = 0.9254 结论:
P值=0.9254>0.05,接受原假设,符合自由组合规律的理论分离比
10. (习题5.9)观察每分钟进入某商店的人数X,任取200分钟,所得数据如下:
顾客人数 频数 ------来源网络,仅供参考
0 92 1 68 2 28 3 11 4 1 5 0 试分析,能否认为每分钟顾客数X服从Poisson分布( =0.1)。
解:提出假设:
H0:能认为每分钟顾客数X服从Poisson分布 H1:不能认为每分钟顾客数X服从Poisson分布 源代码及运行结果:(复制到此处,不需要截图) > X<-0:5;Y<-c(92,68,28,11,1,0)
> q<-ppois(X,mean(rep(X,Y)));n<-length(Y) > p<-numeric(n)
> p[1]<-q[1];p[n]=1-q[n-1] > for(i in 2:(n-1)) + p[i]<-q[i]-q[i-1] > chisq.test(Y,p=p)
Chi-squared test for given probabilities data: Y X-squared = 2.1596, df = 5, p-value = 0.8267 Warning message: In chisq.test(Y, p = p) : Chi-squared近似算法有可能不准 重新分组,合并频数小于5的组: > Z<-c(92,68,28,12) > n<-length(Z);p<-p[1:n-1]; p[n]=1-q[n-1] > chisq.test(Z,p=p) Chi-squared test for given probabilities data: Z X-squared = 0.91132, df = 3, p-value = 0.8227 结论: p=0.8227>>0.1,接受原假设,能认为每分钟顾客数X服从Poisson分布 11. (习题5.10)观察得两样本值如下 顾客人数 频数 2.36 4.38 3.14 4.25 7.52 6.53 3.48 3.28 2.76 7.21 5.34 6.55 6.54 7.41 试分析,两样本是否来自同一总体( =0.05)。 解:提出假设: H0:两样本是来自同一总体 H1:两样本不是来自同一总体 源代码及运行结果:(复制到此处,不需要截图) > x<-c(2.36,3.14,7.52,3.48,2.76,5.34,6.54,7.41) > y<-c(4.38,4.25,6.53,3.28,7.21,6.55) > ks.test(x,y) Two-sample Kolmogorov-Smirnov test data: x and y
D = 0.375, p-value = 0.6374
alternative hypothesis: two-sided 结论:
p= 0.6374>0.05,接受原假设,两样本是来自同一总体 思考:
1. 常见的均值检验的问题有哪3种类型(实验目的1)?这3类问题都可以用R软件中t.test()函数做检
验吗?
单个总体的均值检验,两个总体的均值检验,成对样本的均值的检验;可以 ------来源网络,仅供参考
2. 两个总体的均值检验除了要求满足①正态性,②独立性外,还要特别注意哪个条件?在R语言中,通过
选择t.test()函数中哪个参数进行区别设置? 方差齐性;alternative
3. 成对样本的均值检验可以转化为单个总体的均值检验问题,具体来说,首先求出差值序列,然后利用单
个总体的均值检验方法检验此差值序列的均值是否等于多少? 0
4. R语言中对于正态分布方差的检验用到是哪个函数?
var.test()
5. R语言中的二项分布检验用到的是哪个函数?其主要是对二项分布中哪个参数进行检验?
binom.test();P值(原假设概率)
2
6. Pearson拟合优度检验中,无论是检验单个样本服从何种分布,亦或是检验单个样本的构成比是否与
理论值一致,本质都是样本率与总体率的比较问题。 7. 分布拟合检验的方法主要有哪3种?在R语言中这3种方法用的函数分别是? 2正态性W检验方法、Kolmogorov-Smirnov检验方法和Pearson拟合优度检验; shapiro.test()、ks.test()、chisq.test() 8. Kolmogorov-Smirnov检验与Pearson 2检验相比,有什么优缺点?(P229) 9. Kolmogorov-Smirnov检验不需要将样本分组,少了一个任意性,这个是优点,其缺点是只有用在理论分布为一维连续分布且分布完全已知的情形,适用面比Pearson检验小,研究也显示在Kolmogorov-Smirnov检验可用的场合下,其功效一般来说略优于Pearson检验
三、实验小结(必写,但字数不限) 这次实验主要是掌握重要的参数检验方法和掌握若干重要的非参数检验方法,对我来说,求均值检验用t.test()这个函数,有点分不清,还有就是提出假设的时候,不是很能确定H0、H; 思考里的有些概念,自己理解的有点模糊不清,主要原因是没有多看书,所以,自己要多看书,多思考和理解。
------来源网络,仅供参考
因篇幅问题不能全部显示,请点此查看更多更全内容