统计学课后习题部分题目***07_统计学课后习题***-牛宝宝文章网
统计学课后习题部分题目***07 统计学课后习题***
统计学部分题***(源于互联网,仅供参考)1.解释描述统计和推断统计:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。推断统计:推断统计是研究如何利用样本数据来推断总体特征的统计方法。2.举例说明总体、样本、参数、统计量、变量这几个概念。总体:包含所研究的全部个体的集合。如由多个企业构成的集合,多个居民构成的集合,多个人构成的集合。样本:是从总体中抽取的一部分元素的集合。如从一批灯泡中随机抽取100个,这100个灯泡就构成了1个样本。参数:是用来描述总体特征的概括性数字度量。如总体平均数,总体方差,总体比例, 统计量:是用来描述样本特征的概括性数字度量。如样本均数、样本标准差、样本比例。 变量:说明现像的概念。如商品销售额,受教育程度,产品的质量等级。 3什么叫二手资料?使用二手资料需要注意些什么?所谓二手资料,是指特定的调查者按照原来的目的收集、整理的各种现成的资料,又称次级资料使用二手资料需要注意数据的定义、含义、计算品径和计算方法。4.比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。非概率抽样的缺点恰是概率抽样的优势: -不能估计出抽样误差;-不知道抽中的单位所具有代表性的程度; -非概率抽样的结果不能也不应该推算总体。在实际操作过程中,非概率抽样经常被市场调研人员使用,其原因与本身固有的优势有关: -非概率抽样比概率抽样费用低。非概率抽样的这一特点对那些精确性要求补不严格的调查有相当大的吸引力。试探性调查就是其中的一例。-一般来讲,非概率抽样实施起来要比概率抽样用的时间少5数据的预处理包括哪些内容? 包括审核、筛选、排序。 6,四分位数的计算方法首先确定四分位数的位置:
Q1的位置=(n+1)/4
Q2的位置=(n+1)/2
Q3的位置=3(n+1)/4
n表示项数实例1
数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49
Q1 的位置=(11+1)/4=3 Q2 的位置=(11+1)/2=6 Q3的位置=3(11+1)/4=9
Q1 = 15, Q2 = 40, Q3 = 43
数据总量: 7, 15, 36, 39, 40, 41
Q1 的位置=(6+1)/4=1.75 Q2 的位置=(6+1)/2=3.5 Q3的位置=3(6+1)/4=5.25
Q1 = 7+(15-7)×(1.75-1)=13,
Q2 = 36+(39-36)×(3.5-3)=37.5,
Q3 = 40+(41-40)×(5.25-5)=40.257.异众比率、四分位差、方差或标准差的适用场合。 异众比率:,适合测度分类数据的离散程度,适用于衡量众数对一组数据的代表程度四分位差:主要用于测量顺序数据的离散程度,不宜分类数据。 方差或标准差:主要用于数值型数据离散程度的方法。 8,为什么要计算离散系数?为消除变量水平高低和计量单位不同对离散程度测度值的影响。9,简述样本量与置信水平、总体方差、边际误差的关系。从样本容量的公式可以看出,样本容量与置信概率成正比,在其他条件不变的情况下,置信概率越大,所需的样本容量也就越大;样本容量与总体方差成正比,总体的差异越大,所要求的样本容量也越大;样本容量与边际误差的平方成反比,我们可以接受的边际误差越大,所需的从样本容量的公式可以看出,样本容量与置信概率成正比,在其他条件不变的情况下,置信概率越大,所需的样本容量也就越大;样本容量与总体方差成正比,总体的差异越大,所要求的样本容量也越大;样本容量与边际误差的平方成反比,我们可以接受的边际误差越大,所需的样本容量就越小。样本容量就越小。10,什么是假设检验中的显著性水平?统计显著是什么意思? 显著性水平:通常以a表示,是1个临界概率值,它表示假设检验中用样本资料推断总体时,犯拒绝假设错误的可能性大小,a越小,犯拒绝假设的错误性越小。统计显著:通过对数据的整理,分析得出1个结论,并检验这个结论中的参数是不是在一定范围内符合条件。11.什么是假设检验中的2类错误?指在假设检验中,由于样本信息的局限性,势必会产生错误,错误无非只有2种情况。
A错误:指原假设H0正确,而拒绝H0所犯的错误。
B错误:指原假设H0不正确,而不拒绝H0报犯的错误。12,什么是方差分析?它研究的是什么?方差分析指通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它研究的是分类型自变量对数值型因变量的影响。13.要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法? 14.方差分析包括哪些类型?它们有何区别?方差分析是处理多个平均数是否相等的1种假设检验方法。根据研究所涉及的因素的多少,方差分析可以分为单因素方差分析和多因素方差分析(包括双因素分析)。使用条件:??单因素:要求因变量服从正态分布;方差要齐性;适合完全随机试验设计。??多因素:因变量服从正态分布,且总体个单元方差相同(单元就是个因素水平之间的每个组合);因变量是连续变量,自变量是分类变量 15.解释相关关系的含义,说明相关关系的特点。相关关系:指根据样本数据计算的度量2个变量之间线性关系强度的统计量。 相关关系的特点:正相关:2种变量变化的方向相同。??2、负相关:2种变量变化的方向相反。??3、零相关:1种变量变化时,不能引起另一变量的变化。??、正相关:2种变量变化的方向相同。??2、负相关:2种变量变化的方向相反。??3、零相关:1种变量变化时,不能引起另一变量的变化。??16,简述时间序列的预测程序。1)确定时间序列所包含的成分,即确定时间序列的类型。 2)找出适合此类时间序列的预测方法3)对可能的预测方法进行评估,以确定时间序列的类型 4)利用最佳预测方案进行预测。第三章,数据的图表展示3.1
为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的1个样本。服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。调查结果如下: B D A B C D B B A CE A D A B A E A D BC C B C C C C C B CC B C D E B C E C EA C C E D C A E C DD D A A B D D A A BC E E B C E C B E CB C D D C C B D D CA E C D B E A D C BE E B C C B E C B C要求:(1)指出上面的数据属于什么类型。
顺序数据(2)用Excel制作一张频数分布表。
用数据分析——直方图制作:接收 频率E 16D 17C 32
B 21A 14(3)绘制一张条形图,反映评价等级的分布。
用数据分析——直方图制作:(4)绘制评价等级的帕累托图。逆序排序后,制作累计频数分布表:接收 频数 频率(%) 累计频率(%) C B D E A50CDBAE20032 21 17 16 1432 21 17 16 1432 53 70 86 1003.2
某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 105124 119 129 114 116 115 100 87 103 103 92 118 95 142 127 135 104 125117 97 108 88 105 123 110 115 107 119 137 138 120 112 136 146 117 113 108 126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。 1、确定组数:
K?1lg?4?0lgn()1.60206,取?1?1?6.32k=6lg(2)lg20.301032、确定组距:组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10 3(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业3.3
某百货公司连续40天的商品销售额如下:单位:万元41 46 35 4225 36 28 3629 45 46 3747 37 34 3738 37 30 4934 36 37 3930 45 44 4238 43 26 3243 33 38 3640 44 44 35要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 1、确定组数:
K?1lg?4?0lgn()1.?6.32k=6 ,取lg(2)lg20.30103统计学课后习题部分题目***07_统计学课后习题***2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(49-25)÷6=4,取53.4
利用下面的数据构建茎叶图和箱线图。57 23 35 18 21 2129 47 51 26 46 4329 23 39 50 41 1936 28 18 29 52 4231 28 46 33 28 20data Stem-and-Leaf PlotFrequency
7Stem width:
Each leaf:
1 case(s)3.61种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。下面是随机抽取的100袋食品,测得的重量数据如下:单位:g57 46 49 54 55 58 49 61 51 49 51 60 52 54 51 55 60 56 47 4753 51 48 53 50 52 40 45 57 53 52 51 46 48 47 53 47 53 44 47 50 52 53 47 45 48 54 52 48 46 49 52 59 53 50 43 53 46 57 49 49 44 57 52 42 49 43 47 46 48 51 59 45 45 46 52 55 47 49 50 54 47 48 44 57 47 53 58 52 48 55 53 57 49 56 56 57 53 41 48 要求:(1)构建这些数据的频数分布表。 (2)绘制频数分布的直方图。 (3)说明数据分布的特征。解:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。1、确定组数:lg?10?0lgn()2?1?1?6.64k=6或7
K?1,取lg(2)lg20.301032、确定组距:组距=( 最大值 - 最小值)÷ 组数=(61-40)÷6=3.5,取3或者4、5
组距=( 最大值 - 最小值)÷ 组数=(61-40)÷7=3, 3、分组频数表组距3,上限为小于直方图:组距4,上限为小于等于直方图:组距5,上限为小于等于直方图:统计学课后习题部分题目***07_统计学课后习题***分布特征:左偏钟型。3.8 下面是北方某城市1——2月份各天气温的记录数据:-3 2 -4 -7 -11 -1 714 6 -8 -14-18 -8 -6 -22-15 -12 -15 -13-9 -16 -11 -9-6 -19 -12 -6-1 -15 -19 0 -10 -22 -25 -1 78 5 -25 -24 5 59 -4 -24 -18 -4 -6-6 -9 -19 -17 -9 -5-3 2 -4 -4 -16 要求:(1)指出上面的数据属于什么类型。
数值型数据(2)对上面的数据进行适当的分组。1、确定组数:K?1lg?6?0lgn()1.?1?6.90989k=7 ,取lg(2)lg20.301032、确定组距:组距=( 最大值 - 最小值)÷ 组数=(14-(-25))÷7=5.57,取53(3)绘制直方图,说明该城市气温分布的特点。解:(1)根据上面的数据,画出2个班考试成绩的对比条形图和环形图。(2)比较2个班考试成绩分布的特点。甲班成绩中的人数较多,高分和低分人数比乙班多,乙班学习成绩较甲班好,高分较多,而低分较少。(3)画出雷达图,比较2个班考试成绩的分布是否相似。分布不相似。3.14 已知年我国的国内生产总值数据如下(按当年价格计算):要求:(1)用Excel绘制国内生产总值的线图。(2)绘制第一、二、三产业国内生产总值的线图。(3)根据2004年的国内生产总值及其构成数据绘制饼图。统计学课后习题部分题目***07_统计学课后习题***第四章 统计数据的概括性描述4.1
一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2
15 要求:(1)计算汽车销售量的众数、中位数和平均数。
(2)根据定义公式计算四分位数。
(3)计算销售量的标准差。(4)说明汽车销售量分布的特征。 解:Statistics汽车销售数量
NValid MissingMean(平均数) Median(中位数) Mode(众数) Std. Deviation(方差) Percentiles25 50 7510 0 9.60 10.00 10 4.169 6.25 10.00 12.50单位:周岁19 23 30 23 4115 21 20 27 2029 38 19 22 3125 22 19 34 1724 18 16 24 23要求;(1)计算众数、中位数:1、排序形成单变量分值的频数分布和累计频数分布:从频数看出,众数Mo有2个:19、23;从累计频数看,中位数Me=23。 (2)根据定义公式计算四分位数。QL位置=25/4=6.25,因此Q1=19,QU位置=3×25/4=18.75,因此QU=27,或者,由于25和27都只有1个,因此QU也可等于25+0.75×2=26.5。(3)计算平均数和标准差;Mean=24.00;Std. Deviation=6.652(4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。为分组情况下的直方图:为分组情况下的概率密度曲线:分组:1、确定组数:统计学课后习题部分题目***07_统计学课后习题***lg?2?5lgn()1.398K?1,取?1?1?5.64k=6lg(2)lg20.301032、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取53、分组频数表网络用户的年纪 (Binned)分组后的均值与方差:分组后的直方图:4.3 某银行为缩短顾客到银行办理业务等待的时间。准备采用2种排队方式进行试验:一种是所有颐客都进入1个等待队列:另—种是顾客在三千业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短.2种排队方式各随机抽取9名顾客。得到第1种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。第二种排队方式的等待时间(单位:分钟)如下:5.5
7.8 要求:(1)画出第二种排队方式等待时间的茎叶图。第二种排队方式的等待时间(单位:分钟) Stem-and-Leaf PlotFrequency
1.00 Extremes
88Stem width:
Each leaf:
1 case(s)(2)计算第二种排队时间的平均数和标准差。Mean Std. Deviation7 0.714143Variance 0.51(3)比较2种排队方式等待时间的离散程度。第二种排队方式的离散程度小。(4)如果让你选择1种排队方式,你会选择哪—种?试说明理由。
选择第二种,均值小,离散程度小。4.4
某百货公司6月份各天的销售额数据如下:单位:万元257 271 272276 292 284297 261 268252 281 303238 301 273310 274 263240 267 322236 280 249265 291 269278 258 295要求:(1)计算该百货公司日销售额的平均数和中位数。 (2)按定义公式计算四分位数。 (3)计算日销售额的标准差。 解:Statistics百货公司每天的销售额(万元)
NValid MissingMean Median Std. Deviation30 0274.0 21.17472Percentiles 25 50 75260.0 291.2500要求:比较2个企业的总平均成本,哪个高,并分析其原因。产品多,乙的低成本的产品多。要求:(1)计算120家企业利润额的平均数和标准差。 (2)计算分布的偏态系数和峰态系数。 解:Statistics企业利润组中值Mi(万元)
NValid MissingMean Std. Deviation SkewnessStd. Error of Skewness KurtosisStd. Error of Kurtosis120 0426.450.208 0.221 -0.625 0.43817岁的少年儿童作为样本,另一位调查人员则抽取了1 000名7~17岁的少年儿童作为样本。请回答下面的问题,并解释其原因。(1)两位调查人员所得到的样本的平均身高是否相同?如果不同,哪组样本的平均身高较大?(2)两位调查人员所得到的样本的标准差是否相同?如果不同,哪组样本的标准差较大? (3)两位调查人员得到这l 100名少年儿童身高的最高者或最低者的机会是否相同?如果不同,哪位调查研究人员的机会较大? 解:(1)不一定相同,无法判断哪1个更高,但可以判断,样本量大的更接近于总体平均身高。(2)不一定相同,样本量少的标准差大的可能性大。(3)机会不相同,样本量大的得到最高者和最低者的身高的机会大。4.8
一项关于大学生体重状况的研究发现.男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。请回答下面的问题: (1)是男生的体重差异大还是女生的体重差异大?为什么?女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。(2)以磅为单位(1ks=2.2lb),求体重的平均数和标准差。都是各乘以2.21,男生的平均体重为60kg×2.21=132.6磅,标准差为5kg×2.21=11.05磅;女生的平均体重为50kg×2.21=110.5磅,标准差为5kg×2.21=11.05磅。(3)粗略地估计一下,男生中有百分之几的人体重在55kg一65kg之间?计算标准分数:Zi=Xi-X/sx?55?60x?65?60==-1;Z2===1,根据经验规则,男ss55Z1=生大约有68%的人体重在55kg一65kg之间。(4)粗略地估计一下,女生中有百分之几的人体重在40kg~60kg之间?计算标准分数:x?40?50x?60?50==-2;Z2===2,根据经验规则,女ss55Z1=生大约有95%的人体重在40kg一60kg之间。4.9
一家公司在招收职员时,首先要通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者哪一项测试更为理想?解:应用标准分数来考虑问题,该应试者标准分数高的测试理想。ZA=x?115?100x?425?400==1;ZB===0.5 ss1550因此,A项测试结果理想。4.10
一条产品生产线平均每天的产量为3 700件,标准差为50件。如果某一天的产量低于或高于平均产量,并落人士两个标准差的范围之外,就认为该生产线“失去控制”。下面是一星期各天的产量,该生产线哪几天失去了控制?统计学课后习题部分题目***07_统计学课后习题***星期六超出界限,失去控制。要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?为什么?
均值不相等,用离散系数衡量身高差异。 (2)幼儿组的身高差异大。4.12
1种产品需要人工组装,现有3种可供选择的组装方法。为检验哪种方法更好,随机抽取十五个工人,让他们分别用3种方法组装。下面是十五个工人分别用3种方法在相同的时间内组装的产品数量:要求:(1)你准备采用什么方法来评价组装方法的优劣?(2)如果让你选择1种方法,你会作出怎样的选择?试说明理由。 解:对比均值和离散系数的方法,选择均值大,离散程度小的。方法A方法B方法C平均 165.6 平均 128.7333333 平均 125.53333332... 标准差 标准差 标准差离散系数: VA=0.,VB= 0.,VC= 0. 均值A方法最大,同时A的离散系数也最小,因此选择A方法。4.13
在金融证券领域,一项投资的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险就越高。下面的2个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。(1)你认为该用什么样的统计量来反映投资的风险?
标准差或者离散系数。(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?
选择离散系数小的股票,则选择商业股票。(3)如果进行股票投资,你会选择商业类股票还是高科技类股票?
考虑高收益,则选择高科技股票;考虑风险,则选择商业股票。6.1 调节1个装瓶机使其对每个瓶子的灌装量均值为?盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差??1.0盎司的正态分布。随机抽取由这台机器灌装的九个瓶子形成1个样本,并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。解:总体方差知道的情况下,均值的抽样分布服从N标准化得到标准正态分布:为:??,?的正态分布,由正态分布,2?~N?0,1?,因此,样本均值不超过总体均值的概率P??????P????0.3?=P=P=P??0.9?z?0.9?=2??0.9?-1,查标准正态分布表得??0.9?=0.8159 因此,P???0.3=0.63186.3 Z1,Z2,??,Z6表示从标准正态总体中随机抽取的容量,n=6的1个样本,试确定常数b,使得 ?62?P??Zi?b??0.95 ?i?1???解:由于卡方分布是由标准正态分布的平方和构成的: 设Z1,Z2,……,Zn是来自总体N(0,1)的样本,则统计量22?2?Z12?Z2???Zn服从自由度为n的χ2分布,记为χ2~ χ2(n)?62?因此,令???Z,则???Z???6?,那么由概率P??Zi?b??0.95,可知:i?1i?1?i?1?22i22i266b=?12?0.95?6?,查概率表得:b=12.596.4 在习题6.1中,假定装瓶机对瓶子的灌装量服从方差?2?1的标准正态分布。假定我们计划随机抽取十个瓶子组成样本,观测每个瓶子的灌装量,得到十个观测值,用这1n22(Yi?)2),确定1个合适的范围使得有十个观测值我们可以求出样本方差S(S??n?1i?1较大的概率保证S2落入其中是有用的,试求b1,b2,使得 p(b1?S2?b2)?0.90解:更加样本方差的抽样分布知识可知,样本统计量:(n?1s)2?2~?2(n?1 )此处,n=10,?2?1,所以统计量(n?1)s2?2(10?1)s2??9s2~?2(n?1)1根据卡方分布的可知:P?b1?S2?b2??P?9b1?9S2?9b2??0.90又因为:2P??12???n?1??9S2????n?1???1??因此:2P?9b1?9S2?9b2??P??12??2?n?1??9S2???2?n?1???1???0.90 2?P?9b1?9S2?9b2??P??12??2?n?1??9S2???2?n?1?? 22?P??0.95?9??9S2??0.05?9???0.90则: ?9b1??20.95?9?,9b2???9??b1?20.052?0.95?9?9,b2?2?0.05?9?922查概率表:?0.95?9?=3.325,?0.05?9?=19.919,则b1?2?0.95?9?9=0.369,b2?2?0.05?9?9=1.88第四章 参数估计7.2 某快餐店想要估计每位顾客午餐的平均花费金额。在为期3周的时间里选取49名顾客组成了1个简单随机样本。(1)假定总体标准差为15元,求样本均值的抽样标准误差。???=2.143 (2)在95%的置信水平下,求边际误差。??t??,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=z?2
因此,??t???z????z0.025??=1.96×2.143=4.2 (3)如果样本均值为120元,求总体均值 的95%的置信区间。
置信区间为:???,???=?120?4.2,120?4.2?=(115.8,124.2)7.4 从总体中抽取1个n=100的简单随机样本,得到=81,s=12。要求:??2??s2?大样本,样本均值服从正态分布:?N??,?或?N??,?n???n?置信区间为:??z?2???z?(1)构建?的90%的置信区间。z?2=z0.05=1.645,置信区间为:?81?1.645?1.2,81?1.645?1.2?=(79.03,82.97)(2)构建?的95%的置信区间。z?2=z0.025=1.96,置信区间为:?81?1.96?1.2,81?1.96?1.2?=(78.65,83.35)(3)构建?的99%的置信区间。z?2=z0.005=2.576,置信区间为:?81?2.576?1.2,81?2.576?1.2?=(77.91,84.09)7.7
某大学为了解学生每天上网的时间,在全校7 500名学生中采取重复抽样方法随机抽取36解:统计学课后习题部分题目***07_统计学课后习题***(1)样本均值=3.32,样本标准差s=1.61; (2)抽样平均误差:
重复抽样:???不重复抽样:?=0.268×0.998=0.267(3)置信水平下的概率度:
1??=0.9,t=z?2=z0.05=1.645
1??=0.95,t=z?=z0.025=1.96
1??=0.99,t=z?=z0.005=2.576 (4)边际误差(极限误差):
??t???z?2??x1??=0.9,??t???z?2??=z0.05??重复抽样:??z?2??=z0.05??=1.645×0.268=0.441 不重复抽样:??z???=z0.05??=1.645×0.267=0.4391??=0.95,??t???z?2??=z0.025??重复抽样:??z?2??=z0.025??=1.96×0.268=0.525 不重复抽样:??z???=z0.025??=1.96×0.267=0.5231??=0.99,??t???z?2??=z0.005??重复抽样:??z?2??=z0.005??=2.576×0.268=0.69 不重复抽样:??z???=z0.005??=2.576×0.267=0.688(5)置信区间:???,???1??=0.9,重复抽样:???,???=?3.32?0.441,3.32?0.441?=(2.88,3.76)不重复抽样:???,???=?3.32?0.439,3.32?0.439?=(2.88,3.76)1??=0.95,重复抽样:???,???=?3.32?0.525,3.32?0.525?=(2.79,3.85) 不重复抽样:???,???=?3.32?0.441,3.32?0.441?=(2.80,3.84)1??=0.99,重复抽样:???,???=?3.32?0.69,3.32?0.69?=(2.63,4.01) 不重复抽样:???,???=?3.32?0.688,3.32?0.688?=(2.63,4.01)7.9 某居民小区为研究职工上班从家里到单位的距离,抽取了由十六个人组成的1个随机样本,他们到单位的距离(单位:km)分别是:10
2假定总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。 解:小样本,总体方差未知,用t统计量t??t?n?1? 均值=9.375,样本标准差s=4.11 置信区间:??tn?1?tn?1??????2??1??=0.95,n=16,t??n?1?=t0.025?15?=2.13 ??tn?1?tn?1?????2???=?9.375?2.13???2.13=(7.18,11.57)7.11
某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g。现从某天生产已知食品包重量服从正态分布,要求:(1)确定该种食品平均重量的95%的置信区间。
解:大样本,总体方差未知,用z统计量z??N?0,1? 样本均值=101.4,样本标准差s=1.829 置信区间:??z?z?2???1??=0.95,z?=z0.025=1.96 ??z?z?2???=?101.4?1.96???1.96=(100.89,101.91) (2)如果规定食品重量低于l00g属于不合格,确定该批食品合格率的95%的置信区间。解:总体比率的估计大样本,总体方差未知,用z统计量z??N?0,1?样本比率=(50-5)/50=0.9 置信区间:??p?z?2 p?z?2??1??=0.95,z?=z0.025=1.96??p?z?2p?z?2???=(0.2) =?0.9?1.96?1.96??7.13
一家研究机构想估计在网络公司工作的员工每周加班的平均时间,为此随机抽取了假定员工每周加班的时间服从正态分布。估计网络公司员工平均每周加班时间的90%的置信区间。解:小样本,总体方差未知,用t统计量t??t?n?1? 均值=13.56,样本标准差s=7.801 置信区间:??tn?1?tn?1?????2???1??=0.90,n=18,t??n?1?=t0.05?17?=1.7369 ??tn?1?tn?1??????2??=?13.56?1.7369???1.7369=(10.36,16.75)7.15
在一项家电市场调查中.随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。求总体比例的置信区间,置信水平分别为90%和95%。解:总体比率的估计大样本,总体方差未知,用z统计量z??N?0,1?样本比率=0.23 置信区间:??p?z?2 p?z?2??1??=0.90,z?=z0.025=1.645??p?z?2p?z?2???=?0.23?1.645?1.645??=(0.9)1??=0.95,z?=z0.025=1.96??p?z?2 p?z?2???=(0.1717,=?0.23?1.96?1.96??0.2883)7.20
顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取2种排队方式进行试验,第1种排队方式是:所有顾客都进入1个等待队列;第二种排队方式是:顾客在3个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间)如下:(1)构建第1种排队方式等待时间标准差的95%的置信区间。 解:估计统计量?n?1?S2~?2n?1??2?经计算得样本标准差s2=3.318 置信区间:2?n?1?S2??2??n?1?S222??n?1?n?121??22221??=0.95,n=10,???n?1?=?0.025?9?=19.02,?1??2?n?1?=?0.975?9?=2.7??n?1?S2n?1?S2??9?0.2??,=?,2???=(0.4) 2????2.7??2n?1?1??2n?1??19.02因此,标准差的置信区间为(0.3)(2)构建第二种排队方式等待时间标准差的95%的置信区间。 解:估计统计量?n?1?S2~?2n?1??2?经计算得样本标准差s1=0.2272 置信区间:2?n?1?S2??2??n?1?S222??n?1?n?121??统计学课后习题部分题目***07_统计学课后习题***2222n?1?9?n?1?==19.02,=1??=0.95,n=10,????????0.?9?=2.7??n?1?S2n?1?S2??9?3.??=?,,2???=(1.57,11.06) 2????2.7??2n?1?1??2n?1??19.02因此,标准差的置信区间为(1.25,3.33)(3)根据(1)和(2)的结果,你认为哪种排队方式更好?
第1种方式好,标准差小!(1)计算A与B各对观察值之差,再利用得出的差值计算和sd。
d=1.75,sd=2.62996(2)设?1和?2分别为总体A和总体B的均值,构造?d??1??2的95%的置信区间。 解:小样本,配对样本,总体方差未知,用t统计量t??t?n?1?均值=1.75,样本标准差s=2.62996 置信区间:??tn?1?tn?1?????2???1??=0.95,n=4,t?2?n?1?=t0.025?3?=3.182??tn?1?tn?1?????2???=?1.75?3.182???3.182=(-2.43,5.93)7.25
从2个总体中各抽取1个n1?n2=250的独立随机样本,来自总体1的样本比例为p1=40%,来自总体2的样本比例为p2=30%。要求:(1)构造?1??2的90%的置信区间。 (2)构造?1??2的95%的置信区间。 解:总体比率差的估计大样本,总体方差未知,用z统计量z?p?p???N?0,1?样本比率p1=0.4,p2=0.3置信区间:??p1?p2?z?2p1?p2?z???1??=0.90,z?=z0.025=1.645??p1?p2?z?2p1?p2?z???=??0.1?1.645 ?1.645??=(3.02%,16.98%)1??=0.95,z?=z0.025=1.96??p1?p2?z?2p1?p2?z???=??0.1?1.96 ?1.96??=(1.68%,18.32%)7.26
生产工序的方差是工序质量的1个重要度量。当方差较大时,需要对序进行改进以减小方差。下面是两部机器生产的袋茶重量(单位:g)的数据:2要求:构造2个总体方差比?12/?2的95%的置信区间。解:统计量:s122s21222?F?n1?1,n2?1?置信区间:??s12s1222??s2s2,??Fn?1,n?1Fn?1,n?11??1???2122????2s12=0.058,s2=0.006n1=n2=211??=0.95,F?2?n1?1,n2?1?=F0.025?20,20?=2.4645,F1??2?n1?1,n2?1?=1F?2n2?1,n1?1F1??2?n1?1,n2?1?=F0.975?20,20?=1=0.4058F0.02520,20??s12s1222??s2s2,??=(4.05,24.6)?F?2n1?1,n2?1F1??n1?1,n2?1?????7.27
根据以往的生产数据,某种产品的废品率为2%。如果要求95%的置信区间,若要求边际误差不超过4%,应抽取多大的样本? 解:z?2??n?2z??1?p?2?p??2p1??=0.95,z?2=z0.025=1.9622z?2?p??1?p?1.96?0.02?0.98n?==47.06,取n=48或者50。 22?p0.047.28
某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个顾客平均购物金额的置信区间,并要求边际误差不超过20元,应抽取多少个顾客作为样本? 解:n?22z?2???2,1??=0.95,z?2=z0.025=1.96,n?22z?2???21.962?1202?=138.3,取n=139或者140,或者150。2027.29
假定2个总体的标准差分别为:?1?12,?2?15,若要求误差范围不超过5,相应的置信水平为95%,假定n1?n2,估计2个总体均值之差?1??2时所需的样本量为多大? 解:n1=n2=n?222z?2???1??2??21?2,1??=0.95,z?2=z0.025=1.96,n1=n2=n?222z?2???1??2??21?2=1.962??122?152?52=56.7,取n=58,或者60。7.30
假定n1?n2,边际误差E=0.05,相应的置信水平为95%,估计2个总体比例之差?1??2时所需的样本量为多大?2z?p1?1?p1??p2?1?p2??2????,1??=0.95,z=z解:n1=n2=n??0.025=1.96,取?2p1?p2p1=p2=0.5,22221.96?0.5?0.5z??p1?p?p1?p????=768.3,取n=769,????2?1122?n1=n2=n?=?20.052p1?p2或者780或800。假设检验8.2
1种元件,要求其使用寿命不得低于700小时。现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。已知该元件寿命服从正态分布,?=60小时,试在显著性水平0.05下确定这批元件是否合格。 解:H0:μ≥700;H1:μ<700已知:=680
?=60由于n=36>30,大样本,因此检验统计量:z?=-2当α=0.05,查表得z?=1.645。因为z<-z?,故拒绝原假设,接受备择假设,说明这批产品不合格。8.4
糖厂用自动打包机打包,每包标准重量是100千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9包重量(单位:千克)如下:99.3
100.5已知包重服从正态分布,试检验该日打包机工作是否正常(a=0.05)? 解:H0:μ=100;H1:μ≠100经计算得:=99.9778
S=1.21221 检验统计量:t?-0.0552当α=0.05,自由度n-1=9时,查表得t??9?=2.262。因为t<t?,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常。8.5
某种大量生产的袋装食品,按规定不得少于250克。今从一批该食品中任意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5%就不得出厂,问该批食品能否出厂(a=0.05)? 解:解:H0:π≤0.05;H1:π>0.05已知: p=6/50=0.12
检验统计量:Z?=2.271当α=0.05,查表得z?=1.645。因为z>z?,样本统计量落在拒绝区域,故拒绝原假设,接受备择假设,说明该批食品不能出厂。8.7
某种电子元件的寿命x(单位:小时)服从正态分布。现测得16只元件的寿命如下:
264统计学课后习题部分题目***07_统计学课后习题***222
170问是否有理由认为元件的平均寿命显著地大于225小时(a=0.05)? 解:H0:μ≤225;H1:μ>225经计算知:=241.5
s=98.726 检验统计量:t?0.669当α=0.05,自由度n-1=15时,查表得t??15?=1.753。因为t<t?,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明元件寿命没有显著大于225小时。8.10
装配1个部件时可以采用不同的方法,所关心的问题是哪1个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各抽取12件产品,记录各自的装配时间(单位:分钟)如下:甲方法:31
乙方法:26
28两总体为正态总体,且方差相同。问2种方法的装配时间有无显著不同 (a=0.05)? 解:建立假设H0:μ1-μ2=0
H1:μ1-μ2≠0总体正态,小样本抽样,方差未知,方差相等,检验统计量t??根据样本数据计算,得n1=12,n2=12,1=31.75,s1=3.1.6667,s2=2.46183。s2p2n1?1?s12??n1?1?s2??n1?n2?212?1??0.?1??0.710672?
==8.132612?12?2t??=2.648α=0.05时,临界点为t??n1?n2?2?=t0.025?22?=2.074,此题中t>t?2,故拒绝原假设,认为2种方法的装配时间有显著差异。8.11
调查了339名五十岁以上的人,其中205名吸烟者中有4三个患慢性气管炎,在134名不吸烟者中有13人患慢性气管炎。调查数据能否支持“吸烟者容易患慢性气管炎”这种观点(a=0.05)? 解:建立假设H0:π1≤π2;H1:π1>π2p1=43/205=0.2097
p2=13/134=0.097
n2=134 检验统计量z?p?p?d0.?0=3当α=0.05,查表得z?=1.645。因为z>z?,拒绝原假设,说明吸烟者容易患慢性气管炎。
为了控制贷款规模,某商业银行有个内部要求,平均每项贷款数额不能超过60万元。随着经济的发展,贷款规模有增大的趋势。银行经理想了解在同样项目条件下,贷款的平均规模是否明显地超过60万元,故1个n=144的随机样本被抽出,测得=68.1万元,s=45。用a=0.01的显著性水平,采用p值进行检验。 解:H0:μ≤60;H1:μ>60已知:=68.1s=45由于n=144>30,大样本,因此检验统计量:z?2.16由于>μ,因此P值=P(z≥2.16)=1-??2.16?,查表的??2.16?=0.9846,P值=0.0154 由于P>α=0.01,故不能拒绝原假设,说明贷款的平均规模没有明显地超过60万元。8.13
有1种理论认为服用阿司匹林有助于减少心脏病的发生,为了进行验证,研究人员把自愿参与实验的22 000人随机平均分成两组,一组人员每星期服用三次阿司匹林(样本1),另一组人员在相同的时间服用安慰剂(样本2)持续3年之后进行检测,样本1中有104人患心脏病,样本2中有189人患心脏病。以a=0.05的显著性水平检验服用阿司匹林是否可以降低心脏病发生率。 解:建立假设H0:π1≥π2;H1:π1<π2p1=104/45
p2=189/18
n2=11000 检验统计量z?p?p?d0.18?0=-5当α=0.05,查表得z?=1.645。因为z<-z?,拒绝原假设,说明用阿司匹林可以降低心脏病发生率。8.15
有人说在大学中男生的学习成绩比女生的学习成绩好。现从1个学校中随机抽取了25名男生和16名女生,对他们进行了同样题目的测试。测试结果表明,男生的平均成绩为82分,方差为56分,女生的平均成绩为78分,方差为49分。假设显著性水平α=0.02,从上述数据中能得到什么结论? 解:首先进行方差是否相等的检验:建立假设H0:?1=?2;H1:?1≠?2 n1=25,s1=56,n2=16,s2=49222222s1256F?2==1.143s249当α=0.02时,F?<F?22?24,15?=3.294,F1??2?24,15?=0.346。由于F1???24,15?<F?24,15?,检验统计量的值落在接受域中,所以接受原假设,说明总体方差无显著差异。检验均值差: 建立假设H0:μ1-μ2≤0
H1:μ1-μ2>0总体正态,小样本抽样,方差未知,方差相等,检验统计量t??根据样本数据计算,得n1=25,n2=16,1=82,s1=56,2=78,s2=4922s2p2n1?1?s12??n1?1?s2??n1?n2?2=53.308t??=1.711α=0.02时,临界点为t??n1?n2?2?=t0.02?39?=2.125,t<t?,故不能拒绝原假设,不能认为大学中男生的学习成绩比女生的学习成绩好。10.3
一家牛奶公司有4台机器装填牛奶,每桶的容量为4L。下面是从4台机器中抽取的样本数据:取显著性水平a=0.01,检验4台机器的装填量是否相同? 解:ANOVA每桶容量(L)
组间 组内 总数平方和0.007 0.004 0.011df3 15 18均方0.002 0.000F8.721显著性0.001不相同。10.7
某企业准备用3种方法组装1种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的1种方法。通过对每个工人生产的产品数进行方差分析得到下面的结果;要求:(1)完成上面的方差分析表。(2)若显著性水平a=0.05,检验3种方法组装的产品数量之间是否有显著差异? 解:(2)P=0.025>a=0.05,没有显著差异。10.9
有五种不同品种的种子和四种不同的施肥方案,在20块同样面积的土地上,分别采检验种子的不同品种对收获量的影响是否有显著差异?不同的施肥方案对收获量的影响统计学课后习题部分题目***07_统计学课后习题***是否有显著差异(a=0.05)?似乎交互作用不明显:(1)考虑无交互作用下的方差分析:主体间效应的检验因变量: 收获量
源 校正模型 截距Fertilization_Methods Variety 误差 总计 校正的总计a. R 方 = .825(调整 R 方 = .723)结果表明施肥方法和品种都对收获量有显著影响。 (2)考虑有交互作用下的方差分析:主体间效应的检验因变量: 收获量
源 校正模型 截距Fertilization_Methods VarietyFertilization_Methods * VarietyIII 型平方和45.150(a) 2,930.621 18.182 19.067 7.901df19 1 3 4 12均方2.376 . 2,930.621 .6.061 . 4.767 . 0.658 .F. . . . .Sig.III 型平方和37.249(a) 2,930.621 18.182 19.067 7.901 2,975.770 45.150df7 1 3 4 12 20
19均方5.321 2,930.6216.061 4.767 0.658F 8.082 4,451.0129.205 7.240Sig.0.001 0.000 0.002 0.003误差 总计 校正的总计a. R 方 = 1.000(调整 R 方 = .)0.000 2,975.770 45.1500 . 20
19由于观测数太少,得不到结果!10.11
一家超市连锁店进行一项研究,确定超市所在的位置和竞争者的数取显著性水平a=0.01,检验:(1)竞争者的数量对销售额是否有显著影响?(2)超市的位置对销售额是否有显著影响?(3)竞争者的数量和超市的位置对销售额是否有交互影响? 解:画折线图:交互作用不十分明显。(1)进行无交互方差分析:主体间效应的检验因变量: 月销售额(万元)a. R 方 = .717(调整 R 方 = .670)看到超市位置有显著影响,而竞争者数量没有显著影响,且影响强度仅为0.327,因此考虑是否存在交互作用。(2)有交互方差分析:看到超市位置有显著影响,而竞争者数量和交互作用均无显著影响。主体间效应的检验a. R 方 = .845(调整 R 方 = .774)11.5
一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近十个卡车运货记录的随机样本,得到运送距离(单位:km)和运送时间(单位:天)的数据如下:要求:(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态: (2)计算线性相关系数,说明2个变量之间的关系强度。(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。 解:(1)可能存在线性关系。 (2)相关性x运送距离(km)Pearson 相关性 显著性(双侧) Ny运送时间(天)Pearson 相关性 显著性(双侧) N**. 在 .01 水平(双侧)上显著相关。x运送距离(km)110 .949(**)y运送时间(天).949(**) 0.000 10 10.000
1010统计学课后习题部分题目***07_统计学课后习题***有很强的线性关系。 (3)系数(a)非标准化系数模型 1(常量) x运送距离(km)a. 因变量: y运送时间(天)标准化系数Betat 0.3330.9498.509显著性0.748 0.000B 0.118 0.004标准误0.355
0.000回归系数的含义:每公里增加0.004天。要求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。(2)计算2个变量之间的线性相关系数,说明2个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。(5)检验回归方程线性关系的显著性(a=0.05)。(6)如果某地区的人均GDP为5 000元,预测其人均消费水平。(7)求人均GDP为5 000元时,人均消费水平95%的置信区间和预测区间。 解:(1)可能存在线性关系。 (2)相关系数:相关性人均GDP(元)Pearson 相关性 显著性(双侧) N人均消费水平(元)Pearson 相关性 显著性(双侧) N**. 在 .01 水平(双侧)上显著相关。有很强的线性关系。 (3)回归方程:系数(a)非标准化系数模型 1(常量) 人均GDP(元)a. 因变量: 人均消费水平(元)回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。(4)模型摘要人均GDP(元)17 .998(**) 0.0007人均消费水平(元).998(**) 0.0007 17标准化系数Betat 5.2650.99836.492显著性0.003 0.000B 734.693 0.309标准误 139.540
0.008模型 1a. 预测变量:(常量), 人均GDP(元)。R .998(a)R 方0.996调整的 R 方0.996估计的标准差247.303人均GDP对人均消费的影响达到99.6%。 (5)F检验:ANOVA(b)模型 1回归 残差 合计a. 预测变量:(常量), 人均GDP(元)。 b. 因变量: 人均消费水平(元)平方和 81,444,968.680 305,795.034 81,750,763.714df1 5 6均方 81,444,968.68061,159.007F 1,331.692显回归系数的检验:t检验系数(a)非标准化系数模型 1(常量) 人均GDP(元)a. 因变量: 人均消费水平(元)标准化系数Betat 5.2650.99836.492显著性0.003 0.000B 734.693 0.309标准误 139.540
0.008(6)某地区的人均GDP为5 000元,预测其人均消费水平为元。 (7)人均GDP为5 000元时,人均消费水平95%的置信区间为[,],预测区间为[,]。11.9
某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。通过计算得到下面的有关结果:参数估计表要求:(1)完成上面的方差分析表。(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?
(3)销售量与广告费用之间的相关系数是多少?(4)写出估计的回归方程并解释回归系数的实际意义。(5)检验线性关系的显著性(a=0.05)。
解:(2)R2=0.9756,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。 (3)r=0.9877。(4)回归系数的意义:广告费用每增加1个单位,汽车销量就增加1.4两个单位。 (5)回归系数的检验:p=2.17E—09<α,回归系数不等于0,显著。
回归直线的检验:p=2.17E—09<α,回归直线显著。11.11
从20的样本中得到的有关回归结果是:SSR=60,SSE=40。要检验x与y之间的线性关系是否显著,即检验假设:H0:?1?0。(1)线性关系检验的统计量F值是多少?
(2)给定显著性水平a=0.05,Fa是多少?
(3)是拒绝原假设还是不拒绝原假设?(4)假定x与y之间是负相关,计算相关系数r。
(5)检验x与y之间的线性关系是否显著?解:(1)SSR的自由度为k=1;SSE的自由度为n-k-1=18;SSR60因此:F===27 n?k?118(2)F??1,18?=F0.05?1,18?=4.41 (3)拒绝原假设,线性关系显著。 (4),由于是负相关,因此r=-0.7746(5)从F检验看线性关系显著。要求:(1)用广告费支出作自变量x,销售额作因变量y,求出估计的回归方程。 (2)检验广告费支出与销售额之间的线性关系是否显著(a=0.05)。 (3)绘制关于x的残差图,你觉得关于误差项?的假定被满足了吗?
(4)你是选用这个模型,还是另寻找1个更好的模型? 解:(1)系数(a)非标准化系数模型 1(常量)广告费支出(万元)a. 因变量: 销售额(万元)标准化系数Betat 6.1160.8313.339显著性0.002 0.021B 29.399 1.547标准误4.807
0.463(2)回归直线的F检验:ANOVA(b)模型 1回归 残差 合计a. 预测变量:(常量), 广告费支出(万元)。 b. 因变量: 销售额(万元)平方和 691.723 310.277 1,002.000df1 5 6均方 691.723 62.055F 11.147显著性 .021(a)显著。回归系数的t检验:系数(a)非标准化系数模型 1(常量)广告费支出(万元)a. 因变量: 销售额(万元)标准化系数Betat 6.1160.8313.339显著性0.002 0.021B 29.399 1.547标准误4.807
0.463显著。(3)未标准化残差图:统计学课后习题部分题目***07_统计学课后习题***标准化残差图:(4)应考虑其他模型。可考虑对数曲线模型:y=b0+b1ln(x)=22.471+11.576ln(x)。12.2
根据下面Excel输出的回归结果,说明模型中涉及多少个自变量、少个观察值?写出回归方程,并根据F,se,R2及调整的Ra2的值对模型进行讨论。方差分析
回归 残差 总计Intercept X Variable 1 X Variable 2 X Variable 3df 3 11 14SS8 2 453670 Coefficients 657.311 -0..471481MS 6 11974.84标准误差 167....442935F 8.961759t
Stat 3....405847Significance F 0.002724
P-value 0....034870解:自变量三个,观察值十五个。?=657.311X1-0.-3. 回归方程:y拟合优度:判定系数R2=0.70965,调整的Ra2=0.630463,说明3个自变量对因变量的影响的比例占到63%。估计的标准误差Syx=109.429596,说明随即变动程度为109.429596回归方程的检验:F检验的P=0.002724,在显著性为5%的情况下,整个回归方程线性关系显著。回归系数的检验:?1的t检验的P=0.008655,在显著性为5%的情况下,y与X1线性关系显著。?2的t检验的P=0.222174,在显著性为5%的情况下,y与X2线性关系不显著。?3的t检验的P=0.034870,在显著性为5%的情况下,y与X3线性关系显著。因此,可以考虑采用逐步回归去除X2,从新构建线性回归模型。???18.4?2.01x1?4.74x2,并且已知n=10,12.3
根据2个自变量得到的多元回归方程为ySST=6 724.125,SSR=6 216.375,s???0.0813,s??=0.056 7。要求:12(1)在a=0.05的显著性水平下,x1,x2与y的线性关系是否显著?
(2)在a=0.05的显著性水平下,?1是否显著?(3)在a=0.05的显著性水平下,?2是否显著?
解(1)回归方程的显著性检验:假设:H0:?1=?2=0
H1:?1,?2不全等于0 SSE=SST-SSR=6 724.125-6 216.375=507.75 F=SSRp2==42.85SSE?p??1F??2,7?=4.74,F&F??2,7?,认为线性关系显著。(2)回归系数的显著性检验: 假设:H0:?1=0
H1:?1≠0 t=?1S?1=2.01=24.720.0813t?2?n?p?1?=2.36,t&t?2?7?,认为y与x1线性关系显著。(3)回归系数的显著性检验: 假设:H0:?2=0
H1:?2≠0 t=?2S?2=4.74=83.60.0567t?2?n?p?1?=2.36,t&t?2?7?,认为y与x2线性关系显著。12.4
一家电器销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。下面是近八个月的销售额与广告费用数据:要求:(1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。(2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。(3)上述(1)和(2)所建立的估计方程,电视广告费用的系数是否相同?对其回归系数分别进行解释。(4)根据问题(2)所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少?(5)根据问题(2)所建立的估计方程,检验回归系数是否显著(a=0.05)。??88.64+1.6x 解:(1)回归方程为:y??83.23?2.29x1?1.3x2 (2)回归方程为:y(3)不相同,(1)中表明电视广告费用增加1万元,月销售额增加1.6万元;(2)中表明,在报纸广告费用不变的情况下,电视广告费用增加1万元,月销售额增加2.29万元。(4)判定系数R2= 0.919,调整的Ra2= 0.8866,比例为88.66%。 (5)回归系数的显著性检验:Coefficients标 准误差 t Stat P-value Lower 95% Upper 95% 下限 95.0% 上限 95.0%Intercept 83.869 52.E-08 79.85 79.850.......071806 电视广告费用工:x1 (万元) 2.2901841........125379 报纸广告费用x2(万元)假设:H0:?1=0
H1:?1≠0 t=?1S?1=2.29=7.53 0.304t0.025?5?=2.57,t&t0.025?5?,认为y与x1线性关系显著。(3)回归系数的显著性检验: 假设:H0:?2=0
H1:?2≠0 t=?2S?2=1.3=4.05 0.32统计学课后习题部分题目***07_统计学课后习题***t0.025?5?=2.57,t&t0.025?5?,认为y与x2线性关系显著。要求:(1)试确定早稻收获量对春季降雨量和春季温度的二元线性回归方程。(2)解释回归系数的实际意义。(3)根据你的判断,模型中是否存在多重共线性???-0.591?22.386x1?327.672x2 解:(1)回归方程为:y(2)在温度不变的情况下,降雨量每增加1mm,收获量增加22.386kg/hm2,在降雨量不变的情况下,降雨量每增加1度,收获量增加327.672kg/hm2。(3)x1与x2的相关系数rx1x2=0.965,存在多重共线性。要求:(1)计算y与x1、y与x2之间的相关系数,是否有证据表明销售价格与购进价格、销售价格与销售费用之间存在线性关系?(2)根据上述结果,你认为用购进价格和销售费用来预测销售价格是否有用?
(3)用Excel进行回归,并检验模型的线性关系是否显著(a=0.05)。
(4)解释判定系数R2,所得结论与问题(2)中是否一致?(5)计算x1与x2之间的相关系数,所得结果意味着什么? (6)模型中是否存在多重共线性?你对模型有何建议? 解:(1)y与x1的相关系数=0.309,y与x2之间的相关系数=0.0012。对相关性进行检验:相关性销售价格Pearson 相关性 显著性(双侧) N购进价格Pearson 相关性 显著性(双侧) N销售费用Pearson 相关性 显著性(双侧) N**. 在 .01 水平(双侧)上显著相关。销售价格115 0.309 0.263
15 0.001 0.997 15购进价格0.309 0.263 15 1销售费用0.001 0.997 15 -.853(**) 0.0001515 1-.853(**) 0.000
1515可以看到,2个相关系数的P值都比较的,总体上线性关系也不现状,因此没有明显的线性相关关系。(2)意义不大。 (3)回归统计Multiple R 0.593684 R Square 0.35246 Adjusted R Square 0.24453769.75121 标准误差15 观测值方差分析
回归分析 残差 总计Lower 95% Upper 95% 下限 95.0% 上限 95.0%
Coefficients 标准误差 t Stat P-valueIntercept 375.562 1.145 -363.91 3.91 0...317 0...996365 购进价格x1 0.5378410.......912001 销售费用x2 1.457194dfSS2 12 14MSFSignificance F ..82.2
从检验结果看,整个方程在5%下,不显著;而回归系数在5%下,均显著,说明回归方程没有多大意义,并且自变量间存在线性相关关系。(4)从R2看,调整后的R2=24.4%,说明自变量对因变量影响不大,反映情况基本一致。(5)方程不显著,而回归系数显著,说明可能存在多重共线性。 (6)存在多重共线性,模型不适宜采用线性模型。12.11
一家货物运输公司想研究运输费用与货物类型的关系,并建立运输费用与货物类型的回归模型,以此对运输费用作出预测。该运输公司所运输的货物分为2种类型:易碎品和非易碎品。下表给出了十五个路程大致相同,而货物类型不同的运输费用数据。要求:(1)写出运输费用与货物类型之间的线性方程。
(2)对模型中的回归系数进行解释。(3)检验模型的线性关系是否显著(a=0.05)。 解:
回归分析 残差 总计Lower 95% Upper 95% 标准误差 t Stat P-value 下限 95.0% 上限 95.0%
CoefficientsIntercept 4........ 7......857 10.48443??4.54?7.08x (1)回归方程为:y(2)非易碎品的平均运费为4.54元,易碎品的平均运费为11.62元,易碎品与非易碎df SS MS FSignificanceF1 187.9 20.601 13 120.396
14 307.624品的平均运费差为7.08元。(3)回归方程的显著性检验:假设:H0:?1=0
H1:?1不等于0 SSR=187.25195,SSE=120.3721, F=SSRp==20.22SSE?p?1?1?1P=0..05,或者F0.05?1,13?=4.67,F&F0.05?1,13?,认为线性关系显著。 或者,回归系数的显著性检验: 假设:H0:?1=0
H1:?1≠0 t=?1S?1=7.08=4.5 1.57P=0..05,或者t??n?p?1?=t0.025?13?=2.16,t&t0.025?13?,认为y与x线性关系显著。12.12
为分析某行业中的薪水有无性别歧视,从该行业中随机抽取15名员工,有关数据如要求:用Excel进行回归,并对结果进行分析。 解:回归统计Multiple R0.943391R Square 0.889987 Adjusted R Square 0.87165296.79158 标准误差15 观测值方差分析回归分析 残差 总计Coefficients标 准误差 t Stat P-value Lower 95% Upper 95% 下限 95.0% 上限 95.0%Intercept 732.4 3...5 218.5 111.42 1...5 -45.5 工龄x11.82E-06 342.208 575. 575.1601 性别(1=男,0=女)x2 458.5 8.58019拟合优度良好,方程线性显著,工龄线性不显著,性别线性显著。dfSSMSFSignificance F2
48.E-06 12
102191213.1 下表是1981年—1999年国家财政用于农业的支出额数据统计学课后习题部分题目***07_统计学课后习题***(1)绘制时间序列图描述其形态。 (2)计算年平均增长率。(3)根据年平均增长率预测2000年的支出额。 详细***:(1)时间序列图如下:从时间序列图可以看出,国家财政用于农业的支出额大体上呈指数上升趋势。(2)年平均增长率为:。(3)。13.2 下表是1981年—2000年我国油彩油菜籽单位面积产量数据(单位:kg / hm2)(1)绘制时间序列图描述其形态。(2)用5期移动平均法预测2001年的单位面积产量。(3)采用指数平滑法,分别用平滑系数a=0.3和a=0.5预测2001年的单位面积产量,分析预测误差,说明用哪1个平滑系数预测更合适? 详细***:(1)时间序列图如下:(2)2001年的预测值为:|(3)由Excel输出的指数平滑预测值如下表:2001年a=0.3时的预测值为:a=0.5时的预测值为:比较误差平方可知,a=0.5更合适。13.3 下面是一家旅馆过去十八个月的营业额数据(1)用3期移动平均法预测第十九个月的营业额。(2)采用指数平滑法,分别用平滑系数a=0.3、a=0.4和a=0.5预测各月的营业额,分析预测误差,说明用哪1个平滑系数预测更合适? (3)建立1个趋势方程预测各月的营业额,计算出估计标准误差。 详细***:(1)第十九个月的3期移动平均预测值为:(2)由Excel输出的指数平滑预测值如下表: a=0.3时的预测值:,误差均方=87514.7。统计学课后习题部分题目***07_统计学课后习题***a=0.4时的预测值:,误差均方=62992.5.。a=0.5时的预测值:,误差均方=50236。比较各误差平方可知,a=0.5更合适。(3)根据最小二乘法,利用Excel输出的回归结果如下:。估计标准误差 。13.4 下表是1981年—2000年我国财政用于文教、科技、卫生事业费指出额数据(1)绘制时间序列图描述其趋势。(2)选择一条适合的趋势线拟合数据,并根据趋势线预测2001年的支出额。详细***:
(1)趋势图如下:(2)从趋势图可以看出,我国财政用于文教、科技、卫生事业费指出额呈现指数增长趋势,因此,选择指数曲线。经线性变换后,利用Excel输出的回归结果如下:,指数曲线方程为:2001年的预测值为:;。, 。所以,。13.5 我国1964年~1999年的纱产量数据如下(单位:万吨):(1)绘制时间序列图描述其趋势。(2)选择一条适合的趋势线拟合数据,并根据趋势线预测2000年的产量。详细***:
(1)趋势图如下:(2)从图中可以看出,纱产量具有明显的线性趋势。用Excel求得的线性趋势方程为:2000年预测值为:=585.65(万吨)。13.6 对下面的数据分别拟合线性趋势线和阶次曲线、二阶曲线。并对结果进行比较。统计学课后习题部分题目***07_统计学课后习题***详细***:在求二阶曲线和三阶曲线时,首先将其线性化,然后用最小二乘法按线性回归进行求解。用Excel求得的趋势直线、二阶曲线和三阶曲线的系数如下:各趋势方程为: 线性趋势:二阶曲线:三阶曲线:根据趋势方程求得的预测值和预测误差如下表:。不同趋势线预测的标准误差如下:直线:二阶曲线:三阶曲线:比较各预测误差可知,直线的误差最大,三阶曲线的误差最小。 从不同趋势方程的预测图也可以看出,三阶曲线与原序列的拟合最好。13.7 下表是年我国的原煤产量数据(1)绘制时间序列图描述其趋势。(2)选择一条适合的趋势线拟合数据,并根据趋势线预测2001年的产量。 详细***:(1)原煤产量趋势图如下:从趋势图可以看出,拟合二阶曲线比较合适。 (2)用Excel求得的二阶曲线趋势方程为:2001年的预测值为:。13.8 一家贸易公司主要经营产品的外销业务,为了合理地组织货源,需要了解外销订单的变化状况。下表是年各月份的外销定单金额(单位:万元)。统计学课后习题部分题目***07_统计学课后习题***(1)根据各年的月份数据绘制趋势图,说明该时间序列的特点。 (2)要寻找各月份的预测值,你认为应该采取什么方法?
(3)选择你认为合适的方法预测2002年1月份的外销订单金额。 详细***:
(1)趋势图如下:从趋势图可以看出,每一年的各月份数据没有趋势存在,但从年的变化看,订单金额存在一定的线性趋势。(2)由于是预测各月份的订单金额,因此采用移动平均法或指数平滑法比较合适。(3)用Excel采用12项移动平均法预测的结果为:用Excel采用指数平滑法(a=0.4)预测的预测结果为:。
。13.9 年我国社会消费品零售总额数据如下(单位:亿元)(1)绘制时间序列线图,说明该序列的特点。(2)利用***预测法预测2001年各月份的社会消费品零售总额。详细***:
(1)趋势图如下:从趋势图可以看出,我国社会消费品零售总额的变具有明显的季节变动和趋势。(2)利用***法预测的结果如下:13.10 1995年~2000年北京市月平均气温数据如下(单位: ):(1)绘制年度折叠时间序列图,判断时间序列的类型。 (2)用季节性多元回归模型预测2001年各月份的平均气温。 详细***:(1)年度折叠时间序列图如下:从年度折叠时间序列图可以看出,北京市月平均气温具有明显的季节变动。由于折线图中有交叉,表明该序列不存在趋势。 (2)季节性多元回归模型为: 设月份为。则季节性多元回归模型为:虚拟变量为:,由Excel输出的回归结果如下:,……, 。统计学课后习题部分题目***07_统计学课后习题***季节性多元回归方程为:2001年各月份平均气温的预测值如下:13.11 下表中的数据是一家大型百货公司最近几年各季度的销售额数据(单位:万元)。对这一时间序列的构成要素进行***,计算季节指数、剔除季节变动、计算剔除季节变动后趋势方程。详细***:
各季节指数如下:季节变动图如下:根据分离季节因素后的数据计算的趋势方程为:。13.12 下表中的数据是一家水产品加工公司最近几年的加工量数据(单位:t)。对该序列进行***,计算季节指数、剔除季节变动、计算剔除季节变动后趋势方程。详细***:
各月季节指数如下:季节变动图如下:根据分离季节因素后的数据计算的趋势方程为:。欢迎您转载分享:
更多精彩: