游戏中总是爸爸没看见妈妈不知道人又有XXnnXXX的符号,可是又不知道nn怎么...

统计学文稿_上海财经大学:统计学_ppt_大学课件预览_高等教育资讯网
上海财经大学:统计学:统计学文稿
分类: 格式: 日期:日
统计学教程第一章 绪论第二章 统计调查与整理第三章 综合指标第五章 参数估计和假设检验第六章 相关与回归第七章 非参数检验第八章 时间序列第九章 指数 结束二、统计学的研究对象和研究方法(一)统计包含 三种涵义,两重关系1、统计工作:调查研究。资料收集、整理和分析。2、统计资料:工作成果。包括统计数据和分析报告。3、统计学:研究如何搜集、整理、分析数据资料的一门 方法论 科学。统计工作统计资料统 计 学工作与工作成果关系 实践与理 论关系统计学的性质:是一门适用于自然现象和社会现象的方法论学科。统计学的研究对象:大量现象的数量方面。包括数量特征、数量关系、数量界限等。(二)统计学的研究对象(三)统计学的研究对象1、大量观察法是指对所研究的事物的全部或足够数量进行观察的方法。它可以使影响个体的偶然因素相互抵消,显示出现象的一般特征。其数理依据是反映随机现象基本规律的大数定律。2、综合指标法是从数量方面对现象总体特征的概括说明。综合指标法,就是运用各种综合指标对现象的数量特征、数量关系进行对比分析的方法。它是统计分析的基本方法。3、统计推断法是在一定置信程度(即可靠程度)下,根据样本资料的特征对总体特征作出估计和预测的方法。统计推断是现代统计学的基本方法。一、统计学的产生与发展产生原始社会后期,统计萌芽于计数活动;奴隶制国家产生:使统计日显重要;封建社会时期,统计已具规模;资本主义的兴起:统计扩展到社会经济各方面。统 计学应运而生,统计学作为一门系统的科学,距今只有 300多年的历史。一、统计学的产生与发展发展(三个时期)(一)统计学的萌芽期( 17世纪中- 18世纪中)1、德国的记述学派(国势学派 〕康令 ( 1606- 1681)阿痕瓦尔( 1719- 1772; 1764年首创统计学一词)他们在大学中开设,国势学”采用记述性材料,讲述国家,显著事项”,籍以说明管理国家的方法 。特点是 偏重于事物质的解释而忽视量的分析 。(二)统计学的近代期( 18世纪末- 19世纪末)1、数理统计学派代表人物:法国的拉普拉斯,比利时的凯特勒 。拉普拉斯把 古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。2、政治算术学派代表人物:英国的威廉 ·配第、约翰 ·格朗特等。威廉 ·配第的代表著,政治算术,对当时的英、荷、法等国的,国富和力量”进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作 。 他们开创了 从数量方面研究社会经济现象的先例 。凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人,有,统计学之父,之称。2、社会统计学派代表人物:德国的克尼斯、恩格尔、梅尔等 。他们强调统计学是 研究社会现象的科学,包括统计资料的搜集、整理和分析研究,目的是要揭示现象内部的联系 。(三)统计学的现代期( 20世纪初至今)统计学的主流从描述统计学 转向 推断统计学。 20世纪 30年代 R·费希尔的推断统计理论标志着现代数理统计学的确立。60年代以后统计学发展有三个明显的趋势:1·统计学依赖和吸收数学更多;2·以统计学为基础的边缘学科不断形成;3·与电子计算机技术相结合,应用范围更广,作用更大。三、统计学的要素和内容1、统计总体和总体单位总体 统计研究所确定的客观对象,是具有共同性质的许多单位组成的整体。无限总体:含无限多个单位范围有限总体:含有限个单位。总体单位:组成总体的各个单位(或元素),是各项统计数字的原始承担者。同质性:总体中各个单位具有某种共同的性质。大量性:总体总是包含大量的单位。(一)统计学的要素特点2、标志标志 总体单位的属性、特征。品质标志:用文字表示属性分类 数量标志:用数字表示特征不变标志:各单位具体表现相同可变标志:各单位具体表现不同指标:综合反映总体数量特征的概念和数值。构成:指标名+指标数值特点:具体性;综合性3、指标和指标体系分类:数量指标;质量指标描述指标;评价指标;预警指标绝对数指标;相对数指标;平均数指标在推断统计中:说明总体的指标也称参数。说明样本的指标称统计量。指标体系:具有内在联系的一系指标构成的整体。标志与指标的联系与区别:联系( 1)一些数量标志汇总可以得到指标的数值 。区别( 1)标志是说明总体单位特征的,而指标是说统统 计总体数量特征的;( 2)数量标志与指标之间存在变换 关系。( 2)标志的具体表现,有的用数值有的用文字表示,而指标都是用数值表示的。4、变量和变量值变量 可变的数量标志和统计指标。确定性变量分类 随机性变量离散性变量连续性变量变量值:即变量的具体数值,包括标志值和指标数值社会经济现象中许多变量,既受确定性因素影响,又受随机性因素影响。要根据具体情况加以认定。5、样本 是从总体中随机抽取部分单位所构成的集合体。必须取自所要研究的总体;特点从一个总体中可抽取许多个样本,这些样本的数值是不同的,也即存在着随机的差异;样本必须具有代表性;样本必须具有客观性,也即排除主观因素的影响6、推断:就是以样本信息为依据对总体的某些特征作出预测和估计。7、推断的可靠性:根据随机抽取的样本对总体推断所得出的结果的可靠程度,也称 置信度 。(二)统计学的内容1、描述统计 指搜集、整理、分析并提供统计资料的理论和方法。主要任务:使反映客观事物的统计数据可以一目了然,条理清晰,使用方便,可以说明现象的数量特征和数量关系。2、推断统计 是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。描述统计是推断统计的前提,推断统计是描述统计的发展。四、统计测定的层次统计测定( measurement)即对总体数量特征的量度,包括登记、分类、标示、计算等。四个测定层次的比较1234量化等级功能包容1234测定层次 特征 运算功能 举例1、定名测定2、序列测定3、间距测定4、比率测定分类分类;排序分类;排序;有基本测量单位分类;排序;有基本测量单位;有绝对零点计数计数;排序计数;排序;加减计数;排序;加减乘除产业分类企业等级产品质量差异商品销售额第二章 统计调查与整理统计调查 统计整理 统计分析有组织、有计划地搜集资料。要求:准确、完整、及时对调查资料去伪存真、去粗取精、科学分类、浓缩简化描述性分析推断分析、决策分析。要求:定性定量结合统计工作的三个中心阶段统计调查一、调查组织方式统计调查二、调查方案设计报表制度普 查重点调查典型调查抽样调查方案内容调查表、问卷设计制度化的经常性调查专门组织调查全面调查非全面调查一、统计调查的组织方式统计报表制度由政府部门组织,采用统一的表格,自上而下 布置,自下而上 报告。任务,搜集 国民经济和社会发展基本情况 的资料,为制订国民经济和社会发展计划和检查计划执行情况服务。优点,精心周密设计、高度统一、规范。回收率高,内容相对稳定,便于资料积累、对比。层层上报、逐级汇总,可以满足各部门需要。特点:普查特点,工作量大,时间性强,需要大量人力和财力。任务,搜集重要的 国情国力和资源状况 的全面资料,为政府制定规划、方针政策提供依据。方式,建立专门机构,配备专门人员调查。利用基层单位原始记录和核算资料发表调查。原则,规定统一的标准时点。规定统一的普查期限。规定调查的项目和指标。重点调查特点,在总体中选择 个别或部分 重点单位 进行调查 。任务,及时了解总体基本情况,为主管部门指导工作服务。方式,一次性调查;专门设计和备配人员现场调查。重点单位 指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。经常性调查;同报表制度结合,用统计报表调查。典型调查特点,在全面分析的基础上,有 意识地 选择代表性的 典型单位 进行现场调查。任务,为研究某种特殊的社会经济问题,搜集详细的第一手资料,借以认识事物的 本质特征,因果关系,变化趋势 。为理论和政策性问题研究提供依据。作用,适宜于研究处于萌芽状态事物和倾向性问题;适宜于分析事物的类型,它们之间的差别和关系。方法:,?解剖麻雀’;‘ 划类选典’;‘抓两 头’”。抽样调查特点,1·按 随机原则 从总体中抽取样本;2·以样本指标(统计量)为依据 推断总体参数或 检验总体的某种假设 ;3·抽样误差可以事先 计算 并加以 控制 。调查误差登记性误差代表性误差编 差随机误差 抽样平均误差实际误差统计推断中的抽样误差就是 抽样平均误差 。它是处于调查所固有的,是对抽样推断精确度的量度。样本容量 抽样方式总体内部差异抽样调查的组织方式:1·简单随机抽样(纯随机抽样)方法:将总体单位编成抽样框,而后用抽签或随机数表抽取样本单位。适用:总体规模不大;总体内部差异小2·类型抽样(分层抽样)方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。总体N 样本 n等额等比例最优kiiknnnnn121?nNNn i1nNNniiii?221?2NkN1N 1n2nkn··· ···3·等距抽样(机械抽样)方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。排序依据的标志,( 1) 无 关标志; ( 2) 有 关标志(总体单位按某一标志排序)······ · · · · · ·4·整群抽样方法,将总体全部单位分为许多个,,群,,然后随机抽取若干,,群,,对被抽中的各,,群,内的所有单位登记调查 。例:总体群数 R=16 样本群数 r=4 样本容量例:AB CDEFG H IJKLM NOP LHPDhlpd nnnnn例,在某省 100多万农户抽取 1000户调查农户生产性投资情况。5·多阶段抽样第一阶段:从省内部县中抽取 5个县第二阶段:从抽中的 5个县中各抽 4个乡第三阶段:从抽中的 20个乡中各抽 5个村第四阶段:从抽中的 100个村中各抽 10户样本 n=100× 10=1000(户 )抽样方法1·放回抽样,抽出样本单位登记后放回总体,再抽时总体不变2·不放回抽样,抽出样本单位登记后不放回总体,再抽时总体渐次减少二、调查方案统计调查方案的主要内容1,确定调查 目的2、确定调查 对象 和 调查单位3、拟订调查 提纲4、确定调查 时间5、编制调查的 组织计划调查表与问卷设计调查表 单一表一览表 例:,工业企业统计报表,问卷结构,说明词 + 主题词句 + 作业记录例:,人口普查登记表,问卷设计基本要求,主题明确,形式简明,文字通俗,容易理解,便于回答。词句编排,层次分明,先易后难。问卷形式,① 开放式词句②对选式词句③多项选择式词句④顺位式词句⑤标度式词句〖 案例 〗统计整理主要任务 资料审核、分组、汇总、制表、制图等。分组 频数分布 统计表 统计图分组分组前 分组后25%33%42%1·划分现象类型作用:例:按所有制性质划分,我国现有 8种经济类型:国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港澳台投资经济2·研究总体结构例:上海市按 GDP计算的三次产业结构( %)1980年 1990年 1996年 1997年GDP 100 100 100 100第一产业 3.2 4.3 2.5 2.3第二产业 75.7 63.8 54.5 52.2第三产业 21.1 31.9 43.0 45.53·研究现象之间的依存关系例:中国农民家庭按收入分组的恩格尔系数( 1984年)按收入分组(元) &200 &300 &400 &500 &600 &800 &1000恩格尔系数( %) 64.9 60.2 56.7 54.4 50.5 49.9 43.6分组标志的选择与分组形式关键:服从研究任务需要,反映总体本质特征形式按分组标志性质分 品质标志分组数量标志分组按分组标志个数分简单分组复合分组分组体系频数分布(分布数列)是一种重要的分组资料,反映总体单位在各组的分布状态。基本形式:分组 单位数 频率合计… ……100频数分布频率分布分类 品质数列变量数列 单项数列组距数列 等距数列异距数列例例例例变量数列的编制1·计算极差2·确定形式 单项数列:离散型且取值不多。组距数列:离散型且取值多或连续型。3·组距数列:组距;组数;4·计算各组频数,频率,累计频数,累计频率等。5·组中值的计算:闭口组;开口组统计表构成总表题横行标题:统计研究的对象。也称 主词 。纵栏标题:说明主词的指标名。也称 宾词 。数字资料分类主词简单表分组表复合表宾词 平行形式交叉形式编制规则:统计图直方图 等距数列:(变量,频数)异距数列,(变量,频数密度 )折线图曲线图等距数列:(组中值,频数)异距数列:(组中值,频数密度)单项数列:(变量,频数)向上累计分布:(变量上限,累计频数)向下累计分布:(变量下限,累计频数)变量的组数无限增多时,折线便趋于一条光滑的曲线。P55 图 2- 5图形某厂职工人数统计表按性别分组男 职 工女 职 工合 计人数(人)(频数)比率(%)(频率)25311536868.7531.25100.00返回某厂职工家庭人口分组统计按家庭人口分组1合 计职工户数(频数)比率(%)(频率)7返回23456381055431202.915.241.320.512.18.0255 100第三章 综合指标一,综合指标概述二、总量指标(绝对数指标)三、相对数指标(相对数)四、平均数指标(平均数)五、标志变异指标主要内容案例一,综合指标概述统计指标 统计指标是综合反映统计总体数量特征的概念和数值。指标名称 指标数值反映总体某一方面的质的规定性,是对总体本质特征的一种概括。是总体量的规定性在一定时间、地点、条件下的具体表现。统计指标 重要特点:具体性; 综合性描述指标评价指标监测指标分类数量指标质量指标绝对数指标相对数指标平均数指标指标体系 具有内在联系的一系列指标所构成的整体,即称为指标体系 。分类社会指标体系经济指标体系科技指标体系基本统计指标体系是针对某项社会经济问题而制定的专项指标体系,如工业经济效益指标体系、价格指标体系等。专题统计指标体系二、总量指标(绝对数指标)概念总量指标是反映社会经济现象 总规模,总水平 的总和 指标。( 1)反映国情、国力和企事业单位人、财、物的状况;( 3)是计算相对指标和平均指标的基础。( 2)是国民经济宏观管理和企业经济核算的基础性指标,是实行目标管理的工具;作用分类按反映总体的内容分按反映的时间状态分( 1)社会总产品,( 2)增加值,( 3)国内生产总值( GDP)按计量单位分国民经济统计中几个重要的生产总量指标标志总量总体单位总数时期总量时点总量实物量劳动量价值量三、相对指标(相对数)概念相对指标是两个有联系的指标对比的 比值,反映事物的数量特征和数量关系 。( 1)反映总体内在的结构特征( 3)反映事物发展变化的过程和趋势。( 2)用于不同对象的比较评价;作用种类计划完成相对数结构相对数比例相对数比较相对数强度相对数动态相对数不同时期比 较动 态相对数强 度相对数不同现象比较不同总体比较比 较相对数同一总体中部分与部分比 较部分与总体比 较实际与计划比 较比 例相对数结 构相对数计划完成相对数同一时期比较同类现象比较应用原则( 1)正确选择对比的基数;( 2)必须注意统计的可比性;( 3) 相对指标要与总量指标相结合 。四、平均指标(平均数)概念平均指标反映同类现象的 一般水平,是总体内各单位参差不齐的标志值的 代表值,也是对变量分布 集中趋势 的测定 。数据集中区变量 xx常用的几种平均数概 念 计算 公 式 特 点优点:①容易理,便于计算②灵敏度高③稳定性好④和缺点:①易受极值影响②在偏斜分布和U形分布中,不具有代表性1,算术平均数( )标志总量与总体单位总数的比值 nxx iiiiffxx简单:加权: 0 xx 最小 2xxx常用的几种平均数概 念 计算 公 式 特 点优点:①灵敏度高②在某种不能计算的条件下,可以代替缺点:①不易理解②易受极值影响③有,0”值时不能计算2,调和平均数( )标志值倒数平均数的倒数简单:加权:HxiH xnx/1iXiiH mmx/?常用的几种平均数概 念 计算 公 式 特 点优点:灵敏度高② 受极值影响小于 和③ 适宜于各比率之积为总比率的变量求平均缺点,① 有,0”或负值时不能计算② 偶数项数列只能用正根3,几何平均数( )几个变量值连乘积的几次根简单:加权:Gxn iG xxif ifiG xx常用的几种平均数概 念 计算 公 式 特 点4,中位数( Me)标志值由小到大顺序排列中居中间位置的标志值位置平均数上限公式:下限公式:if SmfUMem 1/ 2if SmfLMem 1/ 2优点:①容易理解,②不受极值影响③适宜于开口组资料和些不能用数字测定的事物缺点:①灵敏度和计算功能差②间断数 Me常用的几种平均数概 念 计算 公 式 特 点5,众数( Mo)分配数列中出现次数最多的标志值位置平均数上限公式:下限公式:优点,① 容易理解,②不受极值影响缺点,① 灵敏度和计算功能差②稳定性差③ 具有不唯一性idd dUM o212idd dLM o211要点解释权数 ( Weighted),是分布数列中的频数或频率 。对求平均数具有 权衡轻重 的作用,是影响平均数变动的两个因素之一 ( 另一因素是变量值 ) 。权数例(1) (2) (3)X456合计频数 频率 (%)10201025.050.025.040 100.0X456合计频数 频率 (%)20402025.050.025.080 100.0X456合计频数 频率 (%)20101050.025.025.080 100.0x=5x =5 x =4.75调和平均数与算术平均数的区别例频率分布变了,均值也变。因此,严格地说,权数应指 频率 。凡是掌握被平均指标的分母资料时,用算术平均法。凡是掌握被平均指标的分子资料时,用调和平均法。平均指标分子:标志总量分母:总体单位总数=几何平均等于对数的算术平均 例组矩数列求中位数是用插值法对中位数组分割的结果。 例组距数列求众数是以频数之差计算的比例分割众数组组距的结果。 例价格(元)3.32.52.0合计销售量(斤)3451254350.245.233.3iiiffxx元49 2.212 9.29算术平均求某种商品三种零售价格的平均价格调和平均100.21105.21103.311010101iiiHmxmx49 4.203.12 30价格(元)3.32.52.0合计销售额(元)10101030返回例 求 95%,93%,90%的几何平均数%64.927 9 5 1 5.0%90%93%95 33Gx① 455.12.83190.0lo g93.0lo g95.0lo g31lo gGx②%71.92?Gx (计算误差,0.0007)返回例 (书上例 11的资料)返回分组,&500 &800 & &频数,40 90 110 105 70 50 35d1=20 d2=5 众数组 800~1100① 求比例,d1/( d1+d2) =20/( 20+5) =0.8② 分割众数组的组距,0.8× ( ) =240(元)下限公式③ 加下限,即 M0=800+240=1040(元)下页返回500 800 00 200050100150f(人数)月收入:元1040上页d1 d2例 (书上例 11的资料)返回① 求比例,250-240/( 345-240) =0.095② 分割中位数组的组距,) × 0.095=28.5下限公式③ 加下限,即 Me==1128.5(元)下页标志值由小到大分组,&500 &800 & &&频数,40 90 110 105 70 50 35累计频数,40 130 240 345 415 465 500中位数位置,500/2=250返回500 800 00 2000∑f/2=250月收入:元1128.5累计人数( ∑f) =50040 130240345415465500上页位置平均数与算术平均数的关系XfXfXfMoMex(对称分布 )MoMex正偏态分布(右)MoMex负偏态分布 (左)在偏斜不大时 )(2 MexMoMexMeMo 2332 xMoMe23 MoMex12 1 2x xMe MeMo MoxMeMo应用平均指标的原则1.必须是同质的量方可平均;2.总平均数与组平均数结合分析;3.根据具体条件选择平均方法;4.平均数与典型值和分配数列结合分析;5.集中趋势与离散趋势结合分析某厂职工人数统计表按人数分组5~ 1011~ 16合 计人数(人)(频数)比率(%)(频率)512325.051.04.0返回17~2220 100某厂职工人数统计表按人数分组5~ 1011~ 19合 计人数(人)(频数)比率(%)(频率)512325.051.04.0返回20~2220 100上海市总人口数( 1980~ 1991)年 份1980年末总人口1146.52返回年 份 年末总人口198119821983198419851986198719881989199119901162.841180.511194.011204.781216.691232.331249.511262.421276.451283.351287.200102030405060708090μú òè μú?tè μú èyè μúè0102030405060708090100μúò?èμútèμúèyèμúè 2?μú òèμú?tèμú èyèμúè01020304050607080901000 2 4 6 2?返回上海市城市居民消费与投资倾向调查问卷尊敬的先生、女士:我们是上海财经大学的学生。为了积极参与贯彻国家关于扩大内需推动经济增长的方针和理论与实践相结合的教育原则,在老师指导下我们组织了这次千户居民的社会调查。请您给予支持。调查不记名,全部资料用计算机处理,绝对保密和安全,您只需在符合您的情况的***上打个勾,化费几分钟时间。谢谢!返回 下页( 1)您家是否已经拥有下列耐用家电设备1、□彩电,2、□组合音箱,3、□ VCD(或 DVD),4、□冰箱,5、□空调,6、□电脑( 2)您家的住房是:1、□租赁公房,2、□有产权公房,3、□新商品房,4、□其他(请注明)( 3)您家今明两年是否准备以下项目支出,1、□购买家电设备 5、□现有住房装修2、□购买成套家俱 6、□支付子女教育费3、□购买汽车 7、□国内或国际旅游4、□购买(或置换)房屋返回 下页上页( 4)您今明两年不准备上列大项目支出的主要原因是:(选填 3项)1、□没有必要 5、□售后服务差2、□经济不宽裕 6、□价格不合理3、□品牌不中意 7、□其他(请注明)4、□质量信不过( 5)您购买商品考虑的主要因素是,1、□实用价值 4、□品牌2、□商品质量 5、□售后服务3、□价格(请按您认为的重要性□在中写上位序)返回 下页上页( 6) 您家平均每月总收入是:1,□ 500元以下 5,□ 元2,□ 500~1000元 6,□ 元3,□ 元 7,□ 元4,□ 元 8,□ 8000元以上( 7) 您家平均每月日常生活费开支是 元A,其中用于吃 ( 食品 ) 支出大约是 元( 8) 您认为您家近几年生活水平是1,□ 2,□ 3,□ 4,□ 5,□提高很多 略有提高 没有变化 略有下降 下降很多返回 下页上页( 9) 您收入节余用予以下哪些项? 各项约占多大比重?1.银行储蓄 ( ) % 4.其他债券 ( ) %2.国债 (国库卷 ) ( ) % 5.股票 ( ) %3.基金 ( ) % 6.保险 ( ) %7.其他 ( ) %( 10)您存钱的主要目的是,1,□ 购买设备 4,□ 子女教育2,□ 购买住房 5,□ 养老防病3,□ 结婚 6,□ 旅游( 请按你认为的重要性在 □ 中写位序 )返回 下页上页( 11)您是否了解现在推行的信贷消费1、□不了解,2、□了解一点,3、□了解,4、□很了解( 12)您是否打算参加信贷消费,1、□是,2、□不 (跳过第 13问题)( 13)您信贷消费的项目是 ( )(请按第 3题的编号填写)返回 下页上页( 14) 您是否同意下列看法,很同无不很同意所同不意 谓意同意1、信贷消费不合中国国情2、信贷消费是资本主义国家的做法3、信贷消费是先甜后苦4、借债享受有风险5、借债消费不光彩6、信贷消费是现代通行的做法7、只要量力借贷,有利无害8、发展信贷消费能促进经济增长返回 下页上页( 15) 最后,了解一下您的基本情况A,您的性别,1,□ 男,2,□ 女B,您的年龄,周岁C,您的文化程度,1,□ 不识字或识字不多,2,□ 小学 3,□ 初中 4,□ 高中或中专,5,□ 大专或大学以上D,您家庭人口数 人其中 D( 1) 在业 人; D( 2) 离退休 人;D( 3) 失业,下岗 人;D( 4) 在校学生 人E,您的职业 ( 见卡片 )F,职务返回 上页010203040μúò?èμútèμúèyèμúè÷2?μú òèμú?tèμú èyèμúè五、标志变异指标( Dispession)概念标志变异指标是反映变量分布 离散趋势,与平均指标 相匹配 的指标 。( 1)反映变量分布的离散趋势;( 3)是对事物发展均衡性的量度。( 2)是对平均数的代表性程度的量度;作用概 念 计 算 特 点数列中最大值与最小值之差1.极差( R)R=最大值 -最小值 优点:容易理解,计算方便缺点:不能反映全部数据分布状况2.平均差( A,D)各标志值与均值离差绝对值的算术平均iiffiXXDAnXXDA i简单:加权:优点:反映全部数据分布状况缺点:取绝对值,数字上 不尽合理概 念 计 算 特 点各标志值与均值离差平方的平均 。方差的平方根( 取正根 )3,方差( σ2 )和标准差(σ)优点:反映全部数据分布状况,数字上合理 。缺点:受计量单位和平均水平影响,不便于比较4.标准差系 数( Vσ)标准差与均值之商,是无量纲的系数简单:加权:优点:适宜不同数据集的比较缺点:对数据结构变化反应不灵敏ffXX 22nXX i 22XV2方差( σ2)和标准差( σ)是应用最广的标志变异指标σ2和 σ的简易计算公式22222 ;,?nXnXnXnX iiii简单2222 ;:iiiiiiiiiiiziffXffXffXffX加权由组方差(或组标准差)求总方差(或总标准差)NdSNKjjjj?1222?总方差2121)(11 XXNNSNN jKjjjKjj平均组内方差 组间方差标准差的应用测定分布的偏度)(3,eo MXSKMXSK 或1.偏度系数Mox?SK=0Mox?SK&0Mox?SK&0Mo MoMox x x(对称分布 ) 正偏态分布(右) 负偏态分布 (左)2.偏度系数 (m3——三阶中心矩 )定义 M=∑(X-A)k/n为变量 X关于 A的 k阶矩 。 当 A=0,即以原点为中心,上式称为“,K阶原点矩”。K=1,2,3时,有,一阶原点矩 M1=∑(X-0)1/n=∑X/n二阶原点矩 M2=∑(X-0)2/n=∑X2/n三阶原点矩 M3=∑(X-0)3/n=∑X3/n当 A=,即以 为中心,上式称为,K阶中心矩”。x x33m?K=1,2,3时,有,一阶中心矩二阶中心矩三阶中心矩0/)( 11 nXXmnXXm /)( 22nXXm /)( 33所以,m3可以测定偏度。为消除量纲,转变为系数,再除以 σ3。33m?偏度系数&0负偏态=0对称分布&0正偏态33m?计算标准分即将原始分数 X经过线性变换转变为标准分 Z。 反映各原始分的平均数为中心的相对位置 。)( ZXXXXZ iiXOx任何原始分在总体中的位置,用 Z倍的 σ来测定。计算抽样误差(以平均指标为例)设,样本平均数?ix样本平均数的平均数?x总体平均数?X)( Xx i实际抽样误差)()()(2为样本数简称抽样误差抽样平均误差 nn Xx ix)()(2加权形式或 f fXx ix抽样误差就是样本平均数分布数列的标准差。,Xxffxx ix2)(第五章 参数估计和假设检验推断统计,利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体参数统计量推断估计参数估计检验假设检验抽样分布抽样分布简单随机抽样和简单随机样本的性质不放回放 回放回不放 回独立性和同一性同一性当 n/N≤5%时,有限总体不放回抽样等同于放回抽样统计量与抽样分布统计量:即 样本指标 。样本均值样本成数样本方差如:nXX innP i22 )(11 XXnS i抽样分布,某一统计量所有可能的样本的取值形成的分布。性 质 数字特征0≤P( Xi)?1∑P( Xi) =1均值 E( X)方差 E[x-E(x)]2方差的平方根即抽样分布的标准差就是推断的 抽样误差。样本均值的抽样分布(简称均值的分布)抽样均值均值 μ=∑Xi/N nxX i样本均值是样本的函数,故样本均值是一个 统计量,统计量是一个 随机变量,它的概率分布称为样本均值的抽样分布。抽 样 方 法 均 值 方 差 标 准差( 1)从无限总体抽 样和有限总体放回抽样( 2)从有限总体不放回抽样 xxE )( xxE )(nx22)1(22NnNnxnx1?NnNnx即均值推断的抽样误差和,12NnNnn xx抽样误差抽样误差从正态总体中抽样得到的均值的分布也服从 正态分布 。从非正态总体中抽样得到的均值的分布呢?中心极限定理:无论总体为何种分布,只要样本 n足够大( n≥30),均值( )标准化为( z)变量,必定服从标准正态分布,均值( )则服从正态分布,即:xx)]1(,[~)/,(~),1,0(~/22NnNnNXnNXNnX或两个样本均值之差的抽样分布抽样抽样21 Axx 21估计),,( 211 1NX? ),,( 2222NX?),(~)(2221212121 nnNxx则( 1)如:( 2〕 如果两个总体都是非正态总体,只要 n1,n2足够大,根据中心极限定理,可知:),(~)(2221212121 nnNxx)]1()1(,[(~)(2222221111212121?NnNnNnNnNxx)]1()1(,[(~)(2222221111212121?NnNnNnNnNxx样本成数(即比例)的抽样分布(简称成数的分布)抽样成数成数 P=Ni/N所有可能的样本的成数( )所形成的分布,称为样本成数的抽样分布。nnP i /nPPP?,?,? 21?抽 样 方 法 均 值 方 差 标 准差( 1)从无限总体抽 样和有限总体放回抽样( 2)从有限总体不放回抽样PnnEPE i)/()?(PnnEPE i)/()?(nPqP /2)1(2 N nNnPqP?nPqP)1( N nNnPqP?根据中心极限定理,只要样本足够大,的分布就近似正态分布。( np和 nq大于 5时)抽样误差抽样误差P?两个样本成数之差的抽样分布抽样抽样估计当 n1,n2都足够大时,样本成数 都近似服从正态分布,两个样本成数之差 ( ) 也近似服从正态分布 。APP 21P1-P2=?),(~)()1(2221112121 nqPnqPPPNPP)]1()1(,[~)()2(2222211111121212NnNnqPNnNnqPPPNPP21?,? PP21 PP?一个样本方差的抽样分布抽样若,从一个正态总体中抽样所得到的样本方差的分布),(~ 2NX n,S2 则 )1(~/)1( 222 nSn当 分布趋近于正态分布2,30n)1(~ 2?nxX若 )1(22 2 nZ?则两个样本方差之比的抽样分布抽样从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。),(~ 2111NX n1,S12 则抽样),(~ 2222NX n2,S22)1)(1(~// 2122222121 nnFSSF参数估计点估计 以样本指标直接估计总体参数。评价准则的数学期望等于总体参数,即E该估计量称为无偏估计。无偏性 有效性当 为 的无偏估计时,方差 越小,无偏估计越有效。2)?(E一致性对于无限总体,如果对任意 0>?0)|?(| nn PL im则称的一致估计。是充分性一个估计量如能完全地包含未知参数信息,即为充分量估计量区间估计 估计未知参数所在的可能的区间。评价准则随机区间置信度 精确度随机区间 1)( ULP <<)?,?( UL包含(即可靠程度)越大越好。的概率)?,?( UL的平均长度(误差范围)越小越好)?,?( LUE一般形式)?()?( △<<△△或总体参数 估计值 误差范围△,一定倍数的抽样误差nZx2△例如:抽样误差 n/? 一定时,2?Z 越大,x△概率(可靠性)大; 随之增大,精确度就差。抽样组织方式和参数的区间估计待估计参数 已知条件 置信区间 △正态总体,σ2已知正态总体,σ2未知非正态总体,n≥30有限总体,n≥30(不放回抽样)总体均值( μ)nZX /2nZX /2nStX n /)1(2?12?NnNnZXσ未知时,用 Sσ未知时,用 S222121221 )( nnZXX)( 21 XX?21)2(21121 nnSt pnn222121221 )( nnZXX两个正态总体 2221, 已知两个正态总体 2221,未知但相等两个非正态总体,n1,n2≥30两个总体均值之差μ1-μ2待估计参数 已知条件 置信区间 △无限总体,np和 nq都大于 5总体成数( p)无限总体,N1P1> 5,n1q1> 5N2P2> 5,n2q2> 5两个总体成数之差( P1-P2)有限总体,np和 nq都大于 5nqPZP212?NnNnqpZP222111221)(nqPnqPZPP有限总体,N1P1> 5,n1q1> 5N2P2> 5,n2q2> 5 11)(222222111111221?NnNnqPNnNnqPZPP待估计参数 已知条件 置信区间 △正态总体总体方差两个正态总体两个总体方差之比)( 22212222 )1(,)1(SnSn2221 /21222122221 /,/ FSSFSS待估计参数 已知条件 置信区间 △有限总体不放回抽样( n等比例分配于各层)各层 nh≥30总体均值( μ)有限总体不放回抽样( n等比例分配于各层)各层 nh≥30总体成数(P)21222,)1()(),(hhLhststSNNSNnNnSXSXSZXhhhLhststqpNNNnNnPSPSZP)1(1)()(122总体N1N2NLN1? 21?2? 22?L? 2L?2?1n2nLn21S22S2LS1X2XLXLhhNN1LhhhNN1样本n2,SX stLhhnn1Lhhhst XnnX1)( stXE均值:212hLhhNN212hLhh SnnS平均层内方差:)1()( 2 NnnSxS st)1(22 NnnSZXst置信区间抽样误差估计待估计参数 已知条件 置信区间 △有限总体不放回抽样,样本群数r足够大总体均值( μ)有限总体不放回抽样,样本群数r足够大总体成数(P)1)(1122rXXSRrRrSZXrribb--rRrRrPPPSPSZPi)-( 11)()()(22总体群数 RAB CDEFG H IJKLM NOPLHPD样本群数 r?b2?xbS2RiiR11riiXrX11)(XERiib R122 )(1riib XXrS122 )(11估计均值:群间方差:置信区间抽样误差)1()( 2 RrrSXS b)1(22 RrrSZX样本数的确定待估计参数 已知条件 样本数的确定?正态总体,σ2已知总体均值( μ)例:误差范围简单随机抽样2222 xZn △有限总体,不放回抽样,σ2已知 2222222ZNNZnx△2?22 pPqZn △PqZNP q NZnp22222△总体成数( P)服从正态分布有限总体,不放回抽样P?xx2 pp?2待估计参数 已知条件 样本数的确定?总体均值( μ)分层抽样总体均值( μ)整群抽样有限总体不放回抽样,等比例分配样本)()(2222222hhxhhNNZNNNNZn△22222222222)(11)(1xxrsXXRZRRZribibhxh△有限总体不放回抽样,服从正态分布Xxx2 1 N nNnxNNNN hhhhh? 2222h? 未知用 2hs未知用2b? 2bs案例假设检验基本思想 检验规则 检验步骤 常见的假设检验基本思想小概率原理,如果对总体的某种假设是 真实 的,那么不利于或不能支持这一假设的事件 A(小概率事件)在一次试验中几乎不可能发生的;要是 在一次试验 中 A竟然发生了,就有理由怀疑该假设的真实性,拒绝 这一假设。总 体(某种假设) 抽样样 本(观察结果)检验(接受) (拒绝)小概率事件未 发 生小概率事件发 生假设的形式:H0——原假设,H1——备择假设双尾检验,H0,μ=μ0,H1,μ≠μ0单尾检验,H0,μ≥μ0,H1,μ< μ0H0,μ≤μ0,H1,μ> μ0假设检验就是根据样本观察结果对原假设( H0)进行检验,接受 H0,就否定 H1;拒绝 H0,就接受 H1。检验规则确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝 H0;反之,差异不显著,接受 H0差 异 临界点 || 0?X<|| 0X拒绝 H0接受 H0cc判 断两类错误接受或拒绝 H0,都可能犯错误I类错误 ——弃真错误,发生的概率为 αII类错误 ——取伪错误,发生的概率为 β检验决策 H0为真 H0非真拒绝 H0 犯 I类错误( α) 正确接受 H0 正确 犯 II类错误( β)怎样确定 c?α大 β就小,α小 β就大基本原则:力求在控制 α前提下减少 βα——显著性水平,取值,0.1,0.05,0.001,等。如果犯 I类错误损失更大,为减少损失,α值取小;如果犯 II类错误损失更,α值取大。确定 α,就确定了临界点 c。① 设有总体,X~N( μ,σ2),σ2已知。② 随机抽样:样本均值 ),(~ 2 nNX③ X 标准化,)1,0(~ NnXZ④ 确定 α值,⑤ 查概率表,知临界值 ||2Z⑥ 计算 Z值,作出判断2Z?2Z0接受区 拒绝区拒绝区当检验判断为接受原假设 H0时,就有可能犯取伪的错误即 II类错误。犯 II类错误的概率计算:(1)先求出拒绝 H0的临界值;(2)再求得在统计量真实的抽样分布下达到临界值的概率 β。统计中,称不犯取伪错误的概率 1-β为统计检验的能力或效力。II类错误的概率 β的计算检验步骤建立总体假设H0,H1抽样得到样本观察值12选择统计量确定 H0为真时的抽样分布3根据具体决策要求确定 α确定分布上的临界点 C和检验规则计算检验统计量的数值比较并作出检验判断7456几种常见的假设检验条件 检验条件量 拒绝域H0,H1(1) H0,μ=μ0H1,μ≠μ0 22z(2) H0,μ≤μ0H1,μ> μ0(3) H0,μ≥μ0H1,μ< μzZ0zZ - 0nxZ0正态总体 σ2已知条件 检验条件量 拒绝域H0,H1(1) H0,μ=μ0H1,μ≠μ0 22t(2) H0,μ≤μ0H1,μ> μ0(3) H0,μ≥μ0H1,μ< μtt0tt - 0nsxt 02t?2t0正态总体 σ2未知 (n<30)条件 检验条件量 拒绝域H0,H1(1) H0,μ=μ0H1,μ≠μ0 22z(2) H0,μ≤μ0H1,μ> μ0(3) H0,μ≥μ0H1,μ< μzZ0zZ - 02Z?2Z0nxZ0nSxZ 0非正态总体n≥30σ2已知或未知条件 检验条件量 拒绝域H0,H1(1) H0,μ1=μ2H1,μ1 ≠ μ222z(2) H0,μ1 ≤ μ2H1,μ1 > μ2(3) H0,μ1 ≥ μ2H1,μ1 < μ2zZ0zZ - 02Z?2Z022212121nnxxZ两个正态总体21? 22,?已知条件 检验条件量 拒绝域H0,H1(1) H0,μ1 = μ2H1,μ1 ≠ μ222t(2) H0,μ1≤ μ2H1,μ1> μ2(3) H0,μ1≥ μ2H1,μ1< μ2tt0tt - 02t?2t0两个正态总体21? 22,?未知,但相等212111nnSxxtp?2)1()1(21222211nnSnSnSp条件 检验条件量 拒绝域H0,H1(1) H0,μ1 = μ2H1,μ1 ≠ μ222(2) H0,μ1 ≤ μ2H1,μ1 > μ2(3) H0,μ1 ≥ μ2H1,μ1 < μ2Z0zZ - 02Z?2Z0两个非正态体n1≥30n2≥3021? 22,?已知或未知22212121nnxxZ22212121nSnSxxZzz条件 检验条件量 拒绝域H0,H1总体服从正态分布 222 )1(Sn2020,H2021,H2?2)1(22)1(2 nn2020,H2021,H2020,H2021,H2?2?2 )1(?n2 )1(1 n条件 检验条件量 拒绝域H0,H1总体服从正态分布22210,H22211,H22210,H22211,H22210,H22211,H22222221//SSF?)1,1(2)1,1(21 2121/1 nnnn FF)1,1( 21 nnF?)1,1(1 21/1 nnF?FFF条件 检验条件量 拒绝域H0,H1(1) H0,P=P0H1,P≠P022z(2) H0,P≤P0H1,P> P0(3) H0,P≥P0H1,P< P0zZ0zZ - 02Z?2Z0np≥5nq≥5nqpppZ000条件 检验条件量 拒绝域H0,H1(1) H0,P1=P2H1,P1 ≠P222z(2) H0,P1 ≤P2H1,P1 > P2(3) H0,P1 ≥P2H1,P1 < P2zZ0zZ - 02Z?2Z0n1p1≥5n1q1≥5n2p2≥5n2q2≥52122112121nnpnpnpnqpnqpppZ案例相关分析回归分析第六章 相关与回归相关和回归分析 是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。主要内容相关分析概念 种类 线性相关变量之间关系函数关系相关关系 因果关系互为因果关系共变关系确定性依存关系随机性依存关系种类一元相关多元相关负 相 关正 相 关 线性相关曲线相关xy正 相 关 xy负 相 关 xy曲线相关 xy不 相 关线性相关相关系数测定两变量是否线性相关?yxxyryxnyyxxr ))((定义式:未分组:已分组:2222 )()( yynxxnyxxynr])([])([))((2222yyxxyxxyfyfynfxfxnfyfxfyxnr值:|r|=0 不存在线性关系; |r|= 1 完全线性相关0&|r|&1不同程度线性相关 (0~0.3 微弱; 0.3~0.5 低度;0.5~0.8 显著; 0.8~1 高度 )符号,r&0 正相关; r&0 负相关计算公式相关系数的检验( t检验)检验统计量212||rnrt0:,0 10 HH =:案例回归分析特点 线性回归 非线性回归回归分析和相关分析的联系和区别1·理论和方法具有一致性;2·无相关就无回归,相关程度越高,回归越好;3·相关系数和回归系数方向一致,可以互相推算。1·相关分析中,x与 y对等,回归分析中,x与 y要确定自变量和因变量;2·相关分析中 x,y均为随机变量,回归分析中,只有 y为随机变量;3·相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。线性回归 一元线性回归模型1·一元线性回归模型的一般形式总体一元线性回归模型的一般形式Y的数学期望 E( Y) 随机误差,xYE +)=( 也称一元线性回归方程,是对应于自变量 X某一取值时因变量 Y的均值。,未知参数样本的一元线性回归模型和回归方程一元线性回归模型, ++= xY, bxaY =一元线性回归方程 bxay截距 斜率(回归系数)回归系数 b表明自变量 x每变化一个单位因变量 y的增(减)量。b与 r的关系,r> 0 r< 0 r=0b> 0 b< 0 b=0 xyyx rbbr ;是理论模型,表明 x与 y两变量之间的平均变动关系。bxay(实际值):jjij ybxay)(X对 y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。随机干扰:各种偶然因素,观察误差和其他被忽视因素的影响。 的理论假定?2值相互独立服从正态分布的数学期望 E( )= 0的方差 都相同,且22 =xy2·一元线性回归模型的确定根据实际数据,用最小平方法,即使,分别对 a,b求编导并令其为零,求得两个标准方程:m in)?( 2 yy j2xbxaxyxbnay解联立方程,得到22)( xxnyxxynbnxbnya3·一元线性回归模型拟合优度的评价判定系数( r2) 是对回归模型拟合优度的评价。xyy)( 0 yy?bxay)?( 0 yy?)?( yy?222 )?()?()( yyyyyy总偏差 = 回归偏差 + 剩余偏差222222)()?(1)()?(yyyyryyyyr或10222<< rynyynxybyar2表示全部偏差中有百分之几的偏差可由 x与 y的回归关系来解释。2rr? r 的符号同 b估计标准误( Sxy)Sxy是二元正态分布中因变量实际值( yj)对估计值()离散程度的量度。iy22)?(22nxybyayS x ynyyS x y自由度剩余编差Sxy 越小,拟合越好;Sxy 越大,拟合越差。Sxy也是用自变量对因变量进行区间估计的抽样误差。yy68.27% 94,45% 99.73%4·一元线性回归模型的显著性检验回归系数 b的检验 设总体回归系数为 βH0,β=0; H1,β≠0n≥30时检验统计量bbZ ( β=0)σb是样本回归系数抽样分布的标准差。通常是未知的,用其估计量 代替。b?32222 2/)()(xnxnxybyayxxxySb)(?给定显著性水平 α,查 Z表可知其临界值 。n< 30时bbt ( β=0)给定显著性水平 α,查 t表可知其临界值 。2?Z)2(2?nt?002Z2Z-)2(2?nt?)2(2?nt?-Zt回归模型整体的 F检验H0,R2=0; H1,R2≠0检验统计量)(自由度剩余偏差自由度回归偏差2/)?(1/)?(//22nyyyyF221)2(rnrFF),( mnF?检验假设0:000212010RHRHHH,=:或:,=,案例5·应用一元回归模型进行区间估计n≥30时给定 x0,y0的置信度( 1-α)的置信区间为:S x yZbxa20 )(S x yZyy20n< 30时220)2(20220)2(20)()(11)()()(11xxxxnS x ytbxaxxxxnS x ytyynnxybxayX0 x0给定的 x0越接,y值估计的精确度越高。x平均值估计220)2(20220)2(20)()(1)()()(1xxxxnSx ytbxaxxxxnSx ytyynnn< 30时特定值估计线性回归 多元线性回归模型1·多元线性回归模型的性质 与模型的确定 nn xxxy?22110?二元线性回归模型:总体多元线性回归模型的一般形式 22110? xxyY的数学期望 E( Y) 随机误差,22110 xxYE ++)=( 表明自变量,21 xx、共同变动引起的 Y 的平均变动。也称总体的二元线性回归方差。0?1?1x 2x常数项,和 Y构成的平面与 Y轴的截距偏回归系数,表示在 固定时 每变化一个单位引起的Y的平均变动;1x2x案例2?偏回归系数,表示在 固定时 每变化一个单位引起的 Y的平均变动; 2x1x随机误差,其理论假定与一元线性回归模型中的 一样。在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关也即不得存在多重共线性。样本多元线性回归模型的一般形式 nn xbxbxbay 2211二元线性回归模型为,2211 xbxbay其数学期望2211 xbxbayE)(也称样本(或估计的)二元线性回归方程。二元线性回归方程的确定根据实际资料,用最小平方法,即使,分别对 a,b1,b2求编导并令其为零,求得三个标准方程:最小 2)?( yy j)?( 2211 xbxbay2222112221221112211xbxxbxayxxxbxbxayxxbxbnayjjj解此联立方程便可得到 a,b1,b2。2·多元线性回归模型的判定系数和估计标准误判定系数222)()?(yyyyrj总偏差回归偏差2222211)()(ynyynyxbyxbyajjjj 0< r2< 1修正的判定余数:11)1(1 22pnnrr估计标准误( Sy( x1,x2) )3)?( 2),( 21?nyyS jxxy 32211nyxbyxbyay jjjjr2和 Sy( x1,x2) 都是对回归模型拟合优度的评价指标。Sy( x1,x2) 也是用自变量对因变量进行区间估计的抽样误差。3·多元回归模型的显著性检验对偏回归系数的 t检验H0,β1=0,H1,β1≠0; H0,β2=0,H1,β2≠0。检验统计量:2211? ||||,? ||||bbbtbt22211222211222),(1 )])(([)()()(?21 xxxxxxxxxxSxxyb22211222211222),(22 )])(([)()()(?21 xxxxxxxxxxSxxyb按显著性水平 α和自由度 ( n-3)查 t表可得到临界值 )3(2nt?t0 )3(2nt?)3(2 nt?模型整体的 F检验检验统计量:)1/()(/)?()1/(/22 knyykyyknkFj剩余偏差回归偏差 ( k—自变量个数))3/()(2/)?(22nyyyyFj )1(2)3()3/()1(2/2222rnrnrrF或按给定的 α和自由度( 2)和( n-3)查 F表可得到临界值 Fα)( mnF,?)( 3,2?nF?4·多元回归中的相关分析复相关:指一个因变量同多个自变量的相关关系。复相关系数恒取正值。22212 )()?(yyyyrrjny偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。计算偏相关系数需借助相关系数矩阵表的资料。二元回归中的相关系数矩阵表yyx1x1x2x2ry1ry2 r121.001.001.00x1与 y的偏相关系数:212221221)2(1)(1)(1 rrrrrryyyyx2与 y的偏相关系数:212211212)1(2)(1)(1 rrrrrryyyy案例5·应用多元回归方程进行区间估计Y的平均值的区间估计Y的特点值的区间估计式中,是即区间估计的抽样误差。021320^0 CXXStYYE yn ),()=( )(021 CXXS y ),(^Y 的抽样分布的标准差,021320^0 1 CXXStYY yn ),(= )(?式中,021 1 CXXS y?),(是 ^Y 的抽样分布的标准差,即区间估计的抽样误差。非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如:双曲线:xbaya> 0 b> 0a> 0 b&0xxy y指数曲线,y=aebx b> 0b&0xxy y幂函数曲线,y=axba> 0 b> 0xyb&1b=1b&1曲线模型的判别方法,理论和经验判断;观察散点图曲线模型的确定方法:通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。例如:双曲线模型xbay 1'?,1' bxayxx 则有令指数曲线模型bxaeyxexbxayLnaaLnyy'''''',,则有令第八章 时间数列时间数列(动态数列) 是 指标数值 按 时间顺序 排列而形成的数列。例,上海市人均国内生产总值年份 人均 GDP(元 /人)91 92 93 94 95 96 97年100001500020000250005000实例时间数列的作用反映社会经济现象发展变化的过程和特点;研究现象发展变化的规律和未来趋势;不同地区、国家发展状况的比较评价和预。本章主要内容时间数列的种类和编制方法常用的动态指标时间数列的***和测定时间数列的预测方法时间数列的种类和编制方法一、时间数列的种类1.按指标形式分绝对数数列相对数数列平均数数列时期数列时点数列2.按观察数据性质与形态分随机性数列非随机性数列平稳型趋势型季节型二、时间数列变量和形态的识别识别与判断方法:理论判断、经验判断、图形判断,自相关系数数列判断,差分法判断等。1、自相关系数自相关指时间数列前后各期数值之间的相关关系。对自相关强度的测定便是自相关系数。时间延迟为 1的自相关系数,2111121111111)()())((ttntttntttttntxxxxxxxxr时间延迟为 2的自相关系数,2222122122212)()())((ttntttntttttntxxxxxxxxr时间延迟为 k的自相关系数:21211)()())((ktktkntttkntktktttkntkxxxxxxxxr211)())((xxxxxxrtkntkttkntk:,,21 上式可简化等都近似 xxxx ttt当 n很大时( -1≤rk≤1)2.判别准则( 1)时间数列所有自相关系数 r1,r2……,rk都近似于零时,该时间数列为随机性时间数列。r1 r2 r3 r4 r5 r6 r701-1 rr值 原数列yt0( 2) r1较大,r2,r3渐次减小,r4开始趋近于零,表明该时间数列为平稳型时间数列 。r1 r2 r3 r4 r5 r6 r701-1 rr值 原数列yt0( 3) r1最大,r2,r3等逐渐递减,但不等于零,表明该时间数列为趋势型时间数列。r1 r2 r3 r4 r5 r6 r701-1 rr值 原数列yt0( 4) r值有周期性变化,每隔几个便有一个高峰,表明该时间数列为季节型时间数列 。r1 r2 r3 r4 r5 r6 r701-1 rr值 原数列yt01季度 2季度 3季度 4季度三、回归模型的自相关检验用时间数列建立的回归模型能否成立,必须通过误差项的自相关显著性检验才能作出判断。0:;0,10 HH1·构造置信度为( 1- )的自相关系数的置信区间nZ102如果延滞为 1,2,···,K的自相关系数大部分都落在置信区间内,便可接受原假设,认为误差项为独立的随机变量。四、编制时间数列的方法原则1.注意时间单位(年、季、月等)的选择;2.注意数列前后指标的可比性(总体范围、指标涵义、计算方法、计量单位、经济内容等)。2·杜宾-沃森检验( Duibin- Watson Test)检验统计量nitnitteeed12221 )(根据样本容量 n和自回归阶数K,查 D·W统计量临界值表。检验规则图示,正自相关不能确定负自相关不能确定无自相关dL dU 4-dL4-du2若 d值落在,不能确定”范围时,应增加样本容量或重新抽样检验。常用的动态指标水平动态指标1·序时平均数 naai /(平均发展水平指标)计算公式适用于时期总量指标和按日连续登记的时点指标数列。说明12121121naaaaann?适用于不连续登记、间隔相等的时点指标数列。( faafaaa )2 11 nnn faa?)( 121 nfff?适用于不连续登记间隔不相等的时点指标数列。分子 和分母 按各自数列的指标形式参照上述求序时平均数。bac /?常用的动态指标水平动态指标2·增长量计算公式逐期增长量。说明水平法适用于多期增长量平稳变化的数列总和法适用于各期增长变化较大的数列 。1 tt aa△0aa n△ 累计增长量3·平均增长量naa n /)( 0△)1()(2 0nnaa t△常用的动态指标速度动态指标1·发展速度计算公式环比发展速度。说明水平法-各环比发展速度的几何平均数。定基发展速度2·平均发展速度11201,,,nnaaaaaa?00201,,,aaaaaa n?11201nnnaaaaaax0aann032aaxxxx in方程法可查,平均发展速度查对表,。3·(平均)增长速度=(平均)发展速度- 100%时间数列的***和测定一、时间数列的构成与***1.社会经济指标的时间数列包含以下四种变动因素:( 1)长期趋势( T)( 2)季节变动( S)( 3)循环变动( C)( 4)随机变动( I)可解释的变动——不规则的不可解释的变动2.时间数列的经典模式:( 1)加法模型,Y=T+S+C+I计量单位相同的总量指标是对长期趋势所产生的偏差,( +)或( -)( 2)乘法模型,Y=T·S·C·I计量单位相同的总量指标是对原数列指标增加或减少的百分比3.变动因素的***:( 1)加法模型用减法。例,T=Y-( S+C+I)( 2)乘法模型用除法。例,T=Y/( S·C·I)二、长期趋势( T)的测定(一)修匀法:1、随手法2、时距扩大法和序时平均法3、移动平均法例奇数偶数 例移动项数新数列项数=原数列项数-移动项数+ 1(二)长期趋势的数字模型(以时间 t为自变量构造回归模型)btay2? ctbtaytabytabkyt- 时期数按序随意编制 例)(? tfy?步骤:选择趋势模型求解模型参数对模型进行检验 用自相关系数检验 误差项的随机性。图形判断、差分法判断,经验判断、自相关系数数列判断等。例 差分法,时间数列相继数值的差异。如:一级差分 (逐期增长量 )的结果大致相同。则配模型 btay如:二级差分的结果大致相同。则配模型 2? ctbtay如:相继两期水平 (环比发展速度 )的比值相同。则配模型 taby最小平方法,求参数。 ttt yy?,计算估计标准误 mn yyS tty 2)?(求置信区间m为模型中的参数0)(2/cstyyymnttytt szyy 2/小样本大样本返回原数列 新数列y1y4y2y3y5y61a2a3a4a原数列 新数列y1y4y2y3y5y61a2a3a1b2b时间 时期数 数列t1t2t3t4t5t6t71234567y1y2y3y4y5y6y7时间 时期数 数列t1t2t3t4t5t6t7-3-2-10123y1y2y3y4y5y6y7时间 时期数 数列t1t2t3t4t5t6-5-3-1135y1y2y3y4y5y6三、季节变动的测定( S)(一)按月(或按季)平均法(二)长期趋势剔除法1.趋势模型增量剔除法。2.移动平均趋势剔除法。例例四、循环变动的测定方法:残余法。从数列中消除( T)Y/T=S·C·I从余值中消除( S)S·C·I/S=C·I从余值中消除( I)即移动平均,得到 C五、不规则变动的测定:从 CI中消除( C)CI/C=I时间数列的预测方法一、趋势外推法运用长期趋势模型,给定时间变量,外推指标值。选择趋势模型例:2210? tbtbby t求解模型参数bo,b1,b2对模型进行检验用自相关系数检验误差项的随机性。计算估计标准误mnyyS tty? 2)?(求置信区间2/?20 nnSty y?对模型的有效性检验。上页 下页返回1y实际值:估计值:误差项:1?2y 3y my^1y^2y^3y^my.,,.,,2? 3? m?.,,判断^ttt yy是否属于随机误差?如果自相关系数1r 2r 3r nr.,,都接近于零。则t?是随机误差,该模型有效。检验方法:1·对 1r 2r 3r nr.,,分别进行检验,检验量:212||rnrt2·如果是大样本,则可构造置信度为?-1 的置信区间nrn k196.1196.11r 2r 3r nr.,,都落在该区间内,可判断t?为随机误差。若选择自回归模型例: 410? tt ybby求解模型参数bo,b1代入前期数值预测后期数值(按第六章 进行回归模型系统分析)要点说明:1·自回归模型的选择二、自回归预测法对显著自相关的时间数列,可建立自回归模型通过前期数值预测后期数值。线性和非线性分为一级、二级,···,n级ntnttttttttybybybbyybybbyybby22110^22110^110^一级线性自回归二级线性自回归n级线性自回归三,移动平均和指数平滑法(一)移动平均法对于平稳型时间数列可取最近 n期数值的算术平均作为后期的预测值。简单形式:nyyyyynyyyyntttttntttt121121 122110^ ttt ybybby 二次曲线自回归模型对自回归模型有效性检验误差项 ^ttt yy的随机性检验作出判断。D·W检验统计量nitnitteeed12221 )(加权形式:( f1> f2> f3… > fn)(二)指数平滑法(由移动平均法演变而来)nyyyyynyyyyntttttntttt121121nynyyyynynyyyyyyntntnttttntntntttt)()(121121)1(?)1(/代入以nyynyynytttttnfyfyfyfyyffyfyfyynntttttinntttt132211122111ty 是本期实际值与本期预测值的加权算术平均数或)?( 1 ttttttt yyyyyyy也可以是本期预测值经过误差修正后的数值。1ty( 0< α< 1)季度年份第一年第二年第三年三年合计同季平均数季节指数%全 年12个季度合计12个季度平均100%一 二 四三返回季度( 2)趋势增量( 1)同季平均数( 4)季节指数%平 均12个季度平均100%一 二 四三返回( 3) =( 1)-( 2) 总平均(无趋势)概 念总指数的编制指数的因素分析指数的应用案 例第九章 指数指数 ( Index Number)是研究现象 差异或变动 的重要统计方法。它起源于 18世纪欧洲关于物价波动的研究。至今,已被广泛应用于社会经济生活各方面;一些重要的指数已成为社会经济发展的晴雨表。主要内容概念概念广义指数:狭义指数:反映现象数量差异或变动程度的相对数。例如,动态相对数,比较相对数、计划完成程度相对数。反映不能直接相加的复杂现象综合变动程度的相对数。例如,零售物价指数,消费价格指数、股价指数。反映复杂的社会经济现象总体的综合变动;测定现象总变动中各个因素的影响;对多指标复杂现象综合测评。作用:按对象的范围分按指标的性质分按采用的基期分个体指数组指数总指数种类:数量指标指数质量指标指数定基指数环比指数总指数的编制一、综合指数概念:综合指数是总指数的 基本形式 。它是通过引入一个 同度量因素将不能相加的变量转化为可相加的总量指标,而后对比所得到的 相对数 。综合指数指数化因素 × 同度量因素指数化因素 × 同度量因素总量指标总量指标= =所要研究其变动程度的两个时期的某一经济变量引入一个同一时期的经济量,起到媒介或权数的作用综合指数平均数指数综合指数的编制1、数量指标的综合指数(例:销售量指数)00010001PqPqPqPq销售量指数报告期和基期的销售量,为指数化因素基期价格作为同度量因素基期实际销售额以基期价格计算的报告期销售额该指数说明多种商品 销售量的综合变动程度 。分子、分母之差:0010001 )( PqqPqPq说明由产量变动带来的销售额的增(减)量2、质量指标的综合指数(例:价格指数)10111011qpqpqpqp价格指数报告期和基期的价格,为指数化因素报告期销售量作为同度量因素报告期实际销售额以报告期销售量计算的基期销售额该指数说明多种商品 价格的综合变动程度 。分子、分母之差:说明由价格变动带来的销售额的增(减)量。1011011 )( qPPqPqP3、其他形式的综合指数公式拉氏公式:00010001 ; qPqPPqPq派氏公式:10111011 ; qPqPPqPq马竭尔 —艾奇沃斯公式:2/)(2/)(100101qqPqqP费暄的,理想公式”:10110001qPqPqPqP固定价格的物量指数:nn PqPq01nn qPqP01固定物量的价格指数:编制综合指数的一般方法原则:( 1)同度量因素与指数化因素相乘后必须是有实际经济意义的总量指标;( 2)数量指标指数以质量指标为同度量因素;质量指标指数以数量指标为同度量因素;( 3)同度量因素的固定时期必须以指数的经济意义为依据。二、平均数指数是以总量指标为权数对个体指数进行加权平均的总指数。概念:编制方法1、加权算求平均数指数通常用来计算数量指标指数(如销售量指数)00000000qPqPKqPqPKKqqq销售量个体指数 与销售量个体指数相对应的销售额占总销售额的比重01qq2、加权调和平均数指数通常用来计算质量指标指数(如价格指数)价格个体指数 与价格个体指数相对应的产品销售额占总销售额的比重01 pp111011111111qPPPqPqPqPKKPP0001000001PqPqpqpqqqK q1011111011PqPqpqqqpqKq?1011111011qPqPqPPPqPKP?0001000001qPqPqPqPPPK P销售量指数价格指数比较:用哪种公式好?实际工作中,常采用相对固定的权数。wKwKwwKKPPqq 1;,PqPqww 即 某个经济发展较稳定时期的产值或销售额的结构。性质 资料 计算方法 差额分析综合指数平均数指数狭义指数广义指数全面资料样本资料先综合后对比先对比后综合分子、分母之差为总量差异有经济意义分子、分母之差,不形成实际总量,无经济意义总平均数指数广义指数分组资料三种形式的总平均数对比自成体系分子、分母之差为平均数差异,有意义指数的因素分析一、总量指标指数的因素分析1、方法,这是利用综合指数的指数体系进行的因素分析。构造有实际经济意义的指标体系:分析对象,S=A·B (因素指标)将指标体系转换为指数体系:010101BBAASS分析某一因素变动影响时,将其他因素固定:分析相对变动影响时,也分析绝对差额影响:方法步骤(A1-A0) B0 ; (B1-B0) A1A1 B0 A1B1A0 B0 A1B0______ ; _____2、举例两因素分析产 值 =产 量 × 价 格(资料见书 P347)产值指数 =产量指数 × 价格指数011100010011PqPqPqPqPqPq101001)()()()(qPPPqqPqPqPqPqPqPq指数体系代入资料计算得到,180%=137.14%× 131.25%224=104+120 (万元 )注意,( 1)固定因素时期的选择要满足平衡的要求;( 2)因素的排序要使相邻两变量能分能合。S= A · B · C ;D · C或 S= A · B · CA · E原材料支出总额指数 =产量指数 × 单耗指数 × 原材料单价指数原材料支出总额 =产 量 × 单 耗 × 原材料单价110111011111001011000001000111)()()(mqPPPqmmPmqqPmqPmqPmqPmqPmqPmqPmqPmqPmqPmq代入资料计算得到:108.53%=109.17%× 88.37%× 112.50%00+3420(万元)指数体系多因素分析二、平均数指标指数的因素分析1。特点:总平均数指数是对总平均指标变动程度的测定( 1)属于广义指数;( 2)以组平均数为基础,突出结构因素;( 3)有三种形式。可变构成指数 固定构成指数 结构变动影响指数2、例,某煤矿公司劳动生产率总指数 (资料见书 P.344)( 1)可变构成指数(包含组平均数变动和结构变动双重影响)00011100011101TTqTTqTTqTTqqq公司各矿井报告期和基期劳动生产率报告期和基期各矿井工人数所占比重)/(77.0%18.19928.05577.0000111000111人千吨TTqTTqTTqTTq即双重因素影响的公司平均每个工人的增产量。( 2)固定构成指数(只反映各组平均数变动影响)11011111011101TTqTTqTTqTTqqq各矿井报告期、基期劳动生产率%62.1 7 23 2 3 1.0 5 5 7 7.0110111TTqTTq代入资料计算代入资料计算)/(2 3 4 6.03 2 3 1.05 5 7 7.0110111 人千吨TTqTTq即由于各矿井劳动生产率平均变动带来的公司平均每个工人的增产量。( 3)结构变动影响指数代入资料计算00011000011001TTqTTqTTqTTqqq报告期和基期各矿井工人所占比重%39.1.0000110TTqTTq)/(0 4 3 1.028.03 2 3 1.0000110 人千吨TTqTTq即由于公司工人数结构变动带来的公司平均每个工人的增产量。三个指数的关系:可变构成指数 =固定构成指数 × 结构变动影响指数%39.115%62.172%18.199///000110110111000111TTqTTqTTqTTqTTqTTq)/(.02784.0000110110111000111人千吨TTqTTqTTqTTqTTqTTq劳动生产率变动的差额:三、将综合指数同平均数指数结合进行多因素分析。混合型因素分析例,某煤矿公司产量增长因素分析。(资料见书 P.351)煤产量指数 =劳动生产率指数 × 工人人数指数00101011001101)()( qTTTqqQQTqTqTqTqTqTqQQ代入资料计算得到:207.14%=199.18%× 104%+560(千吨)式中的01 qq即劳动生产率可变构成指数)()(00011011011100011101 TTqTTqTTqTTqTTqTTqqq代入产量指数***式:00101100011011011101 )(TqTqTTTTqTTqTTqTTqQQ001010101011TqTqTqTqTqTq)()()(0010TqTqTqTqTqTqQQ代入资料计算得到:207.14%=176.62%× 115.39%× 104%+(千吨)指数的应用一、居民消费价格指数1、是关系国计民生最重要的一种指数;可用于分析居民实际收入水平的变化,也是国民经济核算和宏观经济分析与决策的重要指标 ;2、采用加权算术平均方法,由代表商品个体指数逐级加权平均为总指数。即由基本分类指数,再中类、大类,最终由各大类指数加权平均为城市(或农村)居民消费价格总指数;3、关键问题:商品分类,代表品选择,价格采集,权数确定等。(一)居民消费价格指数的编制方法指数的应用1、测定通货膨胀率(%) 计算期居民消费价格(二)居民消费价格指数的应用(举例)= _____________________基期居民消费价格指数 × 100- 1002、测定货币购买力和职工实际工资的变动;货币购买力指数 = _____________________1居民消费价格指数职工实际工资指数= 职工平均工资指数 /居民消费价格指数= 职工平均工资指数 × 货币购买力指数3、计算商品需求的价格弹性系数等。指数的应用二、股票价格指数1、道 ·斯股价平均数2、标准 ·普尔股价指数3、香港恒生指数4、上海证交所股份指数5、深圳证交所 股份指数三、工业经济效益综合指数(一)多指标综合评价的概念和方法多指标综合评价法就是将多个指标合成为一个综合数值的方法。三个关键问题:1、构建一个科学合理的评价指标体系;指数的应用2、指标的无量纲处理;3、确定各指标在合成中的权数。(二)工业经济效益综合指数我国现行的工业经济效益综合指标包括:1、总资产贡献率; 2、资本保值增值率; 3、资产负债率;4、流动资金周转率; 5、成本费用利润率;6、工业全员劳动生产率; 7、产品销售率。第七章 非参数统计主要内容非参数统计 (亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。主要特点( 1)不要求总体分布已知或对总体分布作任何限制性假定;( 2)不以估计总体参数为目的;( 3)能用于定性变量(即定名测定和序列测定的变量);( 4)方法直观,易于理解,运算比较简单。( 5)缺点是检验的功效不如参数检验方法。χ2检验成对比较检验曼 —惠特尼 U检验游程检验等级相关检验多个样本的检验χ2检验一、什么是 χ2检验χ2检验是运用 χ2分布作为理论工具,在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验。(一) χ2分布χ2分布是由正态分布推导出来的一种连续型随机变量的概率分布1、数学形式:设随机变量 x1,x2,…,xk相互独立且都服从正态分布 N( μ,σ2)。将它们标准化转变为标准正态变量 Z1,Z2,…,Zk,k个独立标准正态变量的平方和被定义为 χ2分布的随机变量 χ2。21212222212)(1)()()(ikiikikZxxxxχ2~χ2(k),k是自由度,表示定义式独立变量的个数。当 k=1时,222 )( Zx2,χ2分布的性质( 1) χ2分布的值恒为正值( 2) χ2分布的数学期望是自由度 k,方差为 2k;( 3) χ2分布取决于自由度 k,随着自由度增大而趋于对称。一般当 k≥30时,χ2分布可用正态分布近似计算。k=1 k=5k=15k=3?(χ2)χ2 (k)(二) χ2检验的原理在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以 判断实际结果与理论是否一致 。设有 k个观察值,f0为它们的实际频数,fe为理论频数。 构造一个统计量)(/)( 212 为自由度kfffeeoki数理统计证明,在大量试验中,若 f0与 fe相一致时,χ2服从 χ2分布。( f0-fe)比较小时,χ2值也较小;( f0-fe)比较大时,χ2也较大。当 χ2值大到按 χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。(χ2) k=4α=0.05χ2 0.05(4)=9.488例 1 (P.258)χ201、拟合优度检验二、应用这是利用随机样本资料对总体是否服从某种理论分布的检验检验步骤( 1)对总体分布建立假设H0:总体服从某种理论分布H1:总体不服从该理论分布( 2)抽样并对样本资料编成频数分布( f0)( 3)以“原假设 H0为真”导出一组期望频数( fe)( 4)计算检验统计量χ2=∑(f0-fe)2/fe( 5) χ2=∑(f0-fe)2/fe 给定的 α查 χ2表,得到临界值( 6)比较 χ2值与临界值作出检验判断注意事项( 1)各组理论频数 fe不得小于 5,如不足 5,可合并组;( 2)为使组数不致太少,总频数 n> 50;( 3)根据具体情况确定自由度。2、独立性检验二、应用是利用样本资料对总体的两个变量的数据是否彼此关联的检验,如果不关联,即为独立。检验步骤( 1)对总体的两个变量建立假设H0:两变量独立H1:两变量关联( 2)将样本资料编成 r× c列联表,并列出实际频数 Oij( 3)计算理论频数( 4)计算检验统计量( 5) 给定的 α查 χ2表,得到临界值( 6)比较 χ2值与临界值作出检验判断2112 )(ijijijcjri EEOnnnE jiij?要点说明列联表形式( r× c)O11O21O31...Or1O12O22O32...Or2O13O23O33...Or3………...…O1cO2cO3c...OrcO1O2O3...Or123...r行( r)列( c)1 2 3 … cxy 合计n.1 n.2 n.3 … n.c n合计X的边缘频数y的边缘频数理论频数 Eij的计算先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P( A·B) =P( A) ·P ( B)。因此,某一行某一列的联合概率:nnnnjiP ji),( 的概率第nnnnnnnnEn jijiij )(,理论频数总频数为?自由度( df)的确定 df=(r-1)(c-1)例,r·c=3× 4√√ √ √√√○ ○ ○ ○○○CT1 CT2 CT3 CT4RT1RT2RT3n总行数总列数r1r2r3Df=(3-1)(4-1)=6r·c=2× 2的列联表资料,χ2值简算公式xy 1 212a bc da+c b+da+bc+d合计合计n))()()(()( 22dcbadbcabcadnx成对比较检验一、符号检验这是略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。1、检验内容:检验的两组数据是否有显著差异或两总体的位置特征(均值、中位数)是否相同。2、适用条件:关联样本资料;定性变量。3、方法思想:设有关联样本的两组成对的数据 xi与 yi,比较各对的大小。若 xi> yi,记作,+”“若 xi< yi,记作,-”若 xi=yi,删去,并相应减少 n对数据若两组数据没有显著差异,它们之差的“+”、““-”号的个数应大致相等。出现““+”(或““-”)的概率为 0.5。如果一次抽样的随机样本的配对数据中,,+”号出现过多或过少,在一定显著性水平 α条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。可见,配对符号检验是二项检验的一种应用。由于 P=0.5的二项分布呈对称型,所以,只要 n> 25,即可按正态分布近似处理。4、检验步骤 ( 1)抽样。将样本资料配对比较,计算( +)、( -)号个数( 2)建立假设,H0,P=0.5H1:P≠0.05(双侧)H1,P(+)> P(-)或 P(+)< P(-)(单侧 )( 3)计算检验统计量n≤25时;,+”个数 n> 25时:( 4)设定显著性水平α,查表确定临界值或否定域( 5)比较并作出判断nPZ5.05.05.0?例 1:随机抽取 13个单位,放映一部描述吸烟有害健康的影片,并调查得到观看电影前后各单位职工认为吸烟有害的人数的百分比。检验该电影宣传是否有效果( α=0.05)。单位编号 1 2 3 4 5 6 7 8 9 10 11 12 13( 1) 放映前 ( % )( 2 ) 放映后 ( % )( 3) 差异 ( 2 ) - ( 1)6368+4149+5453-7175+3949+4441-6775+5658+4652+3749+6155-6869+5157+解,H0,P=0.5 H1,P≠0.5)5.0,13(,)25.02(05.0 Pn查二项分布表确定拒绝域由P( 13) =0.000 P( 12) =0.002 P( 11) =0.010 P( 10) =0.035P( 13) +P( 12) +P( 11) =0.000+0.002+0.010=0.012< 0.025P( 13) +P( 12) +P( 11) +P( 10) =0.012+0.035=0.047> 0.0250 1 2 3 4 5 6可见,拒绝域(双侧)应为 0,1,2,11,12,13。7 8 9 10 11 12 13拒绝域 拒绝域现检验统计量( +) =10 (即 10个正号),0.035> 0.025所以,原假设 H0,P=0.5在 5%显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著差异。例 2:随机抽取 60名消费者对甲、乙两种品牌的饮料评 分,甲、乙得分之差为,+”号者 35个,,-”号 15 个,,0”号 10个。以显著性水平 α=0.05检验两种饮料是否同等受欢迎。解,H0,P=0.5,H1,P≠0.5∵ n> 25,∴ 按正态分布近似处理该成数抽样分布的均值和标准差分别为071.050 5.05.0)1(,5.0 n PPSP pp?82.2071.05.07.07.050/35)(pSPPZP检验统计量号的成数样本2.82> 1.96,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。96.1||,05.02 Z双侧检验临界值二、威尔科克森带符号检验(亦称威尔科克森秩和检验)这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。1、应用条件和检验内容与符号检验相同。2、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号( +)的秩和(记为 T+)与负号( -)的秩和(记为 T-)也应该大致相等。其中之较小者也应趋近于总秩和的平均数( )。若正秩和( T+)与负秩和( T-)相差太大,其中较小者偏离总秩和的平均( )较远,以致超过给定显著性水平 α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。4 )1( nnTT3.检验步骤( 1)将样本数据配对并计算各对正负差值( 2)按差之绝对数大小排序(等级 ),并按原正负号计 算正秩和 (T+)与负秩和 (T-)( 3)建立假设,H0,T+=T-H1,T+≠T-(双侧 )H1,T+> T-或 T+< T-(单侧 )( 4)计算检验统计量当 n≤25时,取 T+,T-中之小者24/)12)(1(4/)1(nnnnnTZ当 n&25时( 5)设定 α,并查表确定临界值 Tα(或 Zα/2)( 6)比较统计量与临界值作出判断,对于 n≤25,T≤Tα,拒绝 H0; T> Tα接受 H0曼 —惠特尼 U检验曼 —惠特尼 U检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。检验步骤:( 1)从总体 A,B中分别独立抽取样本 nA和 nB,将( nA+nB)个观察值从小到大编序( 2〕 分别计算两个样本,的秩和 TA和 TB( 3)建立假设H0:两总体 A和 B相对次数分布相同H1:两总体相对次数分布不同( 4)计算检验统计量① nA,nB< 10时,取 UA,UB中小者UA= nAnB+ nA( nA +1) /2-TAUB= nAnB+ nB( nB +1) /2-TB② nA,nB> 10时12/)1()2/(BABABAnnnnnnUZ( 5)设定显著性水平 α,查U表或 Z表得到临界值( 6)比较统计量与临界值,作出判断,对于 nA,nB< 10U≤Uα,拒绝 H0,U> Uα,接受 H0游程检验一、什么是游程检验游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。设某样本 n=12人的标志表现为男、女,有以下三种排列。(i) 男,男,女,女,女,男,女,女,男,男,男,男(ii) 男,男,男,男,男,男,男,女,女,女,女,女(iii) 男,女,男,女,男,女,男,女,男,女,男,男连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。以 r表示序列中游程的个数:(i) r=5,(ii) r=2,(iii) r=11( i)是随机性序列;( ii)( iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。二、游程检验方法1.检验总体分布是否相同。将从两个总体中独立抽取的两个样本的观察值混合有序后,观察游程个数,进行比较。2.检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的3.检验规则(小样本。 n< 20)应用表 La和 Lb,( α=0.05,r为临界值)( 1)单侧检验,观察到的游程个数 ro≤临界值( La表)或 ro≥临界值( Lb表)反之,接受 Ho。否定Ho( 2)双侧检验:观察到的游程个数 ror(La)< ro< r(Lb) 接受 Ho下限 上限 反之,拒绝 Ho4.大样本( n1或 n2大于 20),游程个数 r近似正态分布检验统计量rrErZ)()1()()2(212)(212212121212121nnnnnnnnnnnnnnrEr?其中:等级相关检验将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。等级相关系数的计算公式)1(1 22nndbr is其中 di为两变量每一对样本的等级之差,n为样本容量。等级相关系数与相关系数一样,取值 -1到 +1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。二、等级相关系数的应用一、等级相关检验的基本原理利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行检验。(一)检验的假设( 1) H0,Xi和 YI相互独立;H1,Xi和 Yi不独立。(此为双侧检验)( 2) H0,Xi和 Yi相互独立;H1,Xi和 Yi是正相关。 (即 Xi的大值与 Yi的大值相配对 )( 3) H0,Xi和 Yi相互独立;H1,Xi和 Yi是负相关。 (即 Xi的大值与 Yi的小值相配对 )(二)检验统计量:1,30 nrZn s的临界值相关系数查附表 srn,,30?多个样本的检验一、克鲁斯卡尔 ——沃利斯( Kruskal-Wallis)单向方差秩检验1·检验内容:检验 K个独立样本是否来自分布相同的总体。2·适用条件:各样本相互独立;序列变量(间距变量,比率变量可转换为序列变量)3·方法思想:与威尔科克森秩和检验相同。当 K= 2时,就是曼-惠特尼 U检验。抽样和数据列表:将各样本的观察值按大小顺序排列,确定相应的。4·检验步骤:建立假设:H0,K个总体无显著差异H1,K个总体有显著差异计算检验统计量:K——样本数ni——第 i个样本观察值的数目Ri——第 i个样本中的秩和)1(3)1( 1212 nnRnnHKi ii设定显著性水平 α,查表确定临界值:(1)ni≤5,K=3时,查 K-W单向方差检验统计量临界值表(2)ni&5,查 x2分布表。自由度为 K-1检验判断:(1) ni≤5,K=3时:若 ρ≤α,拒绝 H0; ρ&α,接受H0。(2) ni&5时:021,021,,,HxHHxHkk接受拒绝若( 1)( 2)( 3)( 5)( 4)5.要点说明:①整理样本数据按数值大小顺序确定相应的位序(即秩)时,对相同的观察值按相应的秩计算它们的平均秩。② 若 K个独立样本中有相同的观察值,要对检验统计量进行修正。修正公式:nnttHHKiii313*)(1其中,ti——第 i个秩包括相同观察值的个数;K——相同秩的组数。二、费利德曼( Friedman)双向方差分析这种检验方法适用于 K个非独立样本是否来自同分布总体的检验。其他条件和特点与克鲁斯卡尔 ——沃利斯检验相同。检验步骤:抽样和数据列表:将 ni个样本分别按它们观察大小的顺序排列确定其秩,编成的ni为行、处理方法为列的双向表;并计算各列的秩和 Ri建立假设:H0,K种处理方法的效果无显著差异;H1,K种处理方法的效果有显著差异( 1) ( 2)计算检验统计量:K——处理方法种类,即列数;n——区组数,即行数;Rj——第 j个列的秩和设定显著性水平 α,查表确定临界值:(1)n,K不很小时;查?2分布表,自由度为 K-1;(2)n,K很小时;直接查2分布表 。( 3) ( 4))1(3)1(12122 KnRKnKxKjjr检验判断:(1)n,K不很小时:若(2)n,K很小时:按分布表相应的临界值判断。022 ),1( HKxx r 接受022 ),1( HKxx r 拒绝
课件名称:课件分类:统计课件类型:电子教案文件大小:1.16MB下载次数:28评论次数:4用户评分:6

参考资料

 

随机推荐