2013年6月 C/C++大版内专家分月排行榜第三
本帖子已过去太久远了,不再提供回复功能。当前位置: >>
第二专题:社会调查方法 第二专题:第六讲 统计分析如前所述,作为一种完整的社会研究方式,社会调查必须同时包括随机抽样、问卷 作为一种完整的社会研究方式,社会调查必须同时包括随机抽样、 作为一种完整的社会研究方式 测量、统计分析这三者。抽样解决的是调查对象的问题,问卷是进行变量测量和资料收 测量、统计分析这三者。 集的工具,而统计分析则是处理这种虽来自于样本却要反映总体的、以问卷形式收集的 大量资料的必由之路。因此,从一定意义上说,抽样和问卷都是在为最终的资料分析做 准备。而以统计学原理为基础的统计分析,则是社会调查在分析资料这个环节上的主要 以统计学原理为基础的统计分析, 以统计学原理为基础的统计分析 特征,也是社会调查作为一种定量的社会研究方式的重要标志。样本调查的结果要推论 特征,也是社会调查作为一种定量的社会研究方式的重要标志 到总体,必须经过严格的统计分析与统计检验;利用问卷得到的大量调查资料,也必须 首先转化成数字,并借助电子计算机和专门的统计分析软件才能进入分析过程,得出调 查结果。 正是依靠统计分析的帮助, 社会调查才能够被用来描述总体的各种特征和分布, 才能够被用来分析不同变量之间的关系。 分析阶段也称为研究阶段。主要任务是:对实地调查所收集到的原始资料进行系统 分析阶段也称为研究阶段 的审核、整理、统计、分析。就像农产品从地里收回后要经过很多道加工的工序,才能 最终成为香甜可口的食品一样,从实地调查中所得到的众多信息和第一手资料,也要经 过调查研究者的多种“加工”和“处理” ,才能最终变成调查研究的结论。这里既有对 原始资料的清理、转换和录入到计算机中等工作,也有用各种统计方法对资料进行分析 清理、转换和录入 进行分析 清理 的工作。需要特别指出的是,由现代社会调查的特定方式、方法以及所收集的资料的性 质所决定,这种加工和处理的方式及手段主要是定量的统计分析。 由于统计分析涉及许多数学问题,也比较复杂,还要上机,限于条件和时间,本课 统计分析涉及许多数学问题,也比较复杂,还要上机,限于条件和时间, 统计分析涉及许多数学问题 条件和时间 程只能略作介绍,请感兴趣的同学自己看看讲义和参考材料,有问题可以提出讨论。 作介绍, 请感兴趣的同学自己看看讲义和参考材料,有问题可以提出讨论。 参考材料 统计分析方法的内容可以根据变量的多少划分为单变量分析、 双变量分析和多变量 分析。前两者可称为初等统计,而后者则称为高等统计。本课程只对初等统计 初等统计的内容作 初等统计 一个简要介绍。 一、单变量的统计分析及 SPSS 的相应统计功能 (一)单变量描述统计及 SPSS 的相应统计功能 1.频数分布与频率分布 . (1)频数分布(统计工作的第一步) )频数分布(统计工作的第一步) 所谓频数分布(frequency distribution),不同类别在总体中的绝对次数分布。 【例 1】某班有 20 名学生,我们通过对他们的父亲的职业情况进行调查,得到下列1结果;工人、工人、工人、工人、干部、干部、干部、干部、干部、干部、教师、教师、 教师、商人、商人、商人、商人、商人、农民、农民。那么,我们就可以用表 9—1 来 描述该班学生的父亲的职业分布状况。 频数分布表的作用有两方面,一是简化资料 频数分布表的作用有两方面,一是简化资料,即将调查所得到的一长串原始数据, 以一个十分简洁的统计表反映出来。二是从频数分布表中,我们可以更清楚地了解调查 二是从频数分布表中, 二是从频数分布表中 数据的众多信息。比如从表 9—1 中,我们既可以了解该班学生的父亲在职业方面的分 数据的众多信息 布范围(工人、干部、教师、商人、农民,总共有五类),还可以了解不同职业的分布情 况(如干部最多、农民最少等),这样就为我们深入分析有关现象打下了良好的基础。 (2)频率分布 ) 不同类别的次数占相应总次数比例的分布 这种比率在社会调查中经常是以百分比的形式来表达。 频率分布情况同样也是以频 率表的形式出现。表 9—2 就是与表 9—1 对应的频率分布表。 频率分布表与频数分布表的区别在于: 频数分布表是不同类别在总体中的绝对数量 分布,而频率分布表则是不同类别在总体中的相对数量分布(相对比重)。 正是由于这一特点,频率分布表除具备频数分布表的优点外,还有一个十分重要的 优点,这就是它十分方便地用于不同总体或不同类别之间的比较 不同总体或不同类别之间的比较。因此,这种分布表的 不同总体或不同类别之间的比较 应用更为普遍。从测量层次的角度来分析, 不难看出频数分布和频率分布主要适用于定类尺度变量 主要适用于定类尺度变量 的描述。当然,对于更高测量层次上的变量,比如定序变量、定距变量和定比变量,同 的描述 样也可以用它们进行描述。 2.集中趋势分析 . 集中趋势分析(centeral tendency analysis)是指用一个典型值或代表值来反映一组数 据的一般水平,或者说反映这组数据向这个典型值集中的情况。最常见的集中趋势分析 包括计算平均数(也称为均值 众数 中位数 均值)、众数 中位数。 均值 众数和中位数 使用得最多的集中量数。平均数的 (1)平均数 )平均数(mean)。在社会调查中,平均数是使用得最多的集中量数 使用得最多的集中量数 定义是:总体各单位数值之和除以总体单位数目所得之商。在统计分析中,习惯以 X 来2表示平均数。其计算公式是 X =∑Xn下面举例说明不同情况下计算平均数的方法。先看如何从原始数据计算平均数。 【例 2】某班 10 名学生年龄分别为 20 岁、21 岁、19 岁、19 岁、20 岁、20 岁、21 岁、22 岁、18 岁、20 岁,求他们的平均年龄。 解 根据平均数的计算公式有X =∑Xn=200 岁 = 20岁 10如果是单值分组资料,那么,计算平均数时首先要将每一个变量值乘以所对应的频 数,得出各组的数值之和,然后将各组的数值之和全部相加,最后除以单位总数(也即 各组频数之和)。其计算公式是X=∑ Xf = ∑ Xf n ∑f【例 3】调查某年级 150 名学生的年龄,得到如表 9—5 所示的结果,求平均年龄。解 根据公式得X=∑Xf = 17×10+18× 25+19×50+ 20× 40+ 21× 20+ 22×5岁=19.33岁n 150在调查收入、年龄等方面情况时,常常得到组距分组形式的资料。比如,人口普查 的许多数据就是以年龄分组的形式给出的。我们常常知道的是 0~4 岁、5~9 岁、10~ 14 岁等年龄段的人数、他们的各种特征等等,却很少知道其中每一个人的准确年龄。这 时,若要计算他们的平均年龄,就需要先计算出各组的组中值,然后再按照上述单值分 组资料计算平均数的公式计算。组中值的计算公式为组中值 =上限 + 下限 2当组中值为小数时,通常采取四舍五人的办法将其化为整数后再计算。 【例 4】调查某大学 100 名学生勤工助学的收入,得到如表 9—6 所示的资料,计算 他们的平均收入。 表 9—6 某大学 100 名学生勤工助学收入的分布3因此,这 100 名学生的平均收入为X=∑ Xfn=38000 = 380元 100注意: 当分组中有开区间时, 就无法计算其组中值, 因而也就无法计算总体均值了。 比如说,当上例中还有“99 元以下”和“600 元以上”这样两个组时(每组假设各为 5 人) ,该如何计算总体均值呢?如果说前面一组还可以取 50 元作为其组中值的话(因其 下限为 0),后面一组就无法取了。因此,在实际社会调查中,研究者往往尽量使所有分 组都成为闭区间,既方便被调查者回答,又可以计算出平均数。 (2)众数(mode) 众数是一组数据中出现次数最多(即频数最高)的那个数值 次数最多 的那个数值。 众数与平均数一样,也可用来概括反映总体的一般水平或典型情况。 如何求众数呢?在单值分组资料的情况下,先在频数一栏中找出最大的频数,然后 找到最大的频数所对应的标志值,这一标志值即为众数。 (3)中位数(median) 把一组数据按值的大小顺序排列起来,处于中央位置的那个数值 处于中央位置的那个数值就叫中位数。它所 处于中央位置的那个数值 描述的是定序变量以上层次的变量。其含义是:整个数据中,有一半数据的值在它之上 (比它大) ,另一半数据的值在它之下(比它小) 。 例如,调查 5 个工厂的职工人数,按规模由小到大依次为 200 人、300 人、500 人、 800 人、1 000 人,其中间位置(5+1)÷2=3,即第三个工厂所对应的数值 500 人即为 其中位数。 当数据为偶数个时, 中位数的位置处于中间两个数值之间, 而没有直接对应的数值。 此时一般以中间这两个数值的平均数作为中位数。 例如, 上例中若再加上一个工厂, 人数为 1 200 人, 那么其中间位置为(6+1)÷2=3.5, 即中间位置处在第三个工厂和第四个工厂之间,而其中位数则为(500+800)÷2=650 人。 当资料为单值分组数据时,也是先求出数据组的中间位置,然后再找出其对应值。 只不过寻找的方式有所不同。下面以前面的例 3 为例进行说明。 先由公式计算中间位置: (n+1)÷2 = (150+1)÷2=75.5 即中间位置在第 75 个数值与第 76 个数值之间。为了找到这个位置,需要先列出累 计频数。累计频数的计算既可以从上到下,也可以从下到上(见表 9—7 中第三、第四 表4两栏) 列出累计频数后,我们从上往下找(或者从下往上找),看看所计算出的中间位置最 先落入哪一累计频数内, 再由此找出相对应的中位数。 在本例中, 无论按哪种方式寻找, 中间位置 75.5 总是最先落人人数为 50 的那一行(即从上往下时累计频数为 85、从下往 上时累计频数为 115 的那一行) 。这一行所对应的标志值为 19 岁,就是所求的中位数。由组距分组数据求中位数时,则与前面两种情况有所不同。其具体方法是先列出累 计频数, 然后按同样的方法确定中位数所在的组, 最后利用下述公式计算出中位数的值: 中位数 = L + n / 2 ? cf ( m ?1) fm ×i其中,L 为中位数所在组的下限值, cf ( m ?1) 为中位数所在组以上的累计频数,fm 为 中位数所在组的频数,i 为中位数所在组的组距。 以前面例 4 的资料(见表 9—8)为例,说明如何从组距分组资料求中位数。求出中间位置为(100+1)+2=50.5,再从累计频数栏中找到中位数所在组为“300 —399”这一组,最后利用以下公式计算: 中位数 = 300 +下面我们对平均数与中位数的特点和作用略作比较。 首先,由于计算平均数时要求用到数据中所有的数值,而求中位数时只用到数值的 相对位置,因而平均数比中位数利用了更多的有关数据的信息。它对数据总体的描述和 反映,在一般情况下比中位数更加全面和准确。 其次,平均数与中位数有一点很重要的差别,这就是:平均数非常容易受到极端值 的变化的影响,而中位数则不会受到这种影响,除非中位数值本身变化。比如,5 个职550 ? 20 × 99 = 374.25 40工的收入分别为 1 000 元、2 000 元、4000 元; 000 元、6 000 元; 、5 ,则他们收入的平 均数为 3 600 元,中位数为 4 000 元。如果最高收入不是 6 000 元,而是 10 000 元,那 么,他们收入的平均数则变为 4 400 元。但中位看出,当样本中数据值的分布是高度偏 斜的,即在一个方向上有较多的极端个案,中位数一般总是比平均数更适合一些。 第三,对于抽样调查来说,平均数是一种比中位数更为稳定的量度,它随样本的变 化比较小。即对于从同一总体中、采用同一方式抽出的、同样规模的不同样本来说,它 们的平均数相互之间的差别,往往比它们的中位数相互之间的差别要小一些。 最后, 平均数具有中位数所不具备的另一个重要性质是: 它比较容易进行算术运算。 这是因为,平均数所要求的是定距层次以上的变量,而中位数所要求的则是定序层次以 上的变量。这也提示我们,计算平均数要以定距变量为前提,而中位数则既可用于定距 变量,又可用于定序变量。 3.离散趋势分析 . 与集中趋势分析相反, 离散趋势分析(dispersion tendency analysis)指的是用一个特别 的数值来反映一组数据相互之间的离散程度。它与集中趋势分析一起,分别从两个不同 的侧面描述和揭示一组数据的分布情况,共同反映出资料分布的全面特征。同时,它还 对相应的集中量数(如平均数、众数、中位数)的代表性作出补充说明。为了理解离散量 数分析的这种作用,我们先来看看下面的例子。 【例 5】某校 3 个系各选 5 名同学参加智力竞赛,他们的成绩分别为 中文系:78、79、80、81、82 X =80; 数学系:65、72、80、88、95 X =80; 英语系:35、78、89、98、100 X =80。 无论是从团体总分来看, 还是从平均得分来看, 3 个系代表队的成绩都是相同的。 这 因此,如果仅以集中量数的统计量(平均数)来衡量,那么,3 个系代表队的水平一样高, 不存在什么差别。但从直观上我们不难发现,3 个代表队中 5 名队员的成绩相互之间的 差距程度(离散程度)很不一样:中文系队 5 名同学成绩十分接近,数学系队 5 名同学成 绩比较分散,而英语系队 5 名同学的成绩则相差十分悬殊。虽然他们 3 个队的平均成绩 都是 80 分,但不难理解,这个 80 分对中文系队同学的代表性最高,而对英语系队同学 的代表性最低。 常见的离散量数统计量有全距、标准差、异众比率、四分位差等。其中,标准差、 异众比率、四分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、 中位数代表性的大小。下面逐一进行介绍。 (1)标准差 )标准差(standard deviation)。标准差的定义是:一组数据对其平均数的偏差平 方的算术平均数的平方根。它是用得最多、也是最重要的离散量数统计量,其计算公式 为S=∑(X ? X )n26比如,将例 5 的资料代入后可得 S(中文系):1.414(分), S(数学系)=10.8(分), S(英语系)=23.8(分)。从上述结果中可知,中文系代表队的标准差最小,数学系队其次,而英语系代表队 的标准差最大。 这一结果很好地反映出各队队员成绩之间的离散程度, 同时也反映出 80 分的平均成绩对中文系代表队的代表性最大,而对英语系队的代表性最小。 用例 5 的资料求得上述标准差,可以看做从原始数据计算标准差。对于单值分组数 据资料,计算标准差的公式略有变化,即 S = 其中,f 为 X 所对应的频数。 【例 6】调查 200 户家庭的规模,得到如表 9—9 所示的资料,求其标准差。 表 9—9 200 户家庭规模资料∑(X ? X )n2f解先求出平均数,由公式可得X =∑ Xfn=2 × 10 + 3 × 120 + 4 × 50 + 5 × 20 人 = 3.4人 2002将平均数及上表中的计算结果代人上述标准差公式得S=∑(X ? X )nf=108 人 = 0.73人 200由组距分组资料计算标准差时,只需先计算出各组的组中值,然后按照单值分组资 料计算标准差的公式和方法计算即可。 ‘(2)离散系数(coefficient of variation)。 离散系数也称变差系数,它是一种相对的离散量数统计量,它使我们能够对同一总 体中的两种不同的离散量数统计量进行比较, 或者对两个不同总体中的同一离散量数统 计量进行比较。 离散系数的定义是:标准差与平均数的比值,用百分比表示,记为 CV。其计算公 式为 CV =S × 100% X【例 8】一项调查得到下列结果,某市人均月收人为 920 元,标准差为 170 元,人 均住房面积 7.5 平方米,标准差为 1.8 平方米。试比较该市人均收入和人均住房情况 哪一个差异程度比较大。7解 人均收入的离散系数为CV =S 170 × 100% = × 100% = 18.5% X 920人均住房面积的离散系数为 CV =1 .8 × 100% = 24% 7 .5可见人均住房面积的差异情况比人均收入的差异情况要大。 这是同一总体不同指标 间的比较,下例则是属于同一指标不同总体间的比较。 【例 9】对广州和武汉两地居民生活质量调查发现,广州居民平均收入为 6 800 元, 标准差为 1 200 元;武汉居民平均收入为 3 600 元,标准差为 800 元。问广州居民相互 之间在收入上的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些? 解 广州居民收入的离散系数=1 200÷6 800×100%=17.6% 武汉居民收入的离散系数=800÷3 600×100%=22.2% 可见比较而言, 武汉居民相互之间在收入上的差异程度比广州居民相互之间的差异程度 更大一些。 (3)异众比率(variation ratio)。 异众比率(variation ratio)。 所谓异众比率,指的是一组数据中非众数的次数相对于总体全部单位的比率。异众 比率通常用 VR 表示,其计算公式为 VR = 其中,fmo 为众数的次数。 例 3 中的异众比率为 VR =150 ? 50 100 = = 0.67 = 67% 150 150n ? f mo n异众比率的意义是指众数所不能代表的其他数值 (即非众数的数值 )在总体中的比 重。因此,我们不难明白,当异众比率越大,即众数所不能代表的其他数值在总体中的 比重越大时,众数在总体中所占的比重自然就越小,这样,众数的代表性也就越小。反 之,当异众比率越小时,众数所不能代表的其他数值在总体中的比重就越小,众数的代 表性自然也就越大了。 (4)四分位差 )四分位差(interquartile range) 四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高的 1 /4 和最低的 1/4 后,中间的一半数值之间的全距。四分位差的符号通常用 Q 表示。 而用 Q1 和 Q3 来表示第一个四分位点和第三个四分位点所对应的数值。 例7 调查 11 位同学的年龄如下:17 岁、18 岁、18 岁、19 岁、19 岁、20 岁、20 岁、21 岁、21 岁、22 岁、22 岁,求其四分位差。 解先求出 Q1 和 Q3 的位置,即 Q1的位置 = Q3的位置 =n + 1 11 + 1 = =3 4 4(n + 1) (11 + 1 ) 3 3 = =9 4 48再从数序中找到 则四分位差Q1=18,Q3=21Q=Q3-Q1=21-18=3结果说明,这 11 位同学中,中间一半人的年龄在 18—21 岁之间,或者说,这一半 人之间的最大差异为 3 岁。 (5)全距 )全距(range) 全距又叫极差,它是一组数据中最大值与最小值之差。如上面所举例 5 中,3 个代 表队成绩的全距分别为 中文系:82-78=4(分);数学系:95-65=30(分);英语系:100-35=65(分)。 全距的意义在于:一组数据的全距越大,在一定程度上说明这组数据的离散量数越 大,而集中量数统计量的代表性越低;反之,一组数据的全距越小,则说明这组数据的 离散量数越小,集中量数统计量的代表性就越高。从上面 3 个代表队的例子中,我们不 难认识到这一点。但是,应该注意到,由于全距仅仅依靠两个极端值,因而带有很大的 偶然性,它对于大量的处于两个极端值之间的数值分布情况,以及在中心点周围的集中 情况,都无法提供任何信息。为此,人们更多地使用标准差等其他离散量数。 4.单变量描述统计的 SPSS 实现 . 启动 SPSS16.0,打开准备好的数据。点击 Analyze 菜单一进入 Descriptive Statistics —点击 Frequencies,出现窗口,在窗口中选择需要统计的变量,置入 Variable 栏,点击 窗口右侧的 Statistics 按钮,会出现新的窗口,在新窗口中,根据统计变量的测量层次和 自己的要求,选择统计指标。这里面有 Quartiles—四分位指标,Std.deviation—标准差指 标,Range—全距,Mean—平均数,Median—中位数,Mode—众数,选择好需要的指标 后,点击新窗口的 Continue 按钮,点击上一级窗口的 OK 按钮,结果就会在输出窗口中 输出。 (二)单变量推论统计 单变量推论统计 由于在社会调查中我们很少作普查,更经常地是作抽样调查。所以,我们在对调查 结果进行描述、对变量关系进行探讨时,往往都是使用样本的资料,直接得到的也是有 关样本的结果。然而,正如我们在介绍抽样调查的定义、性质和特点时所指出的那样, 我们从总体中抽取一部分对象进行调查的目的,并不是为了描述这个样本的情况,而是 希望通过样本来了解总体特征和状况。推论统计所要解决的正是这方面的问题。 简单地说,推论统计就是利用样本的统计值对总体的参数值进行估计的方法。推论 统计的内容主要包括两个方面:一是区间估计,二是假设检验。91.区间估计 . 区间估计(interval estimation)的实质就是在一定的可信度(置信水平)下,用样本统计 值的某个范围(置信区间)来“框”住总体的参数值。范围的大小反映的是这种估计的精 确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。区间估计的结果 全市职工的月工资收入在 182 通常可以采取下述方式来表述: “我们有 95%的把握认为, 元至 218 元之间。 ”或者“全省人口中,女性占 50 %至 52%的可能性为 99%” 。 区间估计中的可靠性或把握性是指用某个区间去估计总体参数时, 成功的可能性有 区间估计中的可靠性 多大。它可以这样来解释:如果从总体中重复抽样 100 次,约有 95 次所抽样本的统计 值的某个区间将包含总体的参数值, 则说明这个区间估计的可靠性为 95%。 对于同一总 体和同一抽样规模来说,所给区间的大小与作出这种估计所具有的把握性成正比。即所 估计的区间越大,则对这一估计成功的把握性也越大;反之,则把握性越小。实际上, 区间的大小所体现的是估计的精确性问题,二者成反比,即区间越大,精确程度越低; 区间越小,精确程度越高。从精确性出发,要求所估计的区间越小越好;可从把握性出 发, 又要求所估计的区间越大越好。 因此, 人们总是需要在这两者之间进行平衡和选择。 在社会统计中,常用的置信水平分别为 90%、95%和 99%。在计算中,置信水平常用 1-α来表示。α 称作显著性水平,它指的小概率事件的概率值。下面我们分别介绍总体均 值的区间估计和总体百分比的区间估计方法。 (1)总体均值的区间估计 )总体均值的区间估计。总体均值的区间估计公式为 X ± Z (1?α ) S n其中, X 为样本平均数,S 为样本标准差,Z(1-α)为置信水平,是(1-α)所对应的 Z 值,n 为样本规模。 【例 10】 调查某厂职工的工资状况,随机抽取 900 名工人作样本,调查得到他们 的月平均工资为 1 860 元,标准差为 420 元。求 95%的置信水平下,全厂职工的月平均 工资的置信区间是多少? 解 将调查资料代入总体均值的区间估计公式得 186 ± Z (1?0.05) 42 900检验表。 查书后附录中的 Z 检验表。得 Z(1-0.05)=1.96 故,总体均值的置信区间为 186 ± 1.96 42 900当我们希望提高估计的可靠性时,就必须相应扩大置信区间。比如,当我们将置信 水平提高到 99%时,那么,上例中的置信区间又是多大呢?10同样利用公式计算得 186 ± Z (1?0.01)42 900 42 900此时的 Z(1-0.01)=2.58。所以,总体均值的置信区间为 186 ± 2.58即l 823.36-1 896.64 元可见随着可靠性的提高,所估计的区间扩大了,这样一来,估计的精确性就相应地 降低了。 (2)总体百分数的区间估计 )总体百分数的区间估计。总体百分数的区间估计公式为 p ± Z (1?α ) 其中,p 为样本中的百分比。 【例 11】从某工厂随机抽取 400 名工人进行调查,结果表明女工的比例为 20%。 现在要求在 90%的置信水平下,估计全厂工人中女工比例的置信区间。 解 代入公式得P(1 ? p) n20% ± 1.6520%(1 ? 20%) 400即 16.7%~23.3% 而当提高置信水平时,比如说 95%时,置信区间为 16.1%~23.9 %。可见随着置信 水平的提高,置信区间进一步扩大,估计的精确性则进一步降低。 2.假设检验 . 假设检验问题是推论统计中的另一种类型。首先需要说明的是,这里的假设不是指 抽象层次的理论假设,而是指和抽样手段联系在一起、并且依靠抽样调查的数据进行验 证的经验层次的假设,即统计假设。 假设检验实际上就是先对总体的某一参数作出假设, 然后用样本的统计量去进行验 证, 以决定假设是否为总体所接受。 假设检验所依据的是概率论中的小概率原理, “小 即 概率事件在一次观察中不可能出现”的原理。但是,如果现实的情况恰恰是在一次观察 中小概率事件出现了,那该如何判断呢?一种是认为该事件的概率仍然很小,只不过不 巧被碰上了;另一种则是怀疑和否定该事件的概率未必很小,即认为该事件本身就不是 一种小概率事件,而是一种大概率事件。后一种判断更为合理,它所代表的正是假设检 验的基本思想。 (1)假设检验的基本步骤 )假设检验的基本步骤 我们举例说明假设检验的基本思路。某大学学生勤工助学上月平均收入为 210 元, 这个月的情况与上月没有什么变化,我们设想平均收入还是 210 元。为了验证这一假设 是否可靠,我们抽取了 100 人作调查,结果得出月平均收入为 220 元,标准差为 15 元。 显然, 样本的结果与总体结果之间出现了误差。 这个误差是由于我们假设错误引起的呢? 还是由于抽样误差引起的呢?如果是抽样误差引起的,那么我们就应该承认原来的假设;11而如果是假设错误引起的, 我们就应该否定原假设。 研究者通过将原假设作为虚无假设, 而将与之完全对立的假设作为研究假设,然后用样本的数据计算统计量,并与临界值比 较。当统计值的绝对值小于临界值,即 Z & Z α 时,则接受虚无假设,否定研究假设;2当统计值的绝对值大于或等于临界值,即 Z ≥ Z α 时,则拒绝虚无假设,接受研究假设。2概括起来,假设检验的步骤是: ①建立虚无假设和研究假设,通常是将原假设作为虚无假设; ②根据需要选择适当的显著性水平 a(即小概率的大小),通常有 a=0.05,a=0.01 等; ③根据样本数据计算出统计值 Z,并根据显著性水平查出对应的临界值 ; ④将临界值与统计值进行比较,以判定是接受虚无假设,还是接受研究假设。 (2)总体均值的假设检验 ) 【例 12】 某大学学生勤工助学上月平均收入为 210 元,本月调查了 100 名学生, 平均月收入为 220 元,标准差为 15 元。问该大学学生勤工助学本月平均收入与上月相 比是否有变化? 解 首先建立虚无假设(用 H0 表示)和研究假设(用 H1 表示),即有 H0:M=210, H1:M≠2102 )选择显著性水平 α = 0.05 ,由书后附录的 Z 检验表查得 Z ( 0.05 双尾检验) 然后根据样本数据计算统计值,其公式为 Z = 式中,X 为样本均值,M 为总体均值, SE = σX ?M S n 220 ? 210 = 6.67 15 100= 1.96 ( Z ( 0.05 表示2 )X ?M X ?M = SE σ nn 为标准误差, σ 为总体标准差,n 为样本规模。由于总体标准差 σ 通常未知,因此,当 n&30 时,以样本标准差来代替,即 Z==由于 Z = 6.67 & Z ( 0.052)= 1.96 ,所以,拒绝虚无假设,接受研究假设。即从总体上说,该大学学生勤工助学月平均收入与上月相比有变化。 (3)总体百分比的假设检验 ) 总体百分比假设检验的基本思路与方法同总体均值的假设检验相同, 只是统计量的 计算公式不一样。 【例 13】一所大学全体学生中抽烟者的比例为 35%,经过学习和戒烟宣传后,随 机抽取 100 名大学生进行调查, 结果发现抽烟者为 25 名。 问戒烟宣传是否收到了成效?12解设H0:P0=0.35,H1:P0&0.352 )选择显著性水平 α = 0.05 ,由 Z 检定表查得 Z 0.05 = 1.65 ( Z = 6.67 & Z ( 0.05 ( Z 0.05 表示单尾检验), 根据下列公式计算统计量:Z= p ? p0 p 0 (1 ? p 0 ) n = 0.25 ? 0.35 0.35(1 ? 0.35) 100 = ? 2 .1= 1.96由于Z = 2.1 & Z 0.05 = 1.65所以,拒绝虚无假设,接受研究假设。即从总体上说,抽烟宣传收到了成效,抽烟 者的比例明显下降。 二、双变量的统计分析及 SPSS 的相应统计功能 单变量分析只涉及到对单一变量的研究,它对我们认识和了解社会现象来说,只能 起到某种最基本的描述作用。当我们希望进一步了解社会现象发生和变化的原因、揭示 社会现象的发展规律时,仅靠这种描述就不够了。双变量分析(以及多变量分析)方法, 正是人们用来探索变量间的各种关系, 探索社会现象发生、 发展和变化规律的有用工具。 本讲内容从以下几个方面展开: 交互分类表、定类变量间和定类与定序变量间关系的统计、其他层次变量的相关关 系统计与检验 (一)交互分类表 交互分类:将调查所得的数据按照两个不同的变量进行的综合分类 交互分类表:表现交互分类结果的表格。 1.交互分类表的形式要求 (1)要有表号和标题 (2)表格中尽量不用竖线,横线越少越好 (3)自变量在最上一行,因变量在最左一列 (4)表格中数据一般按列计算百分数,百分号可标示在表顶端右角,也可标示自 变量取值处 (5)表内百分比保留一位小数 (6)表格最后一栏,要标示每一纵栏所对应的频数 (7)表中变量的取值不能太多 2.交互分类表的意义与作用 (1)可以较为深入地描述样本资料的分布状况和内在结构 (2)可以对变量之间的关系进行分析和解释13(二)定类变量间和定类与定序变量间关系的测量 1.在总体中关系的检验方法——卡方检验 在总体中关系的检验方法——卡方检验 —— (1)卡方检验的公式 ( f0 ? fe )2 feχ2 = ∑其中,f0 为交互分类表中每一格的观察频数;fe 为交互分类表中 f0 所对应的期望频 数。 (2)期望频数的计算方法f行号列号 = (所在行总频数 × 所在列总频数) 所有行频数小计之和下面我们用表 10—7 的资料为例进行说明。首先,我们将表 10—7 还原成频数形式 的交互分类表(见表 10—8)。 表 lO—8 年龄与态度的交互分类表 (人)f11 即第一行与第一列相交的那一格的期望频数。 表中 f11 的观察频数为 144, 其行总 数为 328,列总数为 200,因此我们可以按前面所述的方法计算出 f11 ,即f 11 = 328 × 200 ≈ 109 600同理,可以算出f 12 = f 21 = f 11 = 328 × 280 ≈ 153 600’f 13 = f 22 = 328 × 120 ≈ 66 600272 × 200 ≈ 91 600 272 × 120 ≈ 54 600272 × 280 ≈ 127 600代入 χ 2 的计算公式,便有14( f 0 ? f e ) 2 (144 ? 109) 2 (154 ? 153) 2 χ =∑ = + + fe 109 1532(30 ? 66) 2 (56 ? 91) 2 (126 ? 127) 2 (90 ? 54) 2 + + + 66 91 127 54 = 11.24 + 0.01 + 19.64 + 13.46 + 0.01 + 24 = 68.36(3)卡方检验的具体步骤 ①建立两变量间无关系的假设并确定显著水平 ②计算出卡方值 ③查临界值 ④作出结论 总之,对于交互分类来说, χ 2 检验发挥着这样两种作用:一是对两变量的相关关 系是否存在进行审查,此时 χ 2 检验又称作独立性检验(即两变量是相互独立,还是彼此 相关);二是对较小规模的样本资料进行差异的显著性检验,即核查交互分类表中所出 现的分布差异究竟是由于随机抽样的误差所引起,还是由于总体中的分布状况所导致。 关于这一点,我们可用下面的例子来说明。 调查某地区中学生的升学意愿,得到表 10—9 所示的结果。 表 10.9 某地区两类学生的升学意愿分布 比例(%)如果仅仅从交互分类表中的百分比来看,我们也许会得到这样的结论:两类中学生 之间在是否想考大学这方面存在明显差别, 城市中学生想考大学的比例明显高于农村中 学生的比例(二者之间的差别达到了 13%左右)。 但是, 如果用这一结果来反映总体的情 况,那么就会歪曲现实。实际上,表 10-9 所反映的只是样本的情况,样本结果中所表 现出的差异能不能代表总体中的情况, 还得经过统计检验。 下面我们对上述结果进行 χ 2 检验。 通过计算, 得出表 10-9 数据的 χ 2 值为 3.692, 小于显著度为 0.05 的临界值 3.841。 所以,我们可以得出结论说:在表 10-9 中所表现出来的两类中学生之间的差异,是由 于抽样的随机误差造成的,它在总体中并不存在。我们也可以说,总体中两类中学生之 间在是否想考大学这方面不存在明显差别。15(4)卡方检验的弱点χ 2 检验也有其弱点。这主要是由于 χ 2 值的大小不仅与数据的分布有关,同时它还与样本的规模有关。当样本足够大时,一些很小的分布差异也可以通过 χ 2 检验达到显 著性水平。 2.相关关系强度的统计方法 前面我们主要讨论的是交互分类表中两个变量间是否存在关系的问题。当 χ 2 检验 表明两变量间存在关系时,是否就意味着这种关系是一种强关系,或重要关系呢?这不 一定,因为变量关系的强弱和变量间是否存在关系是两个完全不同的问题。 下面我们介绍几种常见的与交互分类有关的变量间关系强度的测量方法, 它们中有 些与 χ 2 有一定联系。 系数。当交互分类表为 2×2 表(即两行两列)时,可用 φ 系数测量变量关系 (1) φ 系数 的强度。 φ 系数的计算公式为 ad ? bc (a + b)(c + d )(a + c)(d + b)φ=其中,a、b、c、d 分别为 2×2 表中的四个格值,如表 10-11 所示。表 lO-1l2×2 表中的四个格值φ 的取值范围在 O 与 1 之间,越接近 1,说明关系强度越大。现以表 10—12 的资料为例来计算 φ 。 表 10-12 学生对学分制态度统计表 数量(个)代入公式得φ=120× 35 ? 30×15 (120 + 15)(30 + 35)(120+ 30)(15 + 35)=165× 65×150× 50= 0.46说明性别与对学分制态度间的关系较强。 对于 r×c 交互分类表(r、c 可大于 2), φ 系数可用下列形式表示(证明从略):φ=χ2n系数。由于 φ 系数除了在 2×2 表中可控制在[-1,+1]外,当 r×c 表的格数 (2)V 系数 增多后, φ 值将增大,因而此时的 φ 值是没有上限的,这样系数间就缺乏比较。为此人 们又作了进一步改进,出现了其他几种以 χ 2 为基础的关系强度系数公式。其中的 V 系 数公式为V=φ2min[(r ? 1), (c ? 1)]式中的分母表示以(r-1)和(c-1)中较小者作为除数。例如,以表 10-8 中的数据来计算 V 系数可得V=φ2min[(3 ? 1), (2 ? 1)]=χ2 n1= χ2 n =68.36 = 0.1139 ≈ 0.338 600说明年龄与态度之间存在着较强的关系。 系数(列联系数) (3)C 系数(列联系数)。C 系数也是一种与 χ 2 有关的相关系数,其计算公式为 C=χ2 χ2 +n以表 10 一 8 中的数据来计算 C 系数,可得 C=0.32。 当两变量不相关(即完全独立)时,C 达到下限且等于 O。但 C 的上限却与表的行数 和列数有关,且不管怎样也达不到 1。部分交互分类表 C 值的上限如表 10-13 所示。表 lO-13 部分交互分类表 C 值的上限①【①柯惠新.调查研究中的统计方法.北京: 北京广播学院出版社。】17所以,在采用 C 系数时,要用表 10-13 进行修正。比如对 2×3 表计算出的 C 系数, 要除以其上限值 O.685,所得到的新的 C 值才能说明两变量实际的相关程度。因此,前 述表 10-8 数据的 C 值 O.32 经过修正后得出C= 0.32 = 0.47 0.685C 系数有一个突出的优点,这就是它不受样本规模大小的影响。这样,它就可以为 我们解决前述由于样本规模增大而使原来不显著的差异变为显著差异、 使原来相互独立 的变量变为相互不独立的变量的问题,提示出变量之间的真正关系的密切程度如何。比 如,对前面表 10-10 中(2)和(3)的数据分别计算 C 值,得到下列结果:对于表 lO-10(2)C=1.44 ≈ 0.119 1.44 + 100对于表 lO-10(3)C=7.2 ≈ 0.119 7.2 + 500由此可见,虽然两表中的 χ 2 值不同,但变量间的真正相关性是相同的,实际上相 关并不显著。或者说,两变量之间只有微弱的相关。因此,当 χ 2 达到显著程度,且样 本规模又很大时,最好参照一下 C 值的大小,如果 C 值也比较大,我们才能下两变量明 显相关(或不独立)的结论。 (4)λ系数。λ系数优于前述几种相关统计量的地方,是它具有消减误差比例(简 系数18称 PRE)的意义。我们知道,社会调查的主要目标是解释或预测社会现象的变化,而这种 预测中难免会有误差。对于两个有关系的变量来说。在我们知道变量 X 的值去预测与它 相关的变量 Y 的值时所存在的误差(E2),显然比我们不知道 X 的值去预测 Y 的值时所存 在的总误差(E1)要小。所谓消减误差比例,指的就是知道 X 的值来预测 Y 值时所减少的 误差(E1-E2)与总误差的比。用公式表示即是PRE =E1 ? E 2 E1PRE 越大,表示以 X 值去预测 Y 值时能够减少的误差所占的比例越大,换句话说,X 与 Y 之间就越是相关,或者说,X 与 Y 的关系越强。比如说,PRE=O.70,表示以 X 预测 Y 时能减少 70%的误差,说明二者之间的相关程度较高;而 PRE=0.09,则表示只能消减 9%的误差,即 X 与 Y 之间的关系微弱。 λ系数的基本特点是以众值作为预测的准则。其计算公式为λ=∑fY? FYn ? FY其中,fY 表示变量 X 的每一个值之下变量 Y 的众值;FY 表示变量 Y 的边际分布中的 众值。 ‘下面以表 10 一 14 中的资料为例,来说明λ的计算方法。 表 10 一 14 性别与对吸烟态度的交互分类 数量(个)根据λ计算公式,有λ=∑fY? FYn ? FY=(96 + 62) ? 114 = 0.51 200 ? 114因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。也可以说,用性 别去预测对吸烟的态度,比仅用对吸烟态度自身的资料(即边际分布的众值 114)去预测 对吸烟的态度,可以减少 51%的误差。 (5)Tau-y 系数 Tauλ系数的优点是具有 PRE 意义,但其缺点是仅利用众值资料。当表中的众值都集中 在同一行时,λ系数就会等于零,比如表 10—15。 根据公式有19λ=(96 + 48) ? 144 =0 200 ? 144表 lO-15 性别与对暇烟的态度交互分类数量(个)在这种情况下,我们可采用 Tau-y 系数(简记为τy)来进行测量。τy 系数属于不对称 相关测量法,即要求 X 是自变量,Y 是因变量。它的数值也介于 O 与 l 之间,同样具有 消减误差比例的意义。其计算公式为τy =∑∑ F ∑F n?I2 f ji∑F ?n2 j2 jn其中,i=X 变量值;j=Y 变量值;Fi=X 变量的边缘次数;Fj =Y 变量的边缘次数;fji=X 第 i 列与 Y 第 j 行交叉项的频数;n=个案数目。 以表 10—15 的数据为例,可计算τy 系数如下:2 f ji I∑∑ F=96 2 24 2 48 2 32 2 + + + = 123.2 120 120 80 80∑Fn2 j144 2 + 56 2 = = 119.36 2002 j∑F n?n= 200 ? 119.36 = 80.64τy =123.2 ? 119.36 = 0.048 80.64结果说明性别与对吸烟的态度之间相关程度十分微弱。 (三)其他层次变量的相关测量与检验 前面说过,交互分类主要处理的是定类变量与定序变量,或者说是定类变量与定序 变量之间的相关问题。对于定序与定序,定距与定距等变量间的相关问题,则需要采用 不同的测量方法和检验方法。 1.定序变量与定序变量 (1) Gamma 系数的计算公式 如果两个变量都是定序变量, 我们可以用古德曼和古鲁斯卡的 Gamma 系数来测量20它们之间的相关关系。Gamma 系数通常用 G(或γ)表示,其取值范围是[-l,+1],适用 于分析对称关系,且既表示相关的方向性,又表现相关的程度。 Gamma 系数与λ系数一样,也具有消减误差比例的意义。 Gamma 系数的计算公式是G=Ns ? Nd Ns + Nd其中,Ns 表示同序对数目,Nd 表示异序对数目。 (2)同序对与异序对的计算方法 所谓同序对,指的是变量大小顺序相同的两个样本点,即其在变量 x 上的等级高低 顺序与在变量 Y 上的等级高低顺序相同;否则就叫做异序对。下面我们举例说明 Ns 与 Nd 的计算方法。 假定我们对 100 名工人调查,得到如表 10 一 16 所示的资料。 表 10—16 工人文化程度与收入水平交互分类 数量(个)表***有 100 个个案,若两两配对,共有2 C100 =100 × 99 对 = 4950对 2因此,要一对对地去统计是很困难的,通常的办法是先将数据按两个变量高低次序 排列(本例中已是这样排列的)。先看第一行第一列格中的 12 个个案(f11=12),它们在两 个变量上都处于高位置上,即“高一高”的特征;从这 12 人中任取一人与位于第二行 第二列“中一中”位置上的 30 个个案中的任一人配对,则一定是同序对。因为在两个 变量值上,前者都高于后者。同样的道理,这 12 人与“中一低”的 5 人、 “低一中”的 16 人、 “低一低”的 12 人配对,也都是同序对。而对于“高一中”的 l0 人来说,则与 “中一低” 5 人、 的 “低一低” 12 人为同序对; 的 对于 “中一高” 8 人来说, 的 又与 ‘低 ‘ 一中”的 16 人、 “低一低”的 12 人为同序对。还有, “中一中”的 30 人与“低一低” 的 12 人为同序对。这样.表中所有的同序对数目 Ns 为 Ns=12(30+5+16+12)+10(5+12)+8(16+12)+30(12)=1 510 而异序对的求法则是从右上角的“高一低”3 人开始,计算出“高一中”的 10 人、 “中一低”的 5 人、 “中一中”的 30 人所具有的异序对数目(从右上角往左下角方向,21划掉上述每格所在行与列的格,仅计算其与左下方向所剩下格中的个案数的乘积).即 下列表 10—17。 表 10.17 异序对求法示例故异序对数目为 Nd=3(30+8+16+4)+10(8+4)+5(4+16)+30(4)=514 因此,代人公式可求得G=N s ? N d 1510 ? 514 = = 0.49 N s + N d 1510 + 514即文化程度与收入水平的相关程度为 G=0.49。 它说明, 用文化程度去预测收入水平, 可以消减 49%的误差。 当然,在社会调查常用的 SPSS/PC+或 SPSS for Windows 统计分析软件中,都可以 直接给出 Gamma 系数的值,而不用我们去计算了。 (3)对总体中关系的推论 要将随机样本中有关两定序变量间关系的结果推论到总体, 同样必须对其进行统计 检验。Gamma 系数的抽样分布在随机抽样和样本规模较大的前提下近似于正态分布。因 而其检验通常采用 Z 检验的方法进行。 为了进行 Z 检验,必须先将 G 值标准化为 Z 值。转化的公式为Z =GNs + Nd n(1 ? G 2 )以表 10-16 中的资料和计算结果为例,将 G=O.49,Ns=1 510,Nd=514,n=100 代人公 式得Z = 0.491510 + 514 = 2.53 100(1 ? 0.49 2 )根据不同的显著度要求, 通过查书后附录的 Z 检验表可以判定样本中的结果能否在 该置信水平下(1 一 p)推论到总体。 比如, 当调查所要求的显著度为 0.05 时(即 p&0.05), 查表可得 Z 的临界值为 1.96。由于本例所计算的 Z=2.53&Z0.05=1.96,故在总体中文化 程度与收入水平之间存在较强的相关。 如果调查所要求的显著度为 O.001 时(即要求所得结果的可靠性更大,也即置信水22平越高时),则由书后附录的 Z 检验表查得临界值为 3.30,这样 Z=2.53&3.30=Z0.001,我 们就不能得出上述结论。 2.定类变量(或定序变量)与定距变量 定类变量(或定序变量) (1)eta 平方系数的计算公式 当两个分析的变量一个为定类(或定序)变量,另一个为定距(以上)变量时,我们用 相关比率(correlation2ratio)或 eta 系数来测量二者间的相关程度。 相关比率又称为eta 平方系数,记为 E ,其数值范围由 O 到 1,也具有消减误差比例的意义。 其计算公式为E2∑ (Y ? Y ) ? ∑ (Y ? Y ) = ∑ (Y ? Y )2 i 22其中,Y 为因变量的数值,Y 为因变量的均值; Yi 为在自变量 X 的每个取值 Xi 上的 因变量的均值。 下面先说明上式所表明的消减误差比例的含义。 由于 Y 为定距以上层次的变量, 因此, 当不知道 X 来预测它时, 应该以均值为标准。 这样预测的全部误差为 E1 = ∑ (Y ? Y ) 。 如果知道自变量 X 的每个取值 Xi 后再来预测 Yi 时,也应以它的均值 Yi 来估计,此时的误差总数是 E 2 = ∑ (Y ? Yi ) ,它所消减的误差就 是E1 ? E 2 = ∑ (Y ? Y ) ? ∑ (Y ? Yi ) ,2 2 2 2E ? E2 而E = 1 = E12∑ (Y ? Y ) ? ∑ (Y ? Y ) ∑ (Y ? Y )2 i 22自然就是消减误差比例了。通常,为了计算方便,常将上述公式转化为下列形式:E2∑n Y = ∑Y2i i 2? nY? nY其中,ni 为 X 变量每一取值的频数合计值,n 以为总的频数值, ∑ ni = n 。 现在我们举例说明 E2 的计算方法。调查得到表 10-17 所示的数据,求职业与收入水 平之间的相关程度。 表 10-17 20 名被调查者的职业与收入23根据上述数据,先计算出 ∑ Y 2 即∑YE2 =2= (2500) 2 + (2800) 2 + (3000) 2 + ... + (3500) 2 = 将上述各项数据代入公式有 7 × (3000) 2 + 6 × (3200) 2 + 7 × (3500) ? 20 × (3235) 2 ≈ 0.20
? 20 × (3235) 2而 E = 0.20 = 0.452从 E 值可见,职业与收入水平之间有中等程度的相关。而用 E 值,则可说,用职业 预测收入水平,可消减 20%的误差。 对于定序变量与定距(以上)变量相关的测量通常仍然用 E2 或 E 系数, 即将定序变量 看作定类变量。比如,调查到 20 名被调查者的文化程度与收入水平如表 10-18 所示的 数据,求文化水平与收入水平之问的相关程度。 表 10-18 20 名被调查者的文化程度与收入水平前面已算出 ∑ Y 2 =
,代入公式有 6 × (3730) 2 + 7 × (3340) 2 + 7 × (2700) ? 20 × (3235) 2 ≈ 0.75
? 20 × (3235) 224E2 =E = 0.75 = 0.86 可见,用文化程度来预测或估计被调查者的收入水平,可以消减 75%的误差。用 E 值来解释,则说明文化程度与收入水平之间具有较高的相关。如果将这里的结果与前面 职业与收入水平的结果进行对照,我们可以说,被调查者的收入水平受文化程度的影响 要大于受职业的影响。 关于定序变量与定距变量的相关分析,有一点需略作说明。有些社会调查研究者在 对资料进行统计分析时,常常将定序变量看做(并非实际等于)定距变量,采用后面将讲 到的积矩相关系数来进行计算,甚至进行直线回归分析。比如,将文化程度高、中、低 转化为高=3、中=2、低=1,然后将它们作为定距资料进行运算和统计。事实上,这些数 字(3、2、1)只具有等级的含义,而不具备定距层次的数学特质,即不能进行加减乘除 运算。严格意义上,这样做是不行的。之所以一些研究者这样做,一个主要的原因是当 变量上升到定距层次后,可以用来进行各种多元统计分析。 (2)对总体中关系的推论 相关比率的 E2 检验采用的是 F 检验法,其计算公式为 F= E2 n ? k ( ) 1? E 2 k ?1其中,k 为分组数目,n 为样本规模;k-1=df1,n-k=df2。 下面我们分别对前面表 10-17 和表 10—18 所得出的相关比率进行 F 检验。 ①由于 k=3,n=20,E2=0.20,故有0.20 20 ? 3 ×( ) = 2.125 1 ? 0.20 3 ?1F 1=假定所要求的显著度为 p&0.05,由本书后所附 F 检验表可查得 df1=k-1=2、 df2=n-k=17 的临界值为 3.59。由于 Fl=2.125&3.59=F0.05,故不能否定虚无假设。即得到 下列结论:从总体上看,被调查者的职业与收入水平无关。 ②由于 k=3,n=20,E2=0.75,故有0.75 20 ? 3 ×( ) = 25.5 1 ? 0.75 3 ?1F 21=同样假定 p&0.05,且 df1=k-1=2、df2=n-k=17 则 F2=25.5&3.59=F0.05 故否定总体中文化程度与收入水平无关的假设,得出总体中二者也相关的结论。 3.定距变量与定距变量25(1)皮尔逊相关系数的计算公式 前面几类相关的测量大多利用变量值的次数来进行计算,这是由于定类、定序变量 的数学特征所决定的。对于定距变量来说,由于其数学特征的不同,因而我们可以用更 精确一些的相关系数来反映它们之间的相关程度。 这种更精确的相关系数就是皮尔逊相 关系数(或称皮尔逊积差相关系数)r。 皮尔逊相关系数的计算公式为 r=∑ ( X ? X )(Y ? Y ) ∑ ( X ? X ) ∑ (Y ? Y )22它具有这样几个特点:首先,公式中 X 与 Y 是对等的,即将二者位置互换,r 的值 不变,它说明 r 是一种对称关系的测量;其次,可以证明 r 的取值范围在-1 到 1 之间; 第三,r 的取值具有方向性;第四,r 本身不具有消减误差比例的意义,但其平方 r2(又 称为决定系数)具有消减误差比例的意义。 举例说明皮尔逊相关系数的求法:假定对 10 名工人进行调查得到如表 10-19 所示 的数据,试求工人的年龄与他们的收入之间的相关程度。 表 10-19 10 名工人的年龄与收入统计表为便于计算,先求出 X =37,Y =330,再编制出表格(见表 10—20)。 表 10—20 lO 名工人调查资料相关系数计算表26代入 r 的计算公式有 r=∑ ( X ? X )(Y ? Y ) ∑ ( X ? X ) ∑ (Y ? Y )22= × 32400= 0.86r 2 = (0.86) 2 = 0.74 r 系数显示出,在年龄与收入之间,具有很强的正相关关系,即年龄越大,工资收 入越多。 而决定系数 r2 的结果则显示出, 当以其中一个变量来预测或估计另一个变量时, 能够消减 74%的误差。 上面所介绍的是由原始的未分组数据计算 r 的方法,当数据为已分组资料时,则需 要对前述公式作相应变形后才能使用。在资料为分组数据时,r 的计算公式为 r=∑ f ( X ? X )(Y ? Y ) ∑ f ( X ? X ) ∑ f (Y ? Y )22其中,f 为各组所对应的频数。下面我们具体说明分组数据时 r 的计算方法。 假定调查 100 名青年的受教育年限与他们的理想子女数目之间的关系, 得到下列资 料(见表 10-2l 中前三栏)。 表 lO-2l l00 名青年受教育年限与理想子女数及有关计算27先计算出 X = 11 , Y = 2.9 代入公式有r=∑ f ( X ? X )(Y ? Y ) ∑ f ( X ? X ) ∑ f (Y ? Y )22=? 284 1210 × 105.4= ?0.79r 2 = (?0.79) 2 = 0.62计算结果显示,在所调查的 100 名青年中,他们的受教育年限与其理想的子女数目 之间存在着较强的负相关关系。即受教育年限越长,其理想的子女数目越少。决定系数 r2 则表明,用这两个变量中的一个来预测和估计另一个变量的值时,可以消减 62%的误 差。 (2)对总体中关系的推论 皮尔逊相关系数 r 的检验既可采用 F 检验的方法, 也可采用 t 检验的方法, 因为 F=t2。 F 检验的计算公式如下F= r 2 ( n ? 2) 1? r2 r ( n ? 2) 1? r2t 检验的计算公式则为t= F =下面我们对前面表 10 一 19 资料所得的相关系数 r 分别进行 F 检验和 t 检验。 若用 F 检验,有F= r 2 (n ? 2) 0.74(10 ? 2) = = 22.77 1 ? 0.74 1? r2由于 df1=1、df2=10-2=8,在 p&O.01 的显著度条件下,查本书后所附 F 分布表得 F0.01=11.26。由计算所得 F=22.77&11.26= F0.01,可知,总体中工人的年龄与收入之间也 存在着明显的相关。28若采用 t 检验,则有 t = F = 22.77 = 4.77 ,同样在自由度 df =n-2、p&O.01 的条 件下,查本书后所附 t 分布表得 t0.01=2.896。由 t=4.77&2.896=t0.01,同样可以得到与 F 检验完全相同的结论。 (3)定距变量间的回归分析 相关分析的目的在于了解两个变量之间的关系强度. 即用相关系数来描述 X 和 Y 两 个变量之间的共变特征。回归分析(regression analysis)则是对有相关关系的现象, 根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的 平均变化关系,以便依据回归方程对未知的情况进行估计和预测。由于回归分析增加了 因果性,且具有了预测的功能,因此,它比相关分析更进了一步,其作用也更大了。 回归分析的对象是定距层次的变量,它的中心问题是建立回归方程,而建立回归方 程的基础是最小二乘法。下面,我们以表 10—18 中的数据为例,来简要介绍一元线性 回归方程的建立过程与方法。 ①确定自变量和因变量 ②作散点图 ③a 值和 b 值的计算公式 在回归方程 Y=a+bX 中,b 称为回归系数,a 和 b 的计算公式为 a = Y ? bX , b=∑ ( X ? X )(Y ? Y ) ∑(X ? X )2b 的公式也可化为 b= n∑ XY ? ∑ X ? ∑ Y n∑ X 2 ? (∑ X ) 2回归方程式中的回归系数 b 具有重要的意义。 它表示自变量对因变量影响的大小和 方向,其主要作用是使我们能够以自变量的变化来预测因变量的变化。但是,由于 b 值 没有一定的上限,很少用来表示变量之间的相关程度。前面我们已经指出,对于两个定 距变量之间的相关,通常是计算皮尔逊积距相关系数 r。r 系数与 b 系数不同的地方是, 它假定变量 X 与 Y 的关系是对称的,而且,r 的值是在一 1 到+1 之间。更重要的是,r 的平方值具有消减误差的意义(数学推导过程从略), 它所反映的是在某一个变量的变化 中,有多少部分是受另一个变量的变化所决定的。因而 r2 通常被称为决定系数,用以度 量回归方程对观察资料的拟合优度。r2 的值在 0 和 1 之间,如果拟合是完全的,即所有 的观察值都在直线上,Y=Y’, ∑ l 2 = 0, 则r 2 = 1。如果r 2 = 0.86 ,则说明回归直线与观 察值间的拟合是比较好的,因为回归直线解释了 Y 值与其平均数的总离差平方和的 86%, 只有 12%是回归直线未作解释的, 这部分未作解释的可以归之于偶然因素的变动。 在运用回归分析进行预测时,应注意下述两点:一是要注意时间条件,即回归方程 往往反映的是一定时期内变量间的相互关系, 当时代不同时, 这种关系常常会发生变化; 二是要注意预测不能超出资料所适合的范围, 即回归方程的预测在变量取值上有一定的29临界条件,忽视这一点,有时也会作出不合理的预测来。 应用基础: (四)SPSS 应用基础:双变量交互分类统计与检验 1.交互分类表与卡方检验的实现 社会调查中最为常见的两个定类变量(或者一个定类、一个定序变量)之间关系,交 互分类是一种重要的分析方法。在 SPSS 中,这种交互分析(crosstabs analysis)可以 按下列步骤进行。 进入数据表格后,在菜单栏中点击 Analyse 按钮,再点击所拉开的菜单中的 Descriptive Statistics 按钮,再点击 Crosstabs 按钮,就出现对话框。 在对话框左边的变量栏中选择希望分析的两个变量, 并把作为自变量或因变量的那 个变量放入中间标有 Column(纵栏)的方框中, 把作为因变量或被影响的变量放在上面标 有 Row(横行)的方框中。然后点击对话框下面的 Statistics 按钮,得到相应的对话框。 在对话框中选择 Chi—square(卡方值),这是对两个定类(序)变量之间关系进行显 著性检验的参数,十分重要,通常都必须选择;如果需要,还可以选择两个变量之间相 关关系的统计量 Lambda,然后点击 Continue 按钮,返回;再点击对话框下面的 Cells 按钮,得到结果。 在结果中, 可根据研究的目标决定是否需要显示观察频数和期望频数。 一般情况下, 可去掉上面 Counts 方框中计算机默认的选项(即显示观察频数),改为在下面 Percentages 方框中的 Collumn 项上打勾(即按纵栏的百分比统计)。 然后点击 Continue 按钮,返回;再点击 OK,得到结果。 有时,研究者需要控制第三个变量来进一步考察两个变量之间关系的真伪,此时, 只要在所选择的控制变量放入对话框下面的方框中即可。比如,如果我们要控制被调查 对象的婚姻状况,就可以将婚姻状况放入下面的方框中,其他步骤与上面一样。这样就 会得到结果。 2.子总体平均值比较与方差分析 在社会调查中, 我们常常希望对调查样本中不同的子总体在某些变量上的平均数之 间的差异情况进行比较和分析。比如,我们希望描述和比较调查样本中独生子女与非独 生子女两个子总体在月平均收入上的差异,并对这种差异进行统计检验。在 SPSS 中, 我们可以通过 Means 命令和 One—Way ANOVA 命令来达到这一目的。具体操作方法如下。 (1)通过 Means 命令进行 进入数据表格后,点击 Analyse 按钮,从菜单中选择 Compare Means,在从拉开的 菜单中选择 Means,即可打开对话框。在对话框中选择作为因变量的变量(月收入)放入 上面的 Dependent List 中,并将作为自变量的变量(是否有兄弟姐妹)放人对话框下面 的 Independent List 中。然后,点开对话框右下角的 Options 按钮,出现对话框。从 左边的方框中选择所需要的统计量到右边方框中, 同时在对话框下端的 Statistics for First Layer 中选择 Anova table and eta 打勾,然后点击 Continue,返回,再点击 OK30即可得到下列形式的子总体平均值比较以及检验结果。 (2)通过 One-Way ANOVA(单因方差分析)命令进行 进入数据表格后,点击 Analyse 按钮,从菜单中选择 Compare Means,再从拉开的 菜单中选择 One-Way ANOVA,即可打开对话框。在对话框中选择作为因变量的变量(月收 入)放入上面的 Dependent List 中,并将作为自变量的变量(是否有兄弟姐妹)放入对话 框下面的 Factor 中。然后,点击对话框右下角的 Options 按钮,出现对话框。从中选 择所需要的统计量,然后点击 Continue,返回,再点击 OK 即可得到下列形式的子总体 平均值比较与检验结果。小结:本讲主要介绍了单变量的频数分布和频率分布统计指标、单变量的集中趋势 分析统计指标、 单变量离散趋势分析统计指标等的计算方法以及单变量的推论统计分析 方法。要求掌握相关的公式和推论统计分析的程序。思考题: 1.集中趋势分析指标和离散趋势指标各自的功用是什么? 2.请归纳,哪些相关系数具有消减误差比例意义?同时, 必须强调如下几点。 首先, 各种相关测量的方法, 目的是理解两个变量在 “样 本”中相关程度的强弱或大小。其次,对各种相关系数所进行的相应的检验,目的是根 据随机样本的资料推论两个变量在“总体”中是否相关。它所关心的已不是样本中的结 果,而是总体中的情形。并且,它所关心的也不是相关程度的强弱或大小,而只是“是 否相关” 。第三,选择何种相关测量方法和何种检验方法,主要看两变量的测量层次, 要依据变量的测量层次来确定合适的相关测量和检验工具。31