当前位置:学员主页 -->文章
统计与概率
随着科学技术的迅猛发展,信息化时代的到来,人们常常需要收集大量的数据,根据所获得的数据提取有价值的信息,作出合理的决策。统计是研究如何合理收集、整理、描述和分析数据的学科,它可以为人们制定决策提供依据,又为人们认识客观世界提供了重要的思维模式和解决问题的方法。
当前,在统计与概率教学中存在的问题:重视繁杂的计算,忽视和淡化统计概率模型的理解、建立和应用,缺乏问题意识和数据处理能力,以教师讲实验、说实验来代替学生的实践活动,存在严重的应试倾向,等等。要想解决这些问题,数学教师要正确理解数学、概率、统计之间的关系,整体把握统计与概率基本知识脉络,正确解释基本概念的含义,树立正确的数据分析观念。
一、明确教与学的目标
1. 初步识记初中统计学与数学的联系与区别,初步识记数据分析观念的含义,初步养成用数据说话的习惯。
2. 培养以随机的观点来理解世界,形成提出问题、解决问题的能力。
3. 领会收集数据的方法:调查与实验。
4. 领会统计表及其制作方法,并能够利用条形图、折线图、扇形图、直方图等描述数据,利用平均数、加权平均数、方差、标准差等分析数据。
5. 正确理解概率的意义,并能够用多种方法计算概率;
6. 学会实验和调查设计,并能够解决实际问题。
二、正确选择教与学的方式方法
1 .恰当使用信息技术,激发学生的学习兴趣,突出统计量的统计意义。对于统计的教与学,必须强调统计基本思想和方法的认识和理解,而不能把统计作为计算统计量的学习。
2. 突出过程。以统计过程为线索处理统计与概率的内容。统计学的主要任务是,研究如何以有效的方式收集和处理受随机性影响的数据,通过分析数据对所考察的问题做出推断和预测,从而为决策和行动提供依据和建议。统计是一个包括数据的收集、整理、描述和分析(包括概率)的完整过程。
3 .强调活动。通过活动体验统计的思想,建立统计的观念。统计与生活实际是密切联系的,在收集数据、处理数据以及利用数据进行预测、推断和决策的过程中包含着大量的活动,完成这些活动需要正确的统计思想观念的指导。
4 .循序渐进、螺旋上升式安排内容。
三、准确理解数学、概率、统计之间的关系
统计是数据分析的科学和艺术。 统计学与数学在许多方面存在差异、合而不同。 相对数学的科学性来说,统计学既是科学也是艺术。
(一)研究问题的出发点不同
数学研究的对象是从现实生活中抽象出来的数和图形。数学研究问题必须有定义,即数学研究问题的出发点是定义,没有定义无法进行数学的研究,比如,对数进行运算,必须对加法进行定义,加法是定义出来的,然后逐步扩充到更广泛的领域。数学论证的出发点是公理,比如,任意两个不同的数之间总能插进去一个数,这是连续性公理;两点之间直线最短等。另外,数学研究必须遵循大家认可的一些规则,比如,三段论、数学归纳法、反证法等。而统计与数学不同,它的出发点不是定义,也不是公理,甚至不是规则,而是数据,因此有人有称其为数据分析。统计研究所依赖的是模型,构建一些模型的基础上进行研究。但是,统计与数学有着密切的联系,我们拿来数学的很多知识、思想方法作为统计分析的工具。
(二)研究问题的立论基础不同
从数量和数量关系这个角度考虑,数学是建立在概念和符号的基础上的。为了研究数量,先从数量中抽象出自然数以及自然数的运算法则,根据运算的需要逐渐进行数的扩充:自然数与加法,整数与减法,有理数与除法,实数与极限;为了研究数量关系,定义了方程、函数、导数、微分、积分、微分方程。对数学的抽象过程的讨论我们知道,一个好的概念的形成和一个好的符号表达对于数学的发展是至关重要的。而统计学是建立在数据和模型的基础上,虽然概念和符号对于统计学的发展也是重要的,但是统计学在本质上是通过数据和模型进行推断的。
(三)研究问题的方法不同
与概念和符号相对应,数学的推理依赖的是公理和假设,虽然这些公理和假设可能是来源于人们的经验和直观;数学的推理过程在本质上是演绎法,是一个从一般到特殊的方法,而统计学的推断依赖的是数据和数据产生的背景,强调根据背景寻找合适的推断方法;统计学的推断过程在本质上是归纳法,这是一个从部分推断全体的方法,是一个从特殊到一般的方法。
(四)研究问题的判断原则不同
数学在本质上是确定性的,它对结果的判断标准是对与错,从这个意义上说,数学是一门科学,而统计学是通过数据来推断数据产生的背景,即便是同样的数据,也允许人们根据自己的理解提出不同的推断方法,给出不同的推断结果,我们很难说哪种方法方法是对的哪种方法是错的。因此,统计学对结果的判断标准是好与坏,从这个意义上说,统计学不仅是一门科学,也是一门艺术,因为艺术允许&仁者见仁,智者见智&。
下面我们通过一个案例来阐述统计学与数学的不同:
例 1 假设:在一所小学,对于香港的男演员,学生们不是喜欢成龙就是喜欢周星驰。首先建立关系式 ,其中 表示学生, 表示学生喜欢的演员。为了方便起见,用 1表示周星驰,用 2表示成龙。
如果我们知道,这所小学 1~ 3年级的学生喜欢周星驰, 4~ 6年级的学生喜欢成龙,那么,就构成了一个函数关系
学生是三年级以下的,即 ,则函数值对应于周星驰,即 ;学生是四年级以上的,即 ,则函数值对应于成龙,即 。
如果我们知道,这所小学的学生有 喜欢周星驰,有 喜欢成龙,则构成了概率关系。令 表示事件&学生喜欢周星驰&, 表示事件&学生喜欢成龙&,那么对于一名随机抽查到的学生,这名学生喜欢周星驰和成龙的概率分别为 和 。
也就是说:函数给定一个 只能取一个值;而概率给定一个 可能取两个值 1或 2,只是取 1或 2的可能性不同而已。
如果我们除了前面假想的背景,即&该所小学的学生们不是喜欢成龙就是喜欢周星驰&以外没有其他信息,希望通过调查数据来估计学生喜欢两位演员的分布,则是统计关系。令学生喜欢周星驰的概率为 ,我们通过调查来估计这个概率。调查了 名学生,其中有 名学生喜欢周星驰,于是我们就用 来估计 ;这时学生喜欢喜欢成龙的概率就是 ,用 来估计,这实际上是最大似然估计。当然,我们还可以更仔细地来估计学生喜欢两位演员的分布,比如,分别调查每个年级学生的情况,或者分别调查男生女生的情况,等等。
从这个案例可以进一步看到,数学(甚至包括概率)更侧重研究确定性的问题,而统计学则更侧重研究不确定的问题。
四、统计与概率知识脉络的整体把握
(一)统计学简介
统计学,《大不列颠百科全书》定义为&关于收集和分析数据的科学和艺术。&
一般统计学产生于国家管理中各种数据的处理。比如国民收入、各种税收等等都需要分析研究。为了直观,人们发明各种报表,以及直方图、扇形图等等。 并通过图表形式对所搜集的数据进行加工处理, 借以描述客观现象所呈现的规律性数量特征。
这种传统意义的统计学描述统计学 ( descriptive statistics)。 现在小学统计教学中, 首先接触的就是画各种统计图。
这样的统计学, 还没有和随机性现象联系起来。大约在 14 世纪以后, 人们开始关注数据的来源。例如国民收入, 是一户不漏地统计出来的, 还是抽一部分地区的国民收入推断出来的呢?如果是从部分地区推断出来的,就涉及&由部分推断整体&的问题。若问推断是否准确?准确到什么程度?由于部分的资料不完备, 推断的***就是不是确定的。 这样一来,统计学就成为一种&不确定&的随机现象了。
再如,航海保险业为了合理地确定保险金与赔偿金,需要了解不同季节、不同路线航海出现事故的可能性的大小。比如根据过去的资料, 知道台风季节航行事故多, 于是推断出今后凡在台风季节航行的船只,保险费就要高。这是从&过去的资料推断今后&,推断是否合理, 又是不确定的现象了。值得注意的是, 过去的资料也只是&部分&,广义地看, 仍然是从部分推断总体。
这两个例子, 都涉及如何根据样本数据去推断总体的数量特征。 这样的统计学称为 推断统计学。用数学解释和证明推断统计原理、方法的学问,我们称为数理统计学,它是数学的一个分支。数理统计学是以概率为基础,对统计数据数量关系的模式加以解释,对统计原理和方法给予数学的证明。它与应用统计学构成统计学的全部。
初中数学中&统计与概率&的学习领域,除了一部分描述统计学的内容之外,还要学习运用概率观念的推断统计学。显然,由部分推断总体是一种不完全的归纳,结论不能完全确定。由于初中数学中的其他数学内容都是研究确定性现象的,所以学习起来有一些困难。
更进一步,由于可以用各种方法对样本的数据进行归纳整理、分析判断,因此,得到的结论也可能是不同的。我们很难说哪一种方法是对的,哪一种方法是错的,我们只能说,为了能够更客观地反映实际背景, 哪种方法要更好一些。比如,我们希望知道某公司员工的收入情况,可以用平均数也可以用中位数,很难说哪个方法对哪个方法错。事实上,如果收入比较均衡,用平均数要好一些;如果收入比较极端,用中位数要好一些。统计学关心更多的是好与不好,而小学传统数学关心更多的是对与错。这是学习概率统计内容的又一个困难。
(二)数理统计方法的基本步骤
用数理统计方法解决一个实际问题,一般有如下几个步骤 :建立数学模型 ,收集整理数据,进行统计推断、预测和决策。当然,这些环节不能截然分开,也不一定按上述次序,有时是互相交错的。
( 1 )模型的选择和建立。在数理统计学中,模型是指关于所研究总体的某种假定,一般是给总体分布规定一定的类型。建立模型要依据概率的知识、所研究问题的专业知识、以往的经验以及从总体中抽取的样本(数据)。比如, 我们知道, 同年龄儿童的身高, 总是两头小、中间大, 即特高和特矮的人数少。
( 2 )数据的收集 。其方法主要包括全面观测、抽样观测和安排特定的实验 3 种方式。全面观测又称普查,即对总体中每个个体都加以观测,测定所需要的指标。抽样观测又称抽查,是指从总体中抽取一部分,测定其有关的指标值。这方面的研究内容构成数理统计的一个分支学科。叫抽样调查。
比如,希望知道学生的身高,先验知识是&年龄之间差别很大&。因此,最好是根据年龄段学生数的多少按比例抽取样本,我们称这种方法为&分层抽样&。希望知道学生喜欢的歌手,年龄之间差别可能不大,就要采取&随机抽样&。当然,也可以用&分层抽样&,但是要麻烦得多。
( 3 )安排特定实验以收集数据,这些特定的实验要有代表性,并使所得数据便于进行分析。这里面所包含的数学问题,构成数理统计学的又一分支学科,即实验设计的内容。
( 4 )数据整理。目的是把包含在数据中的有用信息提取出来。一种形式是制定适当的图表 ,如散点图,以反映隐含在数据中的粗略的规律性或一般趋势。另一种形式是计算若干数字特征,以刻画样本某些方面的性质,如样本均值、样本方差等简单描述性统计量。
( 5 )统计推断。指根据总体模型以及由总体中抽出的样本,做出有关总体分布的某种论断。数据的收集和整理是进行统计推断的必要准备,统计推断是数理统计学的主要任务。
( 6 )统计预测。统计预测的对象,是随机变量在未来某个时刻所取的值,或设想在某种条件下对该变量进行观测时将取的值。
例如,预测一种新产品在未来 3 年内的市场销售量;预测某位 10 岁男孩在 3 年后的身高、体重等等。
( 7 )统计决策。依据所做的统计推断或预测,并考虑到行动的后果(以经济损失的形式表示)而制定的一种行动方案。目的是使损失尽可能小,或反过来说,使收益尽可能大 。以下的第五节, 将讨论风险决策。
(三)统计与概率知识脉络图
初中统计与概率的课程内容包含统计学、概率论两方面的内容,其宗旨在于,在小学体验和理解统计初步的基础上,主动地投入到数据统计的全过程,并在此过程中,使用统计与概率的特有语言进行交流,进行简单推理。其主要内容包括:
描述统计的进一步扩展 ---- 描述统计的基本目标在于以最简单而直观的形式最大限度地容纳有用的数据。学生应理解平均数、中数、众数、极差、方差、标准差、频率分布等统计量,以便更好地整理、分析和展示数据。
渗透数理统计思想 ---- 数理统计与描述统计的根本区别在于总体与样本概念的引入,它的基本思想是通过对样本的分析来推断总体的特性。数理统计的引入使得统计有了随机的思想,统计数字有了概率的分析,它提供了&从数据进行推断&的普遍适用且强有力的思想方式。这部分的一个核心的内容是抽样,如何抽样、抽样的过程、样本的多少是收集数据的一个关键问题。
学习概率的初步内容 ----- 包括运用列表、画树状图、制作面积模型、简单计算等方法得到一些事件发生的概率;通过实验,获得事件发生的频率;知道大量重复实验时频率可作为事件发生概率的估计值;通过大量丰富的实例,进一步丰富对概率的认识,并能解决一些实际的问题。
就初中统计与概率的数学内容来说,主要包含图 3.1-1 、图 3.1-2 所示的框架:
五、正确 把握或理解统计与概率基本概念的涵义
普查: 为了一定的目的而对考察对象进行的全面调查 ,称为普查 .
总体: 所考察对象的全体称为总体。
个体: 组成总体的每一个考察对象称为个体。
抽样调查: 从总体中抽取部分个体进行调查,这种调查称为抽样调查。
样本: 从总体中抽取部分个体叫做总体的一个样本。
样本容量: 样本中个体的数量叫样本容量。
(一)随机事件和样本空间
在自然界和人类社会中存在两类不同现象,一类是确定性现象,即一定条件实现就必然发生的现象。例如,&在大气压等于 l Pa时,水加热到 100℃,必然会沸腾 &; & 在自然状态下地面上抛出去一块石头,必定会落下来&等等。另一类现象是非确定性现象,即在一定条件实现后,可能产生也可能不产生的现象,人们称之为随机现象。例如,掷一枚硬币,是出现正面还是反面,其结果事先是不确定的;在数据测量方面也存在随机现象,如用一种测量工具测量某一物体的重量或长度宽度,每次测量的结果都略有差异;在射击方面,射击手用***射击一个目标,能否击中目标事先是无法确定的;在经济学方面,未来市场的商品价格也不能确定;在生物学方面,某生物群体的增长、扩散、迁移也具不确定性;在医学方面,同样一种药,对同一疾病的不同患者,疗效也是不一样的。概率论是寻求随机现象发生的可能性大小给出度量方式及其算法。尽管随机现象在一次观察中其结果不可把握,但在作出大量重复观察或试验时,又会呈现出一定的统计规律性。
具备以下三个特点的试验称为随机试验:
(1) 可在相同条件下重复进行;
〔 2)每次试验可出现不同的结果,最终出现哪种结果,试验之前不能确定;
(3) 事先知道试验可能出现的全部结果。
例 2 下面给出的是随机试验 :
A 1 :掷一颗均匀对称的骰子,观察出现的点数;
A 2 :记录一段时间内,某城市 110报警次数;
A 3 :从含有三件次品 a 1 . a 2 . a 3和三件正品 b 1 . b2 . b 3的六件产品中,任取二件,观察出现正品、次品的情况;
A 4 :向坐标平面区域 D:x 2+y 2 &100内随机投掷一点 M(假设点 M必落在 D上),观察落点 M的坐标。
1 .随机事件
随机试验的每一个可能的结果称为一个随机事件,简称事件,一般用 A、 B、 C等表示。事件是概率论中最基本的概念,能将所关心的事件正确地表示出来是学习概率论的最基本的要求。事件又分为基本事件和复合事件。基本事件是指不能再***的事件,例如,掷一颗骰子, {出现点数为 1}、 {出现点数为 2}、 &&&&&&、 {出现点数为 6}都是基本事件。复合事件是指由若干基本事件组成的事件,例如,掷一颗骰子, {出现奇数点 }、 {出现偶数点 }。但应注意,把事件区分为基本事件与复合事件是相对具体试验的考察目的而言的,不可绝对化。在两位赌徒掷一颗骰子,以出现奇数点还是出现偶数点决定输赢的场合下, {出现奇数点 }、 {出现偶数点 }都是基本事件。这里需要强调的是:随机事件是和重复试验紧密相连的,并非所有不确定的结果都是随机事件。要注意以下两种误区:
第一,把目前尚不知道结论是否正确的命题当成了随机事件。
例如,哥德巴赫猜想是否成立、火星上是否有生命等。显然,这些命题或结果没有任何随机性,它是完全确定的。只是人们至今尚未知道其结论而已。特别地,在数学中,凡是未被证明或否定的猜想都是这种命题,它们没有任何随机性,更不是随机事件。
第二,把和重复试验无关的不确定结果当成了随机事件。
有些事情 : 比如美国的总统选举。虽然选举前不能确定它的结果。但它不满足可重复性。 所以它不是数学中所指的随机现象。因此也不存在&概率&的问题。如果有四人预测美国的选举结果 :
甲说:&布什有 95%的可能当选。&
乙说:&布什有 50%的可能当选。&
丙说:&布什有 5%的可能当选。&
丁说:&布什肯定不会当选。&
若结果是布什当选了。上面仅有丁一人说错。若布什没有当选。上面四人全没有错。由于美国的选举不可重复。实际上 , 前面三人说的话是不可验证的 ,它只是反映了说话人的主观态度及认识。再 如,恐怖分子头目本拉登是否还活着、小王是否生病了等等, 在概率论中也是无意义的。
对上述两类问题,人们有时在言谈中也会谈到其发生的&可能性&。例如,人们会说:&我看十有八九本拉登已经死了&、&我猜火星上有生命的可能性不到万分之一&等等。但这只是一种猜测,和重复试验无关。这样一种猜测我们称为&主观概率&。它反映的是人们主观的想法或愿望。其结论正确与否依赖于该人对所谈事物了解的程度、依赖于该人的经验和学识。研究主观概率并非没有意义。这种判断在人们的生活工作中确实大量存在,特别是,在许多决策问题中。在这种主观猜测或判断中,经验起着重要的作用,但它和重复试验无关。一般来说,每个人的经验和看法并不相同,主观概率的大小因人而异。它不是概率论研究的内容。目前在统计中有一个强大的学派:贝叶斯学派,这一学派的理论是依赖主观概率的。希望老师在讲随机事件时,所举的例子一定要和重复试验紧密相连。强调相同条件下的试验。(当然在现实生活中,条件不可能绝对相同。)
2 .样本空间
为了用数学方法描述随机现象,需要引入样本空间的概念。
一个随机试验 E产生的所有基本事件构成的集合称为样本空间,记为 &O。称其中的元素 (基本事件 )为一个样本点,记为 &,即 &O= {&}。由于任何一个事件 A或是基本事件,或是由基本事件织成的复合事件,故任何一个事件 A都是样本空间中的一个子集。因此由样本空间的子集可描述随机试验中所对应的一切随机事件。
(二) 数据的收集、整理、描述和分析
1 .数据的收集
在现实生活与实践活动中,数据历来是一种重要的信息,尤其科学技术突飞猛进的今天,为了更好地理解世界,人们必须学会处理各种信息,特别是数字信息。收集、表示、整理与分析信息的能力已成为信息时代每一个公民基本素养的重要组成部分。数据有两种,一种是在现实生活中原来就有的数据;另一种是人们通过试验设计获得的数据。与此对应的数据收集方法有两种:调查和实验。在现实生活中原来就有的数据,人们通过调查获得,例如,普查,即为一特定目的而对所有考察对象的全面调查;抽样调查,即为一特定目的而对部分考察对象作调查。
初中阶段介绍的 三种 常用抽样方法是:随机抽样法、分层抽样法和系统抽样法。 表 3-1针对这三种方法的特点作了简单的比较。
在这部分内容的教学中,应该注意培养学生的随机思想,例如,解决统计问题的第一个步骤是收集数据,我们有不同的方法来收集数据,无论是随机抽样,还是分层抽样,等等,都渗透着随机的思想。由于样本的随机性,统计的结果可能会犯错误。随机思想是理解统计问题的一个基本思想。
在具体的教学中,应通过具体例子,让学生认识到,尽管结果可能犯错误,但统计的推断还是有意义的。作为教师应该清楚,样本随机性产生的误差是可以估计的。也可以估计由此犯错误的概率。这和样本抽取不当以及故意制造误导产生的错误是完全不同的。随机抽样能使得样本中不同的百分比和总体中的百分比近似相同。换句话说,随机抽样的样本能很好地反映总体的状况。如果不把这一点说清楚,只单纯地介绍三种抽样的具体操作方法就讲偏了。
我们关注三种抽样方法的差别和不同的适用范围。例如,系统抽样通常比简单随机抽样简单,在田野上考察害虫的个数,通常就是从任意一个地点出发,每隔相同的距离测量害虫的个数。但如果考察马路上的车流量,每隔几天记录一次,若选择不当,例如,每七天测一次,恰选在了星期日。就会造成错误的结果。同样在分层抽样中,如果分的不当,同一组内个体相差太大,结果也会有偏差。在给学生讲授时,应讲清这些,而不是单纯地讲方法。从统计上说,理解这些比方法本身更重要。
表 3-1 三种抽样方法的比较
简单随机抽样
抽样过程中每个个体被抽取的概率相等
从总体中逐个抽取
总体中的个体数较少
将总体均分成几部分,按事先确定的规则在各部分抽取
在起始部分抽样时采用简单随机抽样
总体中的个体数较多
将总体分成几层,分层进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
作为教师应该清楚不同的抽样方法得到的是不同的数学模型(样本的分布不同)。在数学上处理起来有难易的差别。最常用的假定是:样本是独立同分布的 (粗略地说 ,独立是指每次抽样和前面的抽取无关,不能因为这次抽到一个男孩身高较高,下次就故意去找一个身材较矮的。同分布是指,若第一次抽到一米九以上的可能性是千分之一,那末第二次抽到一米九以上的可能性也是千分之一,等等 )。即假定抽样是有放回的,这是实际问题的一个近似。
还应该让学生关注的是:实际问题中的样本是否是随机的。例如,一些心理学实验是由志愿人员完成的,可能缺乏代表性。一些数据只来自某个学校或某个医院,并非随机抽样等等。作为基础教育让学生认识到,由于缺乏随机性 ,报刊杂志等提供的数据以及由此产生的结论可能产生误导。
教学时要注意引导学生学习抽样的方法。在统计与概率这部分的内容里,有很重要的一个成分就是抽样,虽然课本上讲到普查与抽样调查这两种数据的收集方式,还应该教给学生们以抽样的方法,在对某件事进行调查时,你是用什么方法去收集数据的,在无法收集到所有的数据时,只能利用抽样去获得数据。但是教科书上大都是直接给出数据,叫学生利用现成数据进行分析,这个不利于学生应用数学知识解决实际问题。
2 .数据的整理和分析
前面我们讲述了收集数据的方法,了解了提高数据的代表性的一些具体方法。由于抽取到的 数据是杂乱无章的,人们往往无法直接从原始数据中理解它们的含义并且寻找所包含的有价值的信息,必须 对数据进行整理,如画统计图、表、计算来分析数据,研究数据中的规律,使数据所包含的信息转化为直观的易于理解的形式,并对总体作出相应的估计。在初中阶段,作为教师必须深入理解两种估计方法,一种是用样本的频率分布来估计总体的分布,另一种是用样本的集中趋势(平均数、中位数、众数)和离散程度(极差、方差、标准差)来估计总体的集中程度和离散程度。
频数和频率
我们称每个对象出现的次数为频数,也称次数。在一组依大小顺序排列的测量值中,当按一定的组距将其分组时出现在各组内的测量值的数目,即落在各类别(分组)中的数据个数。如,有一组测量数据,数据的总个数 N=148 最小的测量值 x min=0.03 ,最大的测量值 x max=31.67 ,按组距为 △ x=3.000 将 148 个数据分为 11 组,其中分布在 15.05 ~ 18.05 范围内的数据有 26 个,则称该数据组的频数为 26 。
一般我们称落在不同小组中的数据个数为该组的频数,频数与总数的比为频率,即每一个对象出现的次数与总次数的比值,用来反映每个对象出现的频繁程度。如在 3.79324 中,数字 9 出现的频数是 3 ,出现的频率是
频数也称&次数&,对总数据按某种标准进行分组,统计出各个组内含个体的个数。而频率则每个小组的频数与数据总数的比值。
例如,我们经常掷硬币,在掷了 100 次后,硬币有 40 次正面朝上,那么,硬币反面朝上的频数为 ____ 。
在这里,掷了硬币 100 次, 40 次朝上,则有 100-40=60 (次)反面朝上,因而,硬币反面朝上的频数为 60.
数据的集中趋势
数据的集中趋势( central tendency )在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值,低层数据的集中趋势测度值适用于高层次的测量数据,能够揭示总体中众多个观察值所围绕与集中的中心,反之,高层次数据的集中趋势测度值并不适用于低层次的测量数据。
反映数据集中趋势的度量包括平均数、中位数、众数等。
所谓平均数,是指一组数据的平均数就是用这组数据的总和除以这组数据的总个数得到的值。 例如, l, 3, 6, 10, 20这 5个数的平均数是 8,即这几个数的算术平均数是 8。
所谓中位数,是指 一组数据的中位数就是将这组数据从小到达排列后,位于正中间的数(或中间两个数的平均数)。 例如, l, 3, 6, 10, 20这 5个数的中位数就是 6,而 l, 3, 6, 8, 10, 20,这 6个数的中位数就是 6与 8的平均数 7。
所谓众数,是指 一组数据的众数就是这组数据中出现频数最多的数。
平均数、中位数和众数的联系与区别
从不同角度描述了一组数据的集中趋势。
计算平均数时,所有数据都参加运算,它能充分利用数据
所提供的信息,但容易受极端值的影响。它应用最为广泛。
中位数的优点是计算简单,只与其在数据中的位置有关。
但不能充分利用所有的数据信息。
众数只与其在数据中重复的次数有关,而且往往不是唯一
的。 但不能充分利用所有的数据信息,而且当各个数据的重
复次数大致相等时,众数往往没有特别的意义。
在初中数学教学中,有些教师经常把平均数的知识当作一种典型应用题来教学,即在教学中,教师比较重视于给出若干个数据,要求学生计算出它们的平均数,并且把数据的复杂程度和学生的计算速度及正确率作为教学的重点。但是,从数学与现实问题的联系、解决问题的作用来看,教学中更应该强调学生对平均数的意义、特征的把握,注重其统计含义的理解,让学生在新的问题情境中,正确地运用它去解决问题。也就是说,要求学生正确地计算出平均数的基础上,把理解平均数的意义作为教学的重点,紧密联系实际,使学生体会到为什么要学习平均数,充分引导学生理解&平均数&概念所蕴涵的丰富、深刻的统计与概率的背景,让学生在实践应用中,去把握平均数的特征,理解平均数的意义。
平均数反应的是这组数据中各数据的平均大小;中位数、众数是描述一组数据的集中趋势的两个统计特征量,它们都是帮助学生学会用数据说话的基本概念。 平均数是最常用的指标。但在实际问题中,不能一味的使用平均数来确定数据的特征。
平均数、中位数和众数从不同侧面给我们提供一组数据的面貌特征。各有其长,也各有其短。 平均数的计算过程中用到了一组数据中的每一个数,因此比中位数和众数更灵敏, 能充分利用 了更多数据的信息 ,在生活中较为常用,但它容易受极端数字的影响,且计算较繁。
中位数的优点是计算简单, 不容易受到极端值的影响,确定了中位数之后,可以知道小于中位数的数值和大于中位数的数值在这组数据中各占一半, 但不能充分利用所有数字的信息。众数的可靠性较差,它不受极端数据的影响, 很容易从直方图中获得, 求法简便。当一组数据中个别数据变动较大时,适宜选择众数来表示这组数据的&集中趋势&,但是 不能反映众数比其他数出现的次数多多少,而且也丢失了很多其他数据的信息。 众数是一组数据中出现次数最多的数据,是一组数据中的原数据,而不是相应的次数,一组数据中的众数有时不只一个,这些是很容易混淆的。
平均数、众数及中位数都是描述一组数据的集中趋势的特征数,但描述的角度和适用范围有所不同,平均数的大小与一组数据里的每个数据均有关系,其中任何数据的变动都会相应引起平均数的变动;众数着眼于对各数据出现的频数的考察,其大小只与这组数据中的部分数据有关。当一组数据中有不少数据多次重复出现时,其众数往往是我们关心的一种统计量;中位数则仅与数据的排列位置有关,某些数据的变动对它的中位数没有影响。当一组数据中的个别数据变动较大时,可用它来描述其集中趋势。
数据的离散程度
极差 是指一组数据中的最大值减去最小值所得的差。它可以反映一组数据的变化范围。
方差 是指一组数据中的平均数与每一个数据之差的平方和的平均数。计算公式为:
样本数据的方差和标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。 例 4 某校初三年级甲、乙两班举行电脑汉字输入速度比赛,两个班参加比赛的学生每分钟输入汉字的个数,经统计和计算后结果如下表所示:
有一位同学根据上表得出如下结论:
① 甲、乙两班学生的平均水平相同;
② 乙班优秀的人数比甲班优秀的人数多(每分钟输入汉字达 150 个以上为优秀);
③ 甲班学生比赛成绩的波动比乙班学生比赛成绩的波动大.
上述结论正确的是 ________ (填序号).
解: 填 ① 、 ② 、 ③ ,显然 ① 、 ③ 是正确的. 对于第 ② 个结论,因为甲的中位数为 149 ,表明甲班优秀人数未过半,而乙的中位数为 151 ,表明乙班优秀人数在半数以上,故乙班优秀的人数比甲班优秀人数多, ② 正确。
加权平均数的概念
加权平均数是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算,即 一组数据的每个数乘以它的权重后所得积的总和。
例 5 你的小测验成绩是 80分,期末考成绩是 90分,老师要计算总的平均成绩,就按照小测验 40%、期末成绩 60%的比例来算,所以你的平均成绩是:
80&40%+90&60% = 86。
比如,在一些体育比赛项目中,也要用到权重的思想。比如在跳水比赛中,每个运动员除完成规定动作外,还要完成一定数量的自选动作,而自选动作的难度是不同的,两位选手由于所选动作的难度系数不同,尽管完成各自动作的质量相同,但得分也是不相同的,难度系数大的运动员得分应该高些,难度系数实际上起着权重的作用。
我们通常所说的平均数称之为 算术平均数,是加权平均数的一种特殊情况,加权平均数包含算术平均数,当加权平均数中的权相等时,就是算术平均数。
统计图表及其制作
统计表不仅反映某一类事物的具体数据,而且还能说明有关数据之间的关系,是初步统计基础知识的起始课,它既不同于计算、应用题等教学, 是实践性很强,应用极广泛的内容,而且是下阶段制作统计图的依据 ,因而在统计表 教学 过程 中 必须 克服重计算 和 应用题解答,轻统计表的倾向 ,使学生 经历数据表格化的过程,掌握描述、分析数据的数学方法 , 了解统计表的基本结构及其作用 , 通过统计表所展示的数据之间的关系获得信息,进行简单的推断预测,体验&运用数据进行推断&的思维方式 。
例 6 某个旅游团对来自某地团队游客的年龄进行调查的结果如下:
50 57 46 46 48 63 58 46 57 50 51 58 59 52 52 62 62 53 54 68 69 61
61 52 53 62 63 47 56 56 40 42 57 49 58 52 52 59 55 59 66 54 51
请您制作一个统计表。
解:此题提问本身有问题,依据具体要解决问题的需要有多种不同的制作统计表方法,比如,若你要关心的是数据的集中趋势,则
而统计图是借助于几何线、形 (线段、长方形、三角形、圆形等 )以及事物的形象等形式,显示收集到的数据信息,直观地反映其规模、水平、构成、相互关系、发展变化趋势和分布状况,即是根据统计数据所绘制的图形。用统计图形呈现统计资料的方法,称之为统计图示法。但初中阶段的教学,教师掌握以下几种统计图制作即可。
条形图是以简单的几何图形,即等宽条形的长短或高低来比较数据所隐含信息的统计图示法。在统计图中,条形图是一种呈现收集数据所隐含信息最为广泛的方法,所表示的数据可以是绝对数、相对数和平均数。
条形图主要用于同类指标在单位、地区、时间等不同观察指标上的比较,反映事物现象及其内部的结构在观察指标上的变化,也可以进行目标与实际完成程度的对比,还可以利用条形图形式表示竞赛、评比的结果等。所以,条形图具有表现形式明确、鲜明醒目、易于阅览,绘制简便、易于掌握,易于和其他图形配合,效果突出等特点。条形图的分类方法很多,作为教师必须了解,比如,按其排列形式的不同可分为纵列条形图(垂直条形图或柱式图)和横排条形图(水平条形图或带式条形图);按条形图的形式和资料内容的不同可以分为单式条形图、复式条形图、分段条形图 (结构条形图 )、对称条形图、距限条形图、累积条形图等。
例 7 某同学十一休假期间,根据 2008年本省内五个城市商品房销售均价(即销售平均价)的数据,绘制了如下统计图:
例 8 某校对张、王、李三位年轻教师从专业知识、工作经验、仪表形象三个维度进行考核,每一个指标满分 20分,最后的打分制成条形统计图 (如图 3-4所示 )。
直方图有两种,频数直方图和频率直方图。若纵坐标是频数,以组距为底,对应频数为高的矩形组成的直方图为频数直方图;若纵坐标是频率 /组距,以组距为底,对应频率 /组距为高的矩形则组成频率直方图。
例 9 以上面案例的数据为例画出其频数直方图和频率直方图。
频数直方图与频率直方图既有联系,又有区别。在画这两个图形时, 小矩形的底都是组距。尽管它们的高分别是组频数和组频率 /组距 (而不是组频率 ),但它们从画出的轮廓形状来看是一样的。
用圆和扇形分别表示关于总体和各个组成部分数据的统计图叫做 扇形统计图。扇形图能直观地、生动地反映各部分在总体中所占的比例。
绘制扇形统计图的步骤:计算各部分数量占总数量的百分之几;计算各部分数量的扇形圆心角的度数;按照算出的圆心角的度数,在圆里画出各个扇形;在各个扇形内写上名称和百分数,并用不同颜色或条纹区别开。
扇形统计图具有四个特点: 一是利用圆和扇形来表示总体和部分的关系,二是圆代表总体,各个扇形分别表示总体中不同的部分;三是扇形的大小反映部分占总体的百分比的大小,四是各个扇形所占的百分比之和为 1;最后,在不同的统计图中,不能简单地根据百分比的大小来比较部分量的大小。
折线统计图
折线统计图的制图原理与条形统计图是一样的, 都是用一个单位长度表示一定的数量,根据数量的多少描出各点,然后把各点用线段顺次连接起来,折线统计图不但可以表示出数量的多少,还能够清楚地表示出数量的增减变化情况, 并且可以进行简单的预测。条形统计图是用直条的长度表示数量的大小,而折线统计图是用点的位置的高低来表示数量的大小。
折线统计图可分为单式 折线图 或复式 折线图 。 复式折线统计图就是在同一个坐标图上用 2条或 2条以上的折线来表示不同事物的发展变化,其特点就是不仅能看出各事物的变化趋势,而且能将其加以对比,但 画复式折线图时,要用不同颜色或形状的线条区别开来。在教学过程中,使学生 把握折线统计图的范围和结构,能选择合适的刻度,根据统计图表,合理确定横轴、纵轴上的数据位置,掌握绘制单式折线统计图的方法。
例 11 中国第 23至 29届奥运会奖牌统计图(如图 3-7所示)。
作为初中数学教师,熟练掌握以上几种统计图的绘制方法以外,还要了解其它统计图,比如,茎叶图、点线图等。
总之,在实际教学过程中,教师要准备很多以问题背景或学生有关的 , 有利于学生学习 , 如班级选举、学生家庭人口、考试成绩等案例, 或者 涉及到历史、经济、体育、环境、媒体、博采等案例,突出有关概念、公式和图表所蕴涵的统计与概率意义 , 使学生掌握整理 杂乱无章的数据的方法,感受抽样的必要性,能指出总体、个体、样本,体会不同的抽样会有不同的结果,体会用样本估计总体的思想,能用样本的平均数、方差来估计总体的平均数和方差,对统计结果做出合理的推断和预测,体会统计对决策的作用,能够查找资料以获得数据信息,对日常数据发表看法,从作好的样本发展关于总体特征的推测,通过模拟,找出数据的差异。 决不应该简单地处理为知识的灌输, 切忌强化各种专业性术语和单纯的技巧型学习, 而着重 渗透统计思想,增强统计意识,学会一定的画统计图的方法,培养简单分析数据或作出判断的能力,要注重 培养学生的随机思维模式、 素养 。 例如,平均数、众数、中位数、折线统计图、扇形统计图等 , 这些内容的教学既不能简单地作为名词和术语处理 , 也不能仅仅作为相应的代数和图形知识来处理。
要注重调查收集数据的过程中的做法同时要让学生理解不同数据整理方法和不同统计图表的特点 , 使得学生能够进行探索和交流 , 体现学生的主体地位。
(三) 随机事件的概率
统计是对随机现象统计规律归纳的研究,而概率是对随机现象统计规律演绎的研究,在解决实际问题时, 二 者是相辅相成、互相关联的。作为初中数学教师要熟练掌握 实验估计概率和分析预测概率的方法,能够借助概率模型或通过设计具体活动解释、估计、预测一些事件发生的概率,在教学过程中着重联系生活实际,突出概率的应用性和趣味性。
所谓某个随机事件的概率,实质上是指在客观世界中,这个事件发生可能性大小的一个数量刻画。若事件的概率大,我们说该事件发生的可能性大;若事件的概率小,我们说该事件发生的可能性小。也就是说用概率来衡量事件发生可能性的大小。一方面,必须承认随现象中随机事件发生的可能性大小是客观存在的,是不以人的意志为转移的,并且通过大量重复试验,人们可以逐渐认识到随机事件的这种客观的、本身所固有的规律性;另一方面,确定如何 解释、估计、预测或计算 随机事件发生可能性的大小,即求随机事件的概率。但是,依据概率定义,针对不同的概率模型 (概型 ),采取不同的解决办法。
1 .概率的定义
概率的统计定义
频率是指事件发生的次数在全部试验次数中占的比例,所以频率能够反映该事件发生的可能性大小。人们在实践过程中观察到一个事件发生的可能性的大小,不是依据一次、两次或几次试验的结果,而是依据大量重复试验的结果,试验次数越多,反映事物的情况越全面,频率之间差别也越小,客观事物的规律性也就越明显。频率在大量重复试验条件下出现了稳定的&趋势&,这种趋势和频率之间不但是数量上的差别,而且有了质上的差别。作为频率的变化趋势,它是一个不变的结果,它既有与频率有区别的一方面,又有与频率变化过程不可分开的一面。这种客观事实给予我们对事件发生的可能性的认识提供了可比较的依据。它可以作为衡量事件发生可能性大小的一个尺度,这种办法就是概率的统计定义。即一般地,在大量重复进行同一试验时,事件 A发生的频率总是趋近某个常数,在它附近摆动,这时就把这个常数叫做事件 A的概率,记作 P(A).
古典概型也可以称为等可能概型或古典型随机试验,是指 随机实验所有可能的结果是有限的,并且每个基本事件发生的概率是相同的概率模型,即 具有如下特点的概率模型 :(l)它的基本事件空间中只有有限个基本事件; (2)每个基本事件发生的可能性大小相同。设基本事件空间含有 n个基本事件,随机事件 A是由 m个不同的基本事件组成,则事件 A发生的概率的计算 基本步骤为:
( 1)算出所有基本事件的个数 n;
( 2)求出事件 A包含的所有基本事件数 m;
比如,掷一次硬币的实验,只可能出现正面或反面,由于硬币的对称性,总认为出现正面或反面的可能性是相同的;又如对有限件外形相同的产品进行抽样检验,也属于这个模型。 古典概型 是概率论中最直观和最简单的模型,许多概率运算规则是在这种模型下得到的。一个试验是否为古典概型,在于这个试验是否具有古典概型的两个特征:有限性和等可能性,只有同时具备这两个特点的概型才是古典概型。
例 13 从数字 1, 2, 3, 4, 5中任取 2个,组成没有重复数字的两位数.试求:
⑴ 这个两位数是 5的倍数的概率;
⑵ 这个两位数是偶数的概率;
⑶ 这个两位数大于 40的概率.
解:&从数字 1, 2, 3, 4, 5中任取 2个,组成没有重复数字的两位数 &,共有基本事件总数 5&4=20个.
⑴ 设事件 A为 &这个两位数是 5的倍数 &,则事件 A包含的基本事件为:个位数字是 5,共有 4个, P(A)=4/20=1/5 ;
⑵ 设事件 B为 &这个两位数是偶数 & 则事件 B包含的基本事件为:个位数字是 2或 4,共有 8个, P(A)=8/20=2/5 ;
⑶ 设事件 C为 &这个两位数大于 40& 则事件 C包含的基本事件为:个十位数字是 4或 5,也有 8个, P(A)=8/20=2/5 .
在现实生活中,我们仅仅研究那些只有有限个等可能结果的随机试验是远远不够的。比如,甲、乙两人约定在晚上 7时到 8时之间在公园门口会面,并约定先到者应等候另一个人一刻钟,这时即可离去,那么两人见面的概率是多少 ?
若对于某一随机试验,每个样本点出现的可能性是相等的,样本空间&O所含的样本点个数为无穷多个,事件 A理解为样本空间&O的某一子区域 A, A的概率只与子区域 A的几何度量(长度、面积或体积)成正比,而与 A的位置和形状无关,满足以上条件的试验称为几何概型。 一个试验是否为几何概型,在于这个试验是否具有几何概型的两个特征 :无限性和等能性。在几何概型中,事件 A的概率定义为:
表示区域 A 的几何度量,
表示基本事件空间
的几何度量。
概率的公理化定义
样本点全集 叫做必然事件,空集 叫做不可能事件。
我们两个事件 与 的至少有一发生称为两事件之和事件,记作 ,意指& 与 至少有一发生&;两个事件 与 的交记作 或 ,意指& 与 同时发生&;事件 的补 叫做 的对立事件,意指 与 必有一发生且仅有一发生。
如果 ,则称 与 为不相容事件。
如果 ,意味着 发生时 必发生,称为 蕴含 。有趣的是,事件 蕴含 ,也正是集合 包含 。
在事件空间上引入一个函数 ,也就是让每个事件 对应于一个数 ,满足三个条件:
一个样本空间 ,一个由 的子集构成的事件空间 ,以及 上的一个概率分布 ,三者放在一起, 叫做一个概率空间,而i、ii、iii 构成了概率的公理化体系。
例 14 假定 10件中有两件次品,先后抽出两件检验,而且检验后不再放回,设事件 : (正品、正品 )、事件 : (正品、次品 ) 、事件 : (次品、正品 )、 事件 : (次品、次品 ),则 4个基本事件的概率分别是:
2 .正确理解概率论的基本概念
在初中阶段,对于 统计与概率 内容,虽然各种版本教材各有特色,但是 学习的基本出发点都是相同的:用数据说话。充分体现了随机现象的理解和用数据揭示规律两大特点。
正确理解随机性与概率
( 1) 随机性和规律性 。
有许多定律,例如牛顿三定律,物质不灭定律,爱因斯坦相对论等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,一个吸烟、喝酒、不锻炼的人可能比一个很少得病、生活习惯良好的人活得长,也就是说活得长短是有一定随机性的。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。从总体来说,我国公民的预期寿命却是非常稳定的。而且女性的预期寿命也稳定地比男性高几年。这就是规律性。你可能活过这个寿命,也可能活不到这个年龄,这是随机的。但是总体来说,预期寿命的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。
( 2) 概率和机会 。
在现实生活中,人们常听到概率这个名词。比如,天气预报中提到的降水概率。如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在 0和 1之间的一个数,说明某事件发生的机会有多大。
( 3) 有些概率是无法精确推断的 。
比如,你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去。不可能有分身术把百分之八十的你放到公园,而其余的放在别处。
( 4)有些 概率是可以估计的 。
比如,掷骰子。只要没有人做手脚,你得到任何点的概率都应该是六分之一,这反映了掷骰子的规律性。但掷出骰子之后所得到的结果还只可能是六个数目之一,这体现了随机性。如果你掷 1000次骰子,那么,大约有六分之一的可能会得到 6;这也说明随机结果也具有规律,而且有可能通过试验等方法来推测其规律。我们就是要通过观测数据,在随机性中寻找用概率和数学模型描述的规律性。
为了澄清对概率的一些误解,我们思考下面一个有关出现正反面的可能性的问题:
把一枚均匀硬币掷 100次, 100次都是正面可能吗?为什么?这时掷第 101次,出现正面的可能性大,还是出现反面的可能性大?从概率的角度来看,既然已经假定硬币是均匀的,各次出现正反面彼此之间没有影响,因此掷第 101次时出现正、反面的可能性是相同的,均为 1/2。然而从统计规律的角度来看,既然前 100次都出了正面,感觉上在投掷硬币时出现正面的几率要比出现反面的几率大,换句话说,我们可能会怀疑硬币真的是均匀的吗?此时,我们根据出现的规律猜测:在第 101次出正面的可能性应该要比出反面的可能性要大。
目前在概率的教学中还有一些模糊的认识,我们学习过程中避免出现以下误区:一是把目前尚不知道结论是否正确的命题当成了随机事件。比如,哥德巴赫猜想是否成立、火星上是否有生命等。显然,这些命题或结果没有任何随机性,它是完全确定的。只是人们至今尚未知道其结论而已。特别地,在数学中,凡是未被证明或否定的猜想都是这种命题,它们没有任何随机性,更不是随机事件。二是把和重复试验无关的不确定结果当成了随机事件。比如,有人说:&我看十有八九本拉登已经死了&、&我猜火星上有生命的可能性不到万分之一&等等。但这只是一种猜测,和重复试验无关。这样一种猜测我们称为&主观概率&。它反映的是人们主观的想法或愿望。其结论正确与否依赖于该人对所谈事物了解的程度、依赖于该人的经验和学识。研究主观概率并非没有意义。这种判断在人们的生活工作中确实大量存在,特别是,在许多决策问题中。
在这种主观猜测或判断中,经验起着重要的作用,但它和重复试验无关。一般来说,每个人的经验和看法并不相同,主观概率的大小因人而异。它不是概率论研究的内容。目前在统计中有一个强大的学派:贝叶斯学派,这一学派的理论是依赖主观概率的。希望教师在随机事件教授过程中,所举的例子一定要和重复试验紧密相连,强调相同条件下的试验。
正确理解概率和频率
在初中数学中,概率的概念是通过频率来介绍的。通常称为概率的&统计&定义。事实上,这种定义只是一种描述性的说法,并不严格。因此,老师们一定不要去细究这种说法在用词上的含义。(在现代数学中,&概率&是用公理化的方式给出的,超出了我们讨论的范围。)比如,我们说,当试验次数很多时,频率会&稳定&在一个常数附近。什么叫&稳定&就是含糊的。而且这个定义有&循环定义&之嫌。当我们说,如果试验次数很多,频率偏离这个常数大的可能性很小时。这里的&可能性&就是概率。(类似地,在古典概率中的&等可能性&就是指概率相等。也是循环定义。)一方面要让学生认识到频率会&稳定&在概率附近。(这一方面老师做的比较好。)另一方面,也要认识到随机性是本质的。有的教师总认为把一个均匀色子掷 6次,就应该每个面都出现一次;把把一个均匀硬币掷 10次,就应该出现 5次正面 5次反面。事实上,把一个均匀硬币掷 10次, &10次都是正面向上 &发生的概率是 。这个事件是完全可能发生的。(平均来说,一万个人做这个试验,大概有 9个人会得到这样的结果。) 又比如,把一个均匀硬币掷 100次, &100次中恰有 50次正面向上 &的概率是 .
这个值不大。因此,不能指望在课堂上做有限次的试验,频率一定靠近概率。认识到随机性是很重要的。在课堂上做试验时,有的教师总想让频率无限靠近概率,偏差大一些就觉得不好,甚至把这样得到的数据去掉。这都是不对的,是对随机性缺乏认识的结果。
& 碰运气 &的骗局 &&随机变量与数学期望
这是国外有些游乐场里的一种***。一个笼子里装了三粒骰子。把笼子摇一摇,停下来,三粒骰子各现出一个点数。参加游戏的人每次花一元钱买票,并且认定一个点数。比如,他认准 &2&。如果有一粒段子出现 &2&,他就从游戏主持人那里赢回 1元钱。运气好一点,两粒骰子同时出现 &2&,他赢回 2元;三粒骰子都是 &2&,赢回 3元。同时,主持人还再退他 1元票钱!
这似乎是公平的游戏。如果有六个参加者分别认定不同的六个点子,而骰子摇出 &1&、 &3&、 &5&,那么主持人要向六人中的三人退还票钱,再各付 1元。认定 &2&、 &4&、 &6&的三人折赔票钱各 1元。主持人收入 6元;付出 6元。而参加者三人赢,三人输,机会均等。
但是,有时两粒骰子出现相同的点数,主持人就只退给两人票钱。于是他收入 6元而支出 5元。当三粒骰子点数一样时,主持人收入 6元而支出 4元。这么一算,多数参加者总是要赔钱!
有的参加者不这么想,他觉得自己还是有利可图的: &比如我认定 &2&,掷一个骰子时,我赢的机会是 1/6。可是现在是三粒骰子,我赢的机会是 1/6的 3倍,即 3/6= 1/2,这是公平的!何况,我还可能一次赢回 2元、 3元呢! &
怎样才能准确地算出参加者平均每次的赢得呢?
每玩一次游戏,参加者赢得的钱数 X是不确定的量,叫做 &随机变量 &。这里,按游戏规则,随机变量 X可能取 3. 2. 1或 - 1 。
如果三粒骰子都出现了他所要的点数,则他净赢 3元,即 X= 3。这种情况在 216(216= 6&6&6)个基本事件中只出现一次,故 X= 3的概率是 1/216。
在 216个基本事件中,有 15种情形恰有两粒骰子出现所要的点数。这时他净赢 2元,即 X=2的概率为 15/216。
类似地, X= 1的概率为 75/216。
最后, X= - 1 的概率为 125/216 。
如果所有情形都轮一遍,参加者的赢得为 3&1十 2&15十 1&75十 (- 1)&125=- 17,即要输掉 17元,平均每次输去 17/216元。
这个值也可以用另一方法得到。把随机变数 X取的值 3. 2. 1.- 1分别乘以取该值的概率再求和: 3&(1/216)+2&(15/216)+1&(75/216)+(- 1)&(125/216)=- 17/216
这个和叫做随机变数 X的 &数学期望 &。实际上,它也就是随机变数 X的平均值。这是以概率为权系数的加权平均值。
类似的例子.一个商店经理决定进一批羽绒服供应冬季市场。若今年冬天有寒流来袭,货将畅销,可获利 2万元;若无寒流,气温正常,可获利 1万元;若为暖冬,则将亏损 5000元。根据历年气温记录与气象预报,估计有寒流的概率为 1/6,正常的概率为 3/4,暖冬的概率为 1/12。于是,获利的数学期望为:
2&(1/6)+1&(3/4)+( - 0.5)&(1/12)= 25/24,大约为 1.04(万元 )
这表明,进一批羽绒服还是有赢利的希望的。
概率思维策略&&&中立原理&的谬误
人有旦夕祸福。一个人明天也许会死,也许不会死。两种可能性,哪种发生,是难以预料的。既然难以预料,就认为两种可能各占一半吧 !于是马上会得到一个荒谬的推论:一个人每天死去的概率是 1/2,因而,世界上每天约有一半人死去!
事实上,生与死不是硬币的正反面。一个人要活两万多天,最后在某一天死去。所以,明天死去的概率还不到 0.00005!
当人们没有充足理由肯定或否定某一事件是否会发生时,有时会认为发生与否的概率各占一半。这种想法叫做 &中立原理 &。随意应用中立原理,会推出种种错误的结论。
中立原理导致悖论的一个例子是所谓帕斯卡赌注。这位 17世纪的著名数学家说:由于不能肯定教堂的教义是真是假,就用掷硬币的办法决定它。但是,如果相信教义,教义是假的并无大的损失,教义是真的便有升入天堂的幸福。不信呢 ?教义是假的也无特殊的收获,教义是真的便有入地狱的危险。这么看,岂不是应当把赌注押在相信教义一方才最有利吗?
显然的矛盾是:世界上有几种有影响的宗教,对每种宗教都可以应用同样的推理,那么,一个人能相信每种宗教的教义吗?
中立原理的另一荒谬推论的例子是 &箱子里的立方体 &。箱子里有个立方体,看不见它。它的棱长在 2米与 4米之间,就估计为平均值,假定它是 3米。另一方面,它的体积在 8立方米与 64立方米之间,也取平均值,就是 36立方米了。但是,棱长 3米的立方体,体积怎么可能是 36立方米呢?
很多人以为 &100次出现 50次正面 &是必然的,或者说,它的概率应该很大。果真如此吗?
有人给出了一个掷均匀硬币的模拟试验,这试验相当于 100个人,每人都掷 100次均匀硬币,记录下各自掷出正面的次数如下:
这里共掷了 10000次,正面出现的次数,即上述 100个数字之和,为 4979,这表明正面出现的频率为 0.4979,可以认为硬币是均匀的。另一方面,在上述 100个数字中, 50出现了 7次。即 &掷 100次硬币,出现 50次正面 &的频率是 7/100。
我们不妨再认真来算一算。令 &为掷 100次硬币正面出现的次数,则 &服从 n=100, p=1/2的二项分布,那么 &掷 100次恰出现 50次正面 &的概率为
计算表明 &100次出现 50次正面 &的概率只有 8%左右。
大量事实表明:对于未置可否的东西,不能任意假定各种可能性机会均等。掷硬币出正反面概率都是 1/2,是因为硬币是均匀的。掷骰子出 6个面的概率都是 1/6,也是对均匀的骰子而言。至于骰子是否均匀,则只有投掷多次加以检验。不检验而任意假设各种情形机会均等,就会导致错误。
如何理解概率的人生哲学?
概率知识与其他学科一样,里面蕴含着很多的哲理。 这里,我们仅从某些侧面通过实例揭示一些概率知识中的思维模式,意图激发大家从概率角度对哲学问题进行思考。
( 1)四胞胎姐妹两对孪生: 18万亿分之一。 家住美国西雅图市的工人斯科特和妻子科利亚在 2002年 8月生下了四胞胎姐妹,这已经让他们备感意外,但更令他们意外的是这 4个小姑娘竟是两对孪生姐妹即,两对同卵双胞。专家认为,就概率而言,大约 72.9万个新生儿当中才会有一个四胞胎,而四胞胎姐妹中包含两对孪生婴儿的概率仅为 18万亿分之一,实属罕见。对此,斯科特开玩笑说: &那天晚上我要是不生孩子去买彩票会有多好。 &相信很多人都有同感。
( 2)父母个子不高,你想长高:约 1/3。 生理学家称,因为决定身高的因素 35%来自父亲, 35%来自母亲。假若父亲双方个头不高,那只剩 30%的后天身高因素,这决定了你力求长个的尝试不会有明显效果。可把握的后天身高因素很少,非要让自己长高些的努力,多半是徒劳而无功的。
( 3)一个通体雪白的 &雪虎 &的出现: 10万分之一。 据东北虎林园的专家介绍, &雪虎 &是白虎基因进一步变异的结果,而白虎在全世界仅有二百多只,所以,雪虎的出现就更为罕见。随着老虎的日益稀少,白虎以及雪虎出现的概率将更小。
( 4)在同一天连中两张巨额彩票: 4100万分之一和 57.5万分之一。 美国加州一对夫妇在一天之内连中两张巨额彩票,分别赢得了 1700万美元的 &超级路透累注奖 &和 12.6万美元的 &第五梦幻奖 &。这两个奖项的获得概率分别是 4100万分之一和 57.5万分之一,而他们在一天之内连中这两项大奖的概率,或许得用计算机才能算出来。统计学家称他们打破了 &不可能的概率 &,也许将因此成为世界上运气最好的夫妇之一。
( 5)发生 200年一遇洪水: 200分之一。 水利专家说,洪水多少年一遇,是通过以多个历史特大值作参考,进行复杂的频率分析得出洪水发生概率: 1%的概率即为百年一遇、 2%的概率为 50年一遇、 0.5%的概率为 200年一遇,依此类推。所谓百年一遇不等于一百年才来一次,可以是一百年出现多次,也可以一百年不来一次,甚至也可以今年一次明年一次。
( 6)在拉斯维加斯一直赌下去成为富豪的可能:几乎不存在。 赌博的 &最高可能报酬 &可能非常惊人,但它的平均、期望报酬率却是负值。少数几次看不出来,但经过的时间越长,它的真面目就会越加显露。你玩得越久,玩得次数越多,你输钱的概率就越大。所以,美国拉斯维加斯的赌场内看不到钟,也没有窗户。这是因为赌场想让你分不清昼夜,玩到忘了时间,一直到你把钱输光为止。
总之,统计教与学的过程中教师正确理解统计基本概念的前提下要关注调查与实验方案设计、关注案例库建设与案例教学、关注统计的实际应用与统计中信息技术的使用、关注实践活动的参与和设计、关注统计过程与不同阶段内容之间的衔接 。
六、拓展性学习资料
(一) 小概率原理在统计检验中有何作用?&万无一失&就是不失吗?
小概率原理是统计检验(统计中的反证法)的基础和依据。小概率原理是指在一次试验中,小概率事件几乎不可能发生。
小概率原理是统计检验(统计中的反证法)的基础和依据。例如,一个学校 200人参加某项考核,达标的标准是不合格率不超过 1%。统计的方法,就是抽一个样本进行检验,然后进行推断。现在随机抽取 5人,发现 5人中有 1人是不合格的,你说该校这项考核是否达标?直觉告诉我们,该校没有达标。那么推断统计是怎样合理解释的?首先,假设该校达标,那么 200人中至多只有 2人不合格,因而从 200人抽取 5人, 5 人中没有不合格的概率是 ,则 5 人中有 1 人不合格的概率是至多 1- 0.95= 0.05,是一个小概率事件,小概率原理告诉我们在一次试验中小概率事件几乎不可能发生。但是现在所抽取的 5人样本中有 1 人不合格,小概率发生了,矛盾。矛盾的原因,该校达标的假设是错误的。由此证明了我们的直觉:该校没有达标。这种统计决断方法是概率条件下的反证法,小概率原理是它的根据,推断错误的可能性本例是 0.05。
一次试验中小概率事件几乎不可能发生。但是也可能发生,&万无一失&并非绝对,可能&十万一失&、&百万有一失&,因此,在统计测量、推断中要考虑&以防万一&。象发射&神舟&飞船这样的工程, 其中的零件的可靠性做到&万无一失&是远远不够的。
(二)信息量为什么和概率有关?
一个信息, 如果它发生的概率很大, 就没有多少价值, 即没有告诉我们新的信息。 例如,&狗咬人&没有多少信息量,&人咬狗&发生的概率小,大家就关注,信息量因而也大。天天喊&狼来了&,狼却没有来,即&狼来了&发生的概率太大,没有人在意,信息量就少了。总之,信息发生的概率越小,信息传播价值就越大。
(三)概率方法可以求圆周率吗?
18 世纪法国的博物学家 C& 蒲丰和他的投针实验, 可以计算出圆周率。方法是:在一个平面上,用尺画一组相距为 d 的平行线;一根长度小于 d 的针,扔到画了线的平面上;如果针与线相交,则该次扔出被认为是有利的,否则,是不利的。
蒲丰惊奇地发现:有利的扔出与不利的扔出两者次数的比,是一个包含 & 的表示式.如果针的长度等于 d ,那么,有利扔出的概率为 2/& 。扔的次数越多,由此能求出越为精确的 & 的值。公元 1901 年,意大利数学家拉兹瑞尼作了 3408 次投针,给出 & 的值为 3 . 1415929&& 准确到小数后 6 位, 这个试验的价值在于,一方面,我们用确定性数学计算概率,另一方面,又可以用概率试验的方法计算确定性数学问题。
(四)《数学课程标准》下的&统计与概率&的内容特点
《数学课程标准》认为,&统计与概率&应当是初中课程内容的重要组成部分。不仅如此,《数学课程标准》将&统计与概率&内容从第一学段连续编排到初中,并且规定,在初中,学生将从事数据的收集、整理与描述的过程,体会抽样的必要性以及用样本估计总体的思想,进一步学习描述数据的方法,进一步体会概率的意义,能计算简单事件发生的概率。《大纲》没有涉及&概率&内容,仅仅在初中阶段引入&统计初步&,并且将&统计初步&放入&代数的第(十三)部分&在《大纲》中,&统计初步&的定位是:使学生了解统计的思想,掌握一些常用的数据处理方法,能够用统计的初步知识解决一些简单的实际问题。
《数学课程标准》认为,随着社会经验的积累和认知水平的进一步提高,初中的学生对现实环境中的情境具有越来越强烈的兴趣,他们将逐步探索自然、社会和科学技术领域中感兴趣的内容,认识到统计与概率的广泛应用和对制定决策的重要作用,并能初步用随机 (统计 )的观点来理解现实世界;他们将在第一、二学段体验和经历的基础上,主动地从事收集、描述和分析数据的过程,进一步学习描述数据的方法,体会抽样的必要性以及用样本估计总体的思想,学习根据数据进行推断的思考方法;他们将在积累了丰富经验的基础上,进一步体会概率的意义,知道频率与概率之间的关系,学习计算简单事件发生概率的方法:
1 .进一步学习描述数据的方法,经历猜测、收集、描述和分析处理数据的全过程。
使学生体验和掌握统计观念的最有效的方法,就是让他们真正投入到产生和发展统计观念的活动之中。学生将在收集、整理和描述数据的活动中,探索如何以简单而直观的形式最大限度地描述数据,理解加权平均数、极差、方差、频数分布等内容,并据此作出合理地判断。对于这些统计内容的学习,要注重理解和在实际问题中的应用,即能够在新的问题情境中,特别是在具有现实背景的问题情境中,准确地使用以解决问题,而不在于单纯地计算。
下面的例子展示了一个收集、描述、分析数据的过程,在此过程中学生可以了解频数分布的意义和作用,学习画频数分布直方图和频数折线图,并用以解决实际问题。
例 1 一家居民小区的食品超市为了更好地安排营业时间和售货员的人数,想了解该小区居民一周到超市购买食品的天数。
①你能替该超市的管理人员设计一个调查方案吗?
②该超市的管理人员调查了该小区所有的 500户居民,并得到下面的数据:
4 , 2, 0, 5, 5, 1, 2, 2, 3, 0, 4, 6, 2, 2, 1, 1, 2, 2,&
你能设法将上述数据整理得较为清晰吗?
③将上述数据整理成频数和频率表,并由此将数据整理成频数分布直方图。
每周到食品超市的次数
④根据调查结果,每周去超市少于 3次的居民户占小区总居民户的百分比是多少?你还能获得哪些信息?
⑤如果你是超市的管理人员,根据上述调查,你会作出哪些决策?与同伴进行交流。
2 .逐步形成主动获取并能读懂数据信息的意识,以及对统计数据有较为全面、客观的认识,发展学生的统计观念
《数学课程标准》认为,当人们面对媒体公布的数据时,既要能从中获得尽可能多的有 用信息,还应保持理智的心态,要对数据的来源、收集数据的方法、数据的呈现方式、由此得出的结论进行合理地质疑。在第一、二学段的基础上,初中中《数学课程标准》要求学生&根据统计结果作出合理的判断和预测,体会统计对决策的作用,能比较清晰地表达自己的观点,并进行交流&、&能根据问题查找有关资料,获得数据信息;对日常生活中的某些数据发表自己的看法。&除了能读懂并有意识地从各种渠道获取数据外,还必须理智地对待新闻媒介、广告等公布的数据,初步形成对数据统计过程进行评价的意识。如一则广告称&有 75%的人使用本公司的产品&,学生要能意识到广告没有提供数据的来源,也许样本不具有代表性,并不能反映总体的真实情况。
3 .感受抽样和随机抽样的重要性,体会用样本估计总体的思想
抽样是《数学课程标准》初中统计学习的一个重要内容。这部分内容的重点是通过丰富的实例,体会抽样的必要性和随机抽样的重要性;经历抽样的过程,并根据样本的平均数、方差等统计量估计总体的特征,体会用估计总体的思想。
4 .体会概率的意义,了解频率与概率的关系
《数学课程标准》认为,初中的学生将在具体的实验活动中,对频率与概率之间的这种关系进行体会,&知道大量重复实验时频率可作为事件发生概率的估计值&。事实上,随机现象表面看无规律可循,出现哪一个结果事先无法预料,但当我们大量重复实验时,实验的每一个结果都会呈现出其频率的稳定性。例如,可以设计下面的活动:
例 2 每人抛一枚硬币 10次(条件允许的话,可以在计算器或计算机上利用随机数模拟掷硬币的实验)。
( 1)分别记录下正面朝上和反面朝上的次数,并分别求出正面朝上和反面朝上的频率;将全班数据进行汇总,并完成正面朝上的频率统计图。
( 2)在你所作的统计图中,用彩色笔画出表示频率为 0.5的直线,你发现了什么?
( 3)下表是历史上数学家所做的投硬币的实验数据,这些数据支持你的发现吗?
在了解了频率与概率的关系后,学生就知道了大量重复实验时频率可以作为事件发生概率的估计值,并可以利用这种方法来估计一些事件发生的概率。
5 .经历&猜测结果 &进行实验&分析实验结果&的过程,建立正确的概率直觉
学生原有的经验和数学智能水平是设计课程内容的两个重要因素。学生存在着一些生活经验,这些经验是学生学习概率的基础,但其中往往有一些是错误的。逐步消除错误的经验,建立正确的概率直觉是概率教学的一个重要目标。要实现这一目标,必须让学生亲自经历对随机现象的探索过程,引导学生亲自动手进行实验,收集实验数据,分析实验结果,并将所得结果与自己的猜测进行比较。
6 .学习利用列举法计算事件发生的概率
在初中,《数学课程标准》安排的概率内容实际上包括 实验概率和 理论概率两部分。对于理论概率部分,学生将重点学习&运用列举法 (包括列表、画树状图等 )计算简单事件发生的概率&。在课程实施中,要鼓励学生独立探索列举可能出现结果的方法,其中,最常用的是&二分法&。
7 .体会随机观念的特点以及统计与概率的不确定性
概率和确定性数学一样,是科学的方法,它和确定性科学一样成为人们不可缺少的武器,能够有效地解决现实世界中的众多问题,同时,概率的思维方式与确定性思维的差异,这就是随机观念。使学生具备随机观念,从而能明智地应付变化和不确定性,这构成了在义务教育阶段教学概率另一个重要原因,也是初中学习统计与概率的重要目标之一。统计与概率的研究对象、方法,甚至结果都具有一定的不确定性,这对学生来说是一个难点。《数学课程标准》充分注意了不确定现象与确定性现象之间的差别,注意统计思想与演绎推理思想之间的互补作用,使学生认识到统计与概率和确定性数学一样,是科学的方法,能够有效地解决现实世界中的众多问题。例如,从样本去推断总体虽然会出现一定的误差,但若实际问题允许把误差控制在一定的范围内,就能节省大量的财力和人力。
8 .运用统计与概率的知识和方法解决一些简单的实际问题
《数学课程标准》主张,在课程实施中,要引导学生把对统计与概率的探索从日常生活发展到自然、社会和科学技术中感兴趣的领域,以实现《数学课程标准》提出的&认识到统计在社会生活及科学领域中的应用,并能解决一些简单的实际问题&、&通过实例进一步丰富对概率的认识,并能解决一些实际问题&等目标。现实生活中有多种渠道可以提供有意义的问题,要充分挖掘适合学生学习的材料,既可以从报刊杂志、电视广播、计算机数据库等许多方面寻找素材,也可以从学生的生活实际中选取,如有关学校周围道路交通 (运输量、车辆数、堵塞情况、交通事故等 )状况的调查、本地资源与环境的调查、对自己所喜爱的体育比赛的研究、讨论有奖销售等问题。这样的素材能使学生更好地认识现实世界,对现实世界中的许多事情形成自己的看法,满足学生了解这个世界的好奇心。
总之,《数学课程标准》认为,初中的学生应对统计数据有较为全面、客观的认识,既要能从各种渠道获取尽可能多的有用信息,又要能保持理智的心态,对数据的来源、数据的方法、数据的呈现方式,由此得到的结论等进行合理地质疑,这是当代公民所应有的基本素养。
(五) 茎叶图
茎叶图是用来表示数据的一种统计图 , 茎是指中间的一列数 , 叶是从茎的旁边生长出来的数 。 茎叶图既可以分析单组数据 , 也可以对两组数据进行比较 , 用茎叶图刻画数据有两个优点 : 一是所有的信息都可以从这个茎叶图中得到 ; 二是茎叶图便于记录和表示 , 能够展示数据的分布情况 , 但当样本数据较多或数据位数较多时 , 茎叶图就显得不太方便了 。
例 某赛季甲、乙两名篮球运动员每场比赛得分情况如下:
甲: 49 31 25 15 44 31 24 12 39 37 36 36 50
乙: 38 26 14 8 51 13 23 33 16 28 39
画出两个运动员的得分茎叶图,并根据茎叶图对两名运动员的成绩进行比较。
解 :基本步骤:
( 1)写出茎,所谓的茎是一个数列,包括数字十位、百位、 &&,即去掉个位。
( 2)在相应的行添上最后一位数字(即个位),构成叶子。
( 3)最后,将叶子按顺序放好。
依据茎叶图进行分析:甲运动员的得分情况是大致对称的,中位数是 36,乙运动员的得分情况除了一个特殊得分( 51)之外,也大致对称,中位数是 26。因此甲运动员发挥比较稳定,总体得分比乙要好。
(六)平均数与数学期望、风险
求一组数据求平均数,是初中常见的事,但是,用概率的观点进行分析,它和随机变量的数学期望有密切的联系。
随机变量是 表示随机现象各种结果的变量。例如,掷一颗骰子 ,它的所有可能结果是出现 1 点、 2 点、 3 点、 4 点、 5 点和 6 点 ,若定义 X 为掷一颗骰子时出现的点数,则 X 为一随机变量,即出现 1 , 2 , 3 , 4 , 5 , 6 点时 X 分别取值 1 , 2 , 3 , 4 , 5 , 6 。
要全面了解一个随机变量,不但要知道它取哪些值,而且要知道它取这些值的规律。 上述掷筛子的随机变量 X , 出现 1 , 2 , 3 , 4 , 5 , 6 的概率都是 1/6 。
1 .简单的平均数和加权平均数。
我们再看一个例子。
假定某中小城市大约有 10 万个家庭,没有孩子的家庭有 1000 个,有一个孩子的家庭有 9 万个,有两个孩子的家庭有 6000 个,有 3 个孩子的家庭有 3000 个, 3 个以上孩子的家庭数量几乎没有,可以忽略不计。问题是,这个城市每个家庭拥有多少个孩子呢?
显然,这个城市中任一个家庭的孩子的数目是一个随机变量 X ,它可取值 0 , 1 , 2 , 3 。随便选择一个家庭,所拥有孩子数为 0 的概率是 0.01 ,取 1 的概率为 0.9 ,取 2 的概率为 0.06 ,取 3 的概率为 0.03 。可见,任一个家庭的孩子的数目取数字 0 、 1 、 2 、 3 的概率不同。也可以说 1% 的家庭没有孩子, 90% 的家庭只有 1 个孩子, 6% 的家庭有 2 个孩子, 3% 的家庭有 3 个孩子。
那么,究竟该城市中每个家庭拥有几个孩子呢?简单的平均数 (0+1+2+3)/4 = 1.5 显然不合适。 因为没有考虑有各种不同孩子的家庭的数目(在所有家庭中所占的比例, 即频率, 这里就是概率)。
现在我们采用以下的加权平均数进行处理。由于随机变量 X (家庭孩子数)可以取 0 , 1 , 2 , 3 的值,它们相应的&份量&,即权重是取 0 、 1 、 2 、 3 时相应的概率。 各值乘以&权重&之后再作和就比较合理了。 也就是说, X 的加权平均值可以计算如下: 0&0.01 + 1&0.9 + 2&0.06 + 3&0.03 = 1.11 。 这一数字比较实际地刻画了这个城市的一个家庭平均拥有的孩子数。
一般地,所谓加权平均数, 是指各个数据的&份量&不同, 有的重要些, 有的轻些, 将它们的重要性用&权重&表示, 即加上各个数据在全体数据中占有的比例(频率)再作和。计算公式是:
分别是各个数据出现的频率。如果各数据的频率都是 1/n, 那么加权平均就是普通的平均。
例 某同学的某一科的考试成绩:平时测验 90 ,期中 90 ,期末 95 。学校规定的科目成绩的计算方式是: 平时测验占 20% ; 期中成绩占 30% ;期末成绩占 50% ;这里,每个成绩所占的比重就是权数或权重。那么根据计算可得,
加权平均值 = 90*20% + 90*30% + 95*50% = 90.5 , 算术平均值 = (90 + 90 + 95)/3 = 99.3
看来 90.5 的加权平均值合乎学校的要求, 也比较好地代表了该同学的成绩。
2 .数学期望的定义
现实生活中常常需要我们决策。当作决策的时候,我们不但要考虑获胜的机率有多大,连带着也要衡量获胜后赢得的&好处&有多少?失败后遭受的&损害&有多大?例如,当我们摸彩、竞技、甚至与敌人决战之前,不能不预先估计我们能从这场&比赛&中&可能&获得的好处有多少?这种事前预期的好处,就叫做这件事情的期望值。显然,期望值是由两个因素决定的:
第一,这件事发生的概率有多大?
第二,如果真的发生了,那么,我们会得到的获益或遭受的损失是多少?
这两个考虑的过程形成了期望值的概念,于是,我们可以定义为:
(某事的期望值) = (某事发生的机率) & (此事发生后应得的金额)。
把&获益&用金额来表示,这是数量化的办法。以下我们分别给出数学期望的定义。
定义 1 :设某件事发生的概率是 p ,若此事件发生即可获益 m ,则 m & p 就叫做此事件的数学期望值,简称为期望值。
定义 2 :如果一个随机实验有 k 种可能结果,各种结果的获益分别为 m 1 , m 2 , .. , m k,而得到这些获益的概率分别为 p 1,p 2,p 3,&..,p k ,其中 p 1+p 2+&..+p k=1 ,(此式可用来简单判断概率是否算错)。则 m 1 & p 1+m 2 & p 2+&+m k & p k 称为此随机试验的期望值,记为 E ,即
E=m 1 & p 1+m 2 & p 2+&+m k & p k 。
这里的 E 即 Expectation 的第一个字母。
例 某工厂产品中,一等品占
,二等品占
,如果一件次品工厂要损失 1 元,而一件一等品获利 2 元,一件二等品获利 1 元。试问一件产品的期望利润(即产品的平均利润)为多少?
把投资收益和产品利润视为随机变量,这个事例是求随机变量数学期望。其中,一件产品的平均利润为:
定义 3 :若离散型随机变量
的概率分布为:
的数学期望,简称期望。
因此,离散型随机变量
的数学期望是
的各可能值与其对应概率乘积的和(注:求无穷项和时须有意义)
定义 4 :若连续型随机变量
的概率密度为
的数学期望。
即连续型随机变量
的数学期望是
与概率密度
的乘积在无穷区间
上的广义积分(当然,这里的广义积分必须有意义)。
3 .数学期望的应用: 风险
在 日常生活中和在经济生活中 ,人们会经常谈论到风险。 归纳起来,这些话题大概可以分为三类:
认真分析一下,看看这件事的风险到底有多大;
这件事的风险太大,不能做;
这件事的风险还不算大,可以做。
可以看到,风险至少应包括两方面的内容:风险所涉及到的事件的发生是具有随机性的,即可能发生,也可能不发生;风险是一个量,可以知道它的大小。
从上面的话语中还可以看到,风险的大小与做出的决策是关联的。
4 .风险决策的 例:购物
购物: 有 A和 B两个箱子同样规格的产品,来自不同的厂家。已经知道 A箱的废品率是 1%, B箱的废品率是 3%,又不能退货, 那么你买那个箱子的产品呢?这个问题很简单,在通常情况下,人们会买 A箱的产品,因为废品率低。
购物(续) :如果 A 箱的产品价格是每个 10 元,而 B 箱的是 1 元,你还买 A 箱的产品吗?更极端的,如果 A 箱的产品价格是每个 10 万元,而 B 箱的是 1 万元,你还买 A 箱的产品吗?你很可能要冒一点风险去买 B 箱的产品了,你可能会觉得冒这个风险是值得的。这是一种感觉,如何理性化呢?我们来分析一下。用 D 1 和 D 2 分别表示购买 A 和 B 箱子中产品的决策。很显然,买到废品就会出现损失,那么
D 1 的损失风险为: 10 & 1%=0.1( 元 )
D 2 的损失风险为: 1 & 3%=0.03( 元 ) ( 1 )
因为损失风险越小越好,所以 D 2 要比 D 1 好,即买 B 箱产品的决策要好于买 A 箱产品的决策。但是,如果把上式括号中的价格单位换成 100 万元, D 1 比 D 2 的损失要大 7 , 000 元。所以进行风险计算是必须的。
对于上面的例子,通过( 1 )式的计算来进行决策,显然是不够的,还应当考虑买到合格品的情况,即考虑成功时的情况。下面的例子将会更确切地说明这一点。
5 .风险决策的例: 投资
假如你有 1000 元钱,准备进行投资。有两种投资决策供你选择:一种是稳定的,比如储蓄、国债等,记为 D 1 ;一种是有风险的,比如经营、股票等,记为 D 2 。如果选择 D 1 ,一年后可以得到 1300 元。如果选择 D 2 ,则可能有两种情况:成功,一年后可以得到 1500 元;失败,一年后只可能收回 100 元。已知成功的概率为 0.9 ,失败的概率为 0.1 。你采取那种决策?
为了把问题阐述得更清楚,需要再借助一些数学符号。
用 H 1 表示投资成功,由已知条件,其概率为 P ( H 1 ) =0.9 ;用 H 2 表示投资失败,其概率为 P ( H 2 ) =0.1 。为了叙述的方便,以后称 H 1 和 H 2 为 状态 。现在我们来考虑损失:如果 H 1 发生,采用决策 D 1 要比 D 2 损失 0 (元);如果 H 2 发生,采用决策 D 2 要比 D 1 损失 0 (元)。可以看到,损失是 D 和 H 的函数,称之为 损失函数 。用 L ( D , H )来表示这个损失函数,由上面的分析知道,函数关系为:
L ( D 1 , H 1 ) =200 , L ( D 2 , H 1 ) =0 ;
L ( D 1 , H 2 ) =0 , L ( D 2 , H 2 ) =1200 。 ( 2 )
这是一种非常简单的函数,只要你把它看作一种对应关系就可以了。
风险是决策的函数,就像我们一开始说过的那样,称之为风险函数,记为 R ( D )。参考( 1 )式,决策 D 1 和 D 2 的风险分别为:
R ( D 1 ) =L ( D 1 , H 1 ) P ( H 1 ) +L ( D 1 , H 2 ) P ( H 2 )
=200 & 0.9+0&0.1=190;
R ( D 2 ) =L ( D 2 , H 1 ) P ( H 1 ) +L ( D 2 , H 2 ) P ( H 2 )
=0 & 0.9+=120;
可以看到,采用决策 D 2 要比 D 1 好,因为风险小一些。
通过( 3 )式,你已经能够给风险下一个确切的定义了吗?如果还是信心不足,再看下面的例子。
6 .风险决策的例子: 种植
某位农民准备种植新品种蔬菜,对于种植多少面临着三种选择:多( D 1 )、中( D 2 )、少( D 3 )。他应当如何做呢?首先,应当做市场预测。如果把未来市场分为三种情况:好( H 1 )、中( H 2 )、差( H 3 ),根据过去的经验可以得到一个收入表如下:
其中的 12 表示:如果市场好( H 1 )又选择了多种的决策( D 1 ),可以收入 12000 元,如此类推。注意到,当市场差( H 3 )而又选择了多种的决策( D 1 ),可能会出现亏损。下面需要通过收入表来构造损失函数。与投资的例子同理分析:当 H 1 发生时,选择决策 D 1 没有损失,选择决策 D 2 的损失为 12-9=4 ,选择决策 D 3 的损失为 12-3=9 ,等等。这样可以得到下面的损失函数:
L ( D 1 , H 1 ) =0 , L ( D 2 , H 1 ) =4 , L ( D 3 , H 1 ) =9 ;
L ( D 1 , H 2 ) =1 , L ( D 2 , H 2 ) =0 , L ( D 3 , H 2 ) =3 ;
L ( D 1 , H 3 ) =6 , L ( D 2 , H 1 ) =3 , L ( D 3 , H 1 ) =0 。
为了进行类似( 3 )式的风险计算,还需要得到非常重要也是非常关键的数据,就是状态的概率,通常是利用历史和现实的市场信息来预测市场的未来。假如我们得到了这些数据为
P ( H 1 ) =0.3 , P ( H 2 ) =0.5 , P ( H 3 ) =0.2 。
参照( 3 )式可以计算风险如下:
R ( D 1 ) =L ( D 1 , H 1 ) P ( H 1 ) +L ( D 1 , H 2 ) P ( H 2 ) +L ( D 1 , H 3 ) P ( H 3 )
=0 & 0.3+1&0.5+6&0.2=1.7;
R ( D 2 ) =L ( D 2 , H 1 ) P ( H 1 ) +L ( D 2 , H 2 ) P ( H 2 ) +L ( D 2 , H 3 ) P ( H 3 )
=4 & 0.3+0&0.5+3&0.2=1.9;
R ( D 3 ) =L ( D 3 , H 1 ) P ( H 1 ) +L ( D 3 , H 2 ) P ( H 2 ) +L ( D 3 , H 3 ) P ( H 3 )
=9 & 0.3+3&0.5+0&0.2=3.3 。
看来选择决策 D 1 好一些,因为风险小。事实上,根据上面的计算结果,可以适当地调整种植计划。
7 .风险的定义
现在可以给风险下定义了。令 D={D 1,&, D n}是一个决策集合,其中 D i表示第种决策, I=1,&, n。令 H={H 1,&, H m}是一个状态集合,其中 H j表示第 j个状态,对应的概率为 P( H j) ,j=1,&, m。用 L( D i,H j)表示决策为 D i,状态为 H j的损失。则选择决策 D i时的风险为
R ( D i) =L(D i,H 1)P(H 1)+&& +L( D i,H m) P(H m)。 ( 4)
D k 被称为最优决策,如果 D k是 D中的一个决策,并且对任意 I=1,&, n,均有
R ( D k) &R(D i) 。 ( 5)
由( 4)式的定义中可以看到,风险实际上是损失函数的加权平均,其中权为状态发生的概率。我们通常称:权为概率的加权平均为数学期望,简称为期望。 因此,风险实质上是损失函数的数学期望。因为损失函数是非负的,所以风险也一定是非负的。在风险的计算 中,损失函数和状态发生的概率是最为重要的两个要素,其具体数值的确定,往往依赖于对历史和现实数据的整理分析,以及对未来情况的预测。
浏览: 70&&评论: