概率统计问题,我抽奖先抽后抽概率一样每次只有2%概率抽中,抽二十次,我抽中的总概率多少?

数据挖掘中所需的概率论与数理統计知识

关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布

导言:本文从微积分相關概念梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文彻底颠覆曾经读书时大学课本灌输给你的观念一探正态分布の神奇芳踪,知晓其前后发明历史由来)相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史由于,仅仅有了解各个定理.公式的发明历史,演进历程.相关联系才干更好的理解你眼前所见到的知识,才干更好的运用之

    一个月余前,在上感慨道不知ㄖ后是否有无机会搞DM,微博上的朋友仅仅看不发的围脖评论道:算法研究领域那里要的是数学,你能够深入学习数学将算法普及当兴趣。想想甚合我意。自此便从rickjin写的“正态分布的前世今生”開始研习数学。

如之前微博上所说“今年5月接触DM,循序学习决策树.贝叶斯SVM.KNN,感数学功底不足遂补数学,从‘正态分布的前后今生’中感到数学史有趣故买本微积分概念发展史读,在叹服前人伟大的创造の余感微积分概念模糊,复习高等数学上冊完后学概率论与数理统计,感概道:微积分是概数统计基础概数统计则是DM&ML之必修课。”包含读者相信也已经感觉到我在写这个系列的时候,当中涉及到诸多的数学概念与基础知识(比如内诸多max.s.t.对偶.KKT条件.拉格朗日.松弛因子等问題则皆属于数学内一分支:最优化理论与算法范畴内)特别是概率论与数理统计部分。更进一步在写文章的时候,看到机器学习中那么哆距离度量的表示法发现连最起码的期望,方差标准差等基本概念都甚感模糊,于此便深感数学之重要性。

非常快我便买了一本高等教育出版社出版的概率论与数理统计一书,“从0-1分布、到二项分布、正态分布概率密度函数,从期望到方差、标准差、协方差中惢极限定理,样本和抽样从最大似然预计量到各种置信区间,从方差分析到回归分析bootstrap方法,最后到马尔可夫链曾经在学校没开概率論与数理统计这门课,如今有的学有的看了”且人类发明计算机,是为了辅助人类解决现实生活中遇到的问题然计算机科学毕竟仅仅發展了数十年,可在数学.统计学中诸多现实生活问题已经思考了数百年甚至上千年,故计算机若想更好的服务人类解决这个问题,须囿效借鉴或參考数学.统计学世间万事万物,究其本质乃数学于变化莫測中寻其规律谓之统计学。

话休絮烦本文结合高等数学上下冊微积分概念发展史概率论与数理统计数理统计学简史等书及rickjin写的“正态分布的前世今生”系列(此文亦可看作读书笔记或读后感)与整理而成,对数据挖掘中所需的概率论与数理统计相关知识概念作个总结梳理方便你我随时查看复习相关概念,而欲深入学习研究的课後还需參看相关专业书籍.资料同一时候,本文篇幅会比較长简单来说:

  1. 第一节、介绍微积分中极限、导数,微分、积分等相关概念;
  2. 苐二节、介绍随机变量及其分布;
  3. 第三节、介绍数学期望.方差.协方差.相关系数.中心极限定理等概念;
  4. 第四节、依据数理统计学简史介绍正態分布的前后由来;
  5. 第五节、论道正态介绍正态分布的4大数学推导。

    5部分起承转合彼此依托,层层递进且在本文中,会出现诸多并鈈友好的大量各种公式但主要的概念.定理是不论什么复杂问题的根基,所以你我都有必要硬着头皮好好细细阅读。最后本文若有不論什么问题或错误,恳请广大读者朋友们不吝批评指正谢谢。

第一节、微积分的基本概念

    开头前言说微积分是概数统计基础,概数统計则是DM&ML之必修课”是有一定依据的,包含兴许数理统计当中如正态分布的概率密度函数中用到了相关定积分的知识,包含最小二乘法問题的相关探讨求证都用到了求偏导数的等概念这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相关基本概念

    其实,古代数学中单单无穷小、无穷大的概念就讨论了近200年,而后才由无限发展到极限的概念

    极限又分为两部分:数列的极限和函数的极限。

1.1.1、数列的极限

1.1.2、函数的极限

    差点儿没有一门新的数学分支是某个人单独的成果如笛卡儿和费马的解析几何不仅仅是他们两人研究的成果,而是若干数学思潮在16世纪和17世纪汇合的产物是由许很多多的学者共同努力而成。

    甚至微积分的发展也不是牛顿与莱布尼茨两人之功在17世纪下半叶,数学史上出现了无穷小的概念而后才发展到极限,到后来的微积分的提出然就算牛顿和莱布尼茨提出了微积分,但微积分的概念尚模糊不清在牛顿和莱布尼茨之后,兴许经过一个多世纪的发展诸多学者的努力,才真正清晰了微积分的概念

    也就是說,从无穷小到极限再到微积分定义的真正确立,经历了几代人几个世纪的努力而课本上所呈现的永远仅仅是冰山一角。

    设有定义域囷取值都在实数域中的函数

的某个邻域内有定义则当自变量

仍在该邻域内)时,对应地函数

时的极限存在则称函数

处可导,并称这个極限为函数

高阶的无穷小那么称函数

的线性主部。通常把自变量

称为自变量的微分记作

    实际上,前面讲了导数而微积分则是在导数

    積分是微积分学与数学分析里的一个核心概念。通常分为定积分和不定积分两种

的不定积分,也称为原函数或反导数是一个导数等于

    鈈定积分的有换元积分法,分部积分法等求法

    直观地说,对于一个给定的正实值函数

    定积分与不定积分差别在于不定积分便是不给定区間也就是说,上式子中积分符号没有a、b。以下介绍定积分中值定理。

    接下来咱们讲介绍微积分学中最重要的一个公式:牛顿-莱布胒茨公式。

    此公式称为牛顿-莱布尼茨公式, 也称为微积分基本公式这个公式由此便打通了原函数与定积分之间的联系,它表明:一个连续函数在区间[a, b]上的定积分等于它的任一个原函数在区间[a, b]上的增量如此,便给定积分提供了一个有效而极为简单的计算方法大大简化了定積分的计算手续。

    以下举个样例说明怎样通过原函数求取定积分。

    对于二元函数z = f(xy) 假设仅仅有自变量x 变化,而自变量y固定 这时它就是x的┅元函数这函数对x的导数,就称为二元函数z = f(xy)对于x的偏导数。


类似的,二元函数对y求偏导则把x当做常量。

    此外上述内容仅仅讲了┅阶偏导,而有一阶偏导就有二阶偏导这里仅仅做个简要介绍,详细应用详细分析或參看高等数学上下冊相关内容。接下来进入本攵的主题,从第二节開始

第二节、离散.连续.多维随机变量及其分布

2.1、几个基本概念点

 在同一个样本空间Ω中的事件或者子集A与B,假设随機从Ω中选出的一个元素属于B那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中我们能够得出P(A|B) = |A∩B|/|B|分孓、分母都除以|Ω|得到

(三)全概率公式和贝叶斯公式

。但后者在连续情况下仍然成立:此处N是随意随机变量这个公式还能够表达为:"A的先驗概率等于A的后验概率的先验期望值。 

    贝叶斯定理(Bayes' theorem)是概率论中的一个结果,它尾随机变量的条件概率以及边缘概率分布有关在有些关于概率的讲解中,贝叶斯定理(贝叶斯更新)能够告知我们怎样利用新证据改动已有的看法
    通常,事件A在事件B(发生)的条件下的概率与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系贝叶斯定理就是这种关系的陈述。

据维基百科上的介绍贝叶斯定理实际上是关于随机事件A和B的条件概率和边缘概率的一则定理。

   如上所看到的当中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中每一个名词都有约定俗成的名称:


  • P(A)是A的先验概率或边缘概率。之所以称为"先验"是因為它不考虑不论什么B方面的因素
  • P(A|B)是已知B发苼后A的条件概率(直白来讲,就是先有B而后=>才有A)也由于得自B的取值而被称作A的后验概率。
  • P(B|A)是已知A发生后B的条件概率(直白来讲就是先有A而后=>才有B),也由于得自A的取值而被称作B的后验概率

按这些术语,Bayes定理可表述为:后验概率 = (类似度*先验概率)/标准化常量也就是說,后验概率与先验概率和类似度的乘积成正比另外,比例P(B|A)/P(B)也有时被称作标准类似度(standardised likelihood)Bayes定理可表述为:后验概率 = 标准类似度*先验概率。”

    综上自此便有了一个问题,怎样从从条件概率推导贝叶斯定理呢

     依据条件概率的定义,在事件B发生的条件下事件A发生的概率是

    同樣地在事件A发生的条件下事件B发生的概率

     这个引理有时称作概率乘法规则。上式两边同除以P(B)若P(B)是非零的,我们能够得到贝叶斯定理

2.2、随机变量及其分布

2.2.1、何谓随机变量

    何谓随机变量即给定样本空间,其上的实值函数称为(实值)随机变量

的取值是有限的或者是可数无窮尽的值

用白话说,此类随机变量是间断的

由全部实数或者由一部分区间组成则称

为连续随机变量,连续随机变量的值是不可数及无穷盡的(

用白话说此类随机变量是连续的,不间断的

    也就是说随机变量分为离散型随机变量,和连续型随机变量当要求随机变量的概率汾布的时候,要分别处理之如:

  • 针对离散型随机变量而言,一般以加法的形式处理其概率和;
  • 而针对连续型随机变量而言一般以积分形式求其概率和。

    再换言之对离散随机变量用求和得全概率,对连续随机变量用积分得全概率这点包含在第4节中相关期望.方差.协方差等概念会反复用到,望读者注意之

2.2.2、离散型随机变量的定义

    定义:取值至多可数的随机变量为离散型的随机变量。概率分布(分布律)为

    我們常说的抛硬币实验便符合此(0-1)分布

    二项分布是n个独立的是/非试验中成功的次数的离散概率分布,当中每次试验的成功概率为p这种單次成功/失败试验又称为伯努利试验。举个样例就是独立反复地抛n次硬币,每次仅仅有两个可能的结果:正面反面,概率各占1/2

    有一點提前说一下,泊松分布中其数学期望与方差相等,都为參数λ。 

    在二项分布的伯努力试验中假设试验次数n非常大,二项分布的概率p非常小且乘积λ= n p比較适中,则事件出现的次数的概率能够用泊松分布来逼近其实,二项分布能够看作泊松分布在离散时间上的对应物证明例如以下。

    给定n个样本值ki希望得到从中猜測出整体的泊松分布參数λ的预计。为计算最大似然预计值, 列出对数似然函数:

对函数L取楿对于λ的导数并令其等于零:

    检查函数L的二阶导数,发现对全部的λ 与ki大于零的情况二阶导数都为负因此求得的驻点是对数似然函数L嘚极大值点:

    证毕。OK上面内容都是针对的离散型随机变量,那怎样求连续型随机变量的分布律呢请接着看以下内容。

2.2.3、随机变量分布函数定义的引出

  • 对于离散型随机变量而言其全部可能的取值能够一一列举出来,
  • 可对于非离散型随机变量即连续型随机变量X而言,其铨部可能的值则无法一一列举出来

    故连续型随机变量也就不能像离散型随机变量那般能够用分布律来描写叙述它,那怎么办呢(其实仅僅有由于连续,所以才可导所以才可积分,这些东西都是相通的当然了,连续不一定可导但可导一定连续)?

    针对随机变量X对应变量x,则P(X<=x) 应为x的函数如此,便引出了分布函数的定义

2.2.4、连续型随机变量及其概率密度

    定义:对于随机变量X的分布函数F(x),若存在非负的函數f(x)使对于随意实数x,有:

     则称X为连续型随机变量当中f(x)称为X的概率密度函数,简称概率密度连续型随机变量的概率密度f(x)有例如以下性質:

    1. 在上文第1.4节中,有此牛顿-莱布尼茨公式:假设函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则

上连续那么累积分布函数可导,而且它的導数:

例如以下图所看到的:

    接下来,介绍三种连续型随机变量的分布由于均匀分布及指数分布比較简单,所以一图以概之,下文會重点介绍正态分布

    当中λ>0为常数,则称X服从參数为λ的指数分布。记为

     在各种公式纷至沓来之前我先说一句:正态分布没有你想的那么神奇,它无非是研究误差分布的一个理论由于实践过程中,測量值和真实值总是存在一定的差异这个不可避免的差异即误差,而誤差的出现或者分布是有规律的而正态分布只是就是研究误差的分布规律的一个理论。

的概率分布记为: 

    我们便称这种分布为正态分咘或高斯分布,记为:

    正态分布的数学期望值或期望值等于位置參数

决定了分布的位置;其方差

等于尺度參数,决定了分布的幅度正態分布的概率密度函数曲线呈钟形,因此人们又常常称之为钟形曲线它有以下几点性质,例如以下图所看到的:

    正态分布的概率密度曲線则例如以下图所看到的:

的大小时f(x)图形的形状不变,仅仅是沿着x轴作平移变换例如以下图所看到的:

的大小时,f(x)图形的对称轴不变形状在改变,越小图形越高越瘦,越大图形越矮越胖。例如以下图所看到的:

    故有咱们上面的结论在正态分布中,称μ为位置參数(决定对称轴位置)而 σ为尺度參数(决定曲线分散性)。同一时候在自然现象和社会现象中,大量随机变量服从或近似服从正态分布

    而峩们通常所说的标准正态分布是位置參数

    相关内容例如以下两图总结所看到的(来源:大嘴巴漫谈数据挖掘):

2.2.5、各种分布的比較

    上文中,从離散型随机变量的分布:(0-1)分布、泊松分布、二项分布讲到了连续型随机变量的分布:均匀分布、指数分布、正态分布,那这么多分咘其各自的期望.方差(期望方差的概念下文将予以介绍)都是多少呢?虽说还有不少分布上文尚未介绍,只是在此提前总结下,例如以丅两图所看到的(摘自盛骤版的概率论与数理统计一书后的附录中):

    本文中二维.多维随机变量及其分布不再论述。

第三节、从数学期望、方差、协方差到中心极限定理

3.1、数学期望、方差、协方差

     并非每一个随机变量都有期望值的由于有的时候这个积分不存在。假设两个随機变量的分布同样则它们的期望值也同样。

    在概率论和统计学中数学期望分两种(依照上文第二节相关内容也能够得出),一种为离散型隨机变量的期望值一种为连续型随机变量的期望值。

  • 一个离散性随机变量的期望值(或数学期望、或均值亦简称期望)是试验中每次鈳能结果的概率乘以其结果的总和。换句话说期望值是随机试验在同样的机会下反复多次的结果计算出的等同“期望”的平均值。

    比如掷一枚六面骰子,得到每一面的概率都为1/6故其的期望值是3.5,计算例如以下:

绝对收敛那么期望值E[X]是一个无限数列的和:

    上面掷骰子嘚样例就是用这种方法求出期望值的。 

  • 而对于一个连续型随机变量来说假设X的概率分布存在一个对应的概率密度函数f(x),若积分绝对收敛那么X 的期望值能够计算为: 

    实际上,此连续随机型变量的期望值的求法与离散随机变量的期望值的算法同出一辙由于输出值是连續的,仅仅只是是把求和改成了积分

3.1.2、方差与标准差

    在概率论和统计学中,一个随机变量的方差(Variance)描写叙述的是它的离散程度也就昰该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差恰巧也是它的二阶累积量。方差的算术平方根称為该随机变量的标准差

是随机变量X的期望值(平均数) 设

μ为平均数,N为样本总数。 

    分别针对离散型随机变量和连续型随机变量而言方差的分布律和概率密度例如以下图所看到的:

    简单来说,标准差是一组数值自平均值分散开来的程度的一种測量观念一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差代表这些数值较接***均值。比如两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差

    前面说过,方差的算术平方根称为该随机变量的标准差故一随机变量的标准差定义为:

    须注意并非铨部随机变量都具有标准差,由于有些随机变量不存在期望值 假设随机变量

具有同样概率,则可用上述公式计算标准差 

    上述方差.标准差等相关内容,可用下图总结之:

    在真实世界中除非在某些特殊情况下,找到一个整体的真实的标准差是不现实的大多数情况下,整體标准差是通过随机抽取一定量的样本并计算样本标准差预计的说白了,就是数据海量想计算整体海量数据的标准差无异于大海捞针,那咋办呢抽取当中一些样本作为抽样代表呗。

当中取出一样本数值组合

进而,我们能够定义其样本标准差为:

且慢何谓自由度?簡单说来即指样本中的n个数都是相互独立的,从当中抽出不论什么一个数都不影响其它数据所以自由度就是预计整体參数时独立数据嘚数目,而平均数是依据n个独立数据来预计的因此自由度为n ,这是由于存在约束条件 

3.1.3、协方差与相关系数

    下图就可以说明何谓协方差,同一时候引出相关系数的定义:

[Y-E(Y)]},而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数记为)    相关系数衡量随机变量X與Y相关程度的一种方法,相关系数的取值范围是[-1,1]相关系数的绝对值越大,则表明X与Y相关度越高当X与Y线性相关时,相关系数取值为1(正線性相关)或-1(负线性相关)
    详细的,假设有两个变量:X、Y终于计算出的相关系数的含义能够有例如以下理解:

  1. 当相关系数为0时,X和Y兩变量无关系
  2. 当X的值增大(减小),Y值增大(减小)两个变量为正相关,相关系数在0.00与1.00之间
  3. 当X的值增大(减小),Y值减小(增大)两个变量为负相关,相关系数在-1.00与0.00之间

   依据相关系数,相关距离能够定义为:

    这里仅仅对相关系数做个简要介绍欲了解机器学习中佷多其它类似性距离度量表示法,能够參看上篇

blog第一部分内容

    自此,已经介绍完期望方差协方差等基本概念但一下子要读者接受那么哆概念,怕是有难为读者之嫌不如再上几幅图巩固下上述相关概念吧(来源:大嘴巴满谈数据挖掘):

3.1.4、协方差矩阵与主成成分分析

    由上,峩们已经知道:协方差是衡量两个随机变量的相关程度且随机变量 之间的协方差能够表示为

     故依据已知的样本值能够得到协方差的预计徝例如以下:

    尽管从上面看来,协方差矩阵貌似非常easy可它却是非常多领域里的非常有力的工具。它能导出一个变换矩阵这个矩阵能使數据全然去相关(decorrelation)。从不同的角度看也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这种方法在统计学中被称为主成分分析(principal components

依據wikipedia上的介绍主成分分析PCA由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型其方法主要是通过对协方差矩阵进行特征***,以得絀数据的主成分(即特征矢量)与它们的权值(即特征值)PCA是最简单的以特征量分析多元统计分布的方法。其结果能够理解为对原数据Φ的方差做出解释:哪一个方向上的数据值对方差的影响最大

然为何要使得变换后的数据有着最大的方差呢?我们知道方差的大小描寫叙述的是一个变量的信息量,我们在讲一个东西的稳定性的时候往往说要减小方差,假设一个模型的方差非常大那就说明模型不稳萣了。可是对于我们用于机器学习的数据(主要是训练数据)方差大才有意义,不然输入的数据都是同一个点那方差就为0了,这样输叺的多个数据就等同于一个数据了

    简而言之,主成分分析PCA留下主成分,剔除噪音是一种降维方法,限高斯分布n维眏射到k维,
  1. 求协方差的特征值和特征向量
  2. 取最大的k个特征值所对应的特征向量组成特征向量矩阵,
  3. 投影数据=原始样本矩阵x特征向量矩阵其依据为最慷慨差,最小平方误差或坐标轴相关度理论及矩阵奇异值***SVD(即SVD给PCA提供了另一种解释)。
    也就是说高斯是0均值,其方差定义了信噪比所以PCA是在对角化低维表示的协方差矩阵,故某一个角度而言仅仅须要理解方差、均值和协方差的物理意义,PCA就非常清晰了

    再换言之,PCA提供了一种减少数据维度的有效办法;假设分析者在原数据中除掉最小的特征值所对应的成分那么所得的低维度数据必然是最优化的(也即,这样减少维度必然是失去讯息最少的方法)主成分分析在分析复杂数据时尤为实用,比方人脸识别

    本节先给出如今一般的概率论与数理统计教材上所介绍的2个定理,然后简要介绍下中心极限定理的相关历史

3.2.1、独立同分布的中心极限定理

    独立中心极限定理例如鉯下两图所看到的:

3.2.2、棣莫弗-拉普拉斯中心极限定理

    在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展在現代概率论里面占有极其重要的位置。基于这一分析方法拉普拉斯通过近似计算,在他的1812年的名著《概率分析理论》中给出了中心极限萣理的一般描写叙述:

    这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了在如今大学本科的教材上,包含包含本文主要參栲之中的一个盛骤版的概率论与数理统计上通常给出的是中心极限定理的一般形式: 

    多么奇异的性质,随意的一个概率分布中生成的随機变量在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为统一的规约到正态分布。

    概率学家们进一步的研究结果更加令人吃惊序列求和终于要导出正态分布的条件并不须要这么苛刻,即便X1,?,Xn并不独立也不具有同样的概率分布形式,非常多时候他们求和的终于归宿仍然是正态分布

    在正态分布、中心极限定理的确立之下,20世纪之后统计学三大分布χ2分布、t分布、F分布也逐步登上历史舞台:

    如上所述,中心极限定理的历史可大致概括为:

  1. 中心极限定理理的第一版被法国数学家棣莫弗发现他在1733年发表的卓越论文中使鼡正态分布去预计大量抛掷硬币出现正面次数的分布;
  2. 1812年,法国数学家拉普拉斯在其巨著 Théorie Analytique des Probabilités中扩展了棣莫弗的理论指出二项分布可用囸态分布逼近;
  3. 1901年,俄国数学家李雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明

    如今,中心极限定理被覺得是(非正式地)概率论中的首席定理

第四节、从数理统计简史中看正态分布的历史由来

    本节将结合《数理统计学简史》一书,从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题有详有略,当中重点阐述正态分布的历史甴来。

相信你我能够想象得到,我们如今眼前所看到的正态分布曲线尽管看上去非常美但数学史上不论什么一个定理的发明差点儿都鈈可能一蹴而就,非常多往往经历了几代人的持续努力由于在科研上诸多观念的革新和突破是有着非常多的不易的,也许某个定理在某個时期由某个人点破了如今的我们看来一切都是理所当然,但在一切没有发现之前可能许很多多的顶级学者毕其功于一役,耗尽一生努力了几十年终于也是无功而返。

     如上文前三节所见如今概率论与数理统计的教材上,一上来介绍正态分布然后便给出其概率密度汾布函数,却从来没有说明这个分布函数是通过什么原理推导出来的如此,可能会导致你我在内的非常多人一直搞不明确数学家当年是怎么找到这个概率分布曲线的又是怎么发现随机误差服从这个奇异的分布的。我们在实践中大量的使用正态分布却对这个分布的来龙詓脉知之甚少。

    本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正态分布的神奇面纱

4.1、正态分布的定义

    上文中已经给出了正态分布的相关定义,咱们先再来回想下例如以下两图所看到的(来源:大嘴巴漫谈数据挖掘):

    楿信,经过上文诸多繁杂公式的轰炸读者或有些许不耐其烦,咱们接下来讲点有趣的内容:历史以下,咱们来结合数理统计简史一书及正态分布的前世今生系列,从古至今论述正态分布的历史由来

4.2、早期概率论:从萌芽到猜測术

4.2.1、惠更新的三个关于期望的定理

(一)惠哽新的论赌博的计算

    所谓概率,即指一个事件发生一种情况出现的可能性大小的数量指标,介于0和1之间这个概念最初形成于16世纪,说來可能令你意想不到凡事无绝对,早期非常多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可切割的联系能够說,这些赌博活动反而推动了概率论的早期发展

    历史是纷繁多杂的,咱们从惠更斯的机遇的规律一书入手此人指导过微积分的奠基者の中的一个的莱布尼兹学习数学,与牛顿等人也有交往终生未婚。如诸多历史上有名的人物一般他们之所以被后世的人们记住,是由於他们在某一个领域的杰出贡献这个贡献可能是提出了某一个定理或者公式,换句话来说就是现今人们口中所说的代表作,一个意思

    而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟摆擺动周期的公式:

    与此同一时候,惠更斯1657年发表了《论赌博中的计算》被觉得是概率论诞生的标志。同一时候对二次曲线、复杂曲线、懸链线、曳物线、对数螺线等平面曲线都有所研究

    《论赌博中的计算》中,惠更斯先从关于公平赌博值的一条公理出发推导出有关数學期望的三个基本定理,例如以下述内容所看到的:


  • 公理:每一个公平博弈的參与者愿意拿出经过计算的公平赌注冒险而不愿拿出很多其咜的数量即赌徒愿意押的赌注不大于其获得赌金的数学期望数。

    对这一公理至今仍有争议所谓公平赌注的数额并不清晰,它受很多因素嘚影响。但惠更斯由此所得关于数学期望的3 个命题具有重要意义这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反

关于数学期望的三个命题为:


  • 命题1  若某人在赌博中以等概率1/2获得赌金a元、b元,则其数学期望值为:a*1/2+b*1/2即为( a + b)/2;
  • 命题2  若某人在赌博中以等概率1/3获得赌金a 、b 元和c元 ,则其数学期望值为( a + b + c)/3元;

    这些今天看来都可作为数学期望定义不准确的说,数学期望来源于取平均值同一时候,依据上述惠更斯的3个命题不难证明:若某人在赌博中分别以概率p1...pk(p1+..+pk=1)分别赢得a1,..ak元那么其期望为p1*a1+...+pk*ak,这与本文第一节中关于离散型随机变量的期朢的定义全然一致(

各值与各值概率乘积之和

但惠更新关于概率论的讨论局限于赌博中而把概率论由局限于对赌博机遇的讨论扩展出去的則得益于伯努利,他在惠更新的论赌博中的计算一书出版的56年即1733年出版了划时代的著作:猜測术。伯努利在此书中不仅对惠更斯的关於掷骰子等赌博活动中出现的额各种情况的概率进行了计算,而且还提出了著名的“大数定律”这个定律在历史上甚至到今天,影响深遠兴许诸多的统计方法和理论都是建立在大数定律的基础上。

(三) 伯努利的大数定律及其怎样而来

    同样咱们在读中学的时候,之所以记住了伯努利这个人恐怕是由于物理课上,老师所讲的伯努利方程

    当然伯努利的贡献不仅在此,而在于他的大数定律那何谓伯努利大數定律呢?

    设在n次独立反复试验中事件X发生的次数为

。事件X在每次试验中发生的概率为P则对随意正数

    定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性就是说当n非常大时,事件发生的频率于概率有较大偏差的可能性非常小 

    咱们来看一个简单的袋中抽球的模型,袋中有a个白球b个黑球,则从袋中取出白球的概率为p=a/(a+b)有放回的充袋中抽球N次(每次抽取时保证袋Φa+b个球的每一个都有同等机会被抽出),记得抽到的白球的次数为X然后以X/N 这个值去预计p,这个预计方法至今仍是数理统计学中最主要的方法之中的一个

    伯努利试图证明的是:用X/N 预计p 能够达到其实的确定性,即:随意给定两个数

>0取足够大的抽取次数N,使得事件

表面预计誤差未达到制定的接近程度

    换句话说,我们须要证明的是当N充分无限大时X/N 无限逼近于p,用公式表达即为:

    尽管如今我们看来上述这个結论毫无疑问是理所当然的,但直到1909年才有波莱尔证明此外,此伯努利大数定律是我们今天所熟知的契比雪夫不等式的简单推论但须紸意的是在伯努利那个时代,并无“方差”这个概念更不用说从这个不等式而推论出伯努利大数定律了。

    此外常常使用的大数定律除叻伯努利大数定律之外,还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律这里略微提下辛钦大数定律,例如以下图所看到的

    在1733年,棣莫弗发展了用正态分布逼近二项分布的方法这对于当时而言,是一实质性的深远改进

4.3、棣莫弗的二项概率逼近

    同上攵中的惠更新,伯努利一样人们熟悉棣莫弗,想必是由于著名的棣莫弗公式例如以下:

据数理统计学简史一书上的说明,棣莫弗之所鉯投身到二项概率的研究非因伯努利之故,而又是赌博问题(赌博贡献非常大丫哈)有一天一个哥们,也许是个赌徒向棣莫弗提了一个囷赌博相关的一个问题:A,B两人在赌场里赌博,A,B各自的获胜概率是p和q=1?p赌n局,若A赢的局数X>np则A付给赌场X?np元,否则B付给赌场np?X元问赌场掙钱的期望值是多少?按定义可知此期望值为:

    上式的b(N,平i)为二项概率,棣莫弗终于在Np为整数的条件下得到:

    也就是说上述问题的本質上是上文第一节中所讲的一个二项分布尽管从上述公式能够集结此问题,但在N非常大时

计算不易,故棣莫弗想找到一个更方便于计算的近似公式


    棣莫弗后来尽管做了一些计算并得到了一些近似结果,可是还不够随后有人讲棣莫弗的研究工作告诉给了斯特林,于是便直接催生了在数学分析中必学的一个重要公式斯特林公式(斯特林公式最初发表于1730年,而后棣莫弗改进了斯特林公式):

    1733年棣莫弗有了┅个决定性意义的举动,他证明了当N趋于去穷时有下列式子成立:

    不要小瞧了这个公式。当它与上面给出的这个公式

    依据上面式子近姒地以定积分取代和,得到下式:

    不知道当读者读到这里的时候,是否从上式看出了些许端倪此式可隐藏了一个我们习以为常却极其偅要的概念。OK也许其形式不够明朗,借用rickjin的式子转化下:

    没错正态分布的概率密度(函数)在上述的积分公式中出现了!于此,我们得到叻一个结论原来二项分布的极限分布便是正态分布。与此同一时候还引出了统计学史上占领重要地位的中心极限定理。

    「棣莫弗-拉普拉斯定理设随机变量Xn(n=1,2...)服从參数为p的二项分布则对随意的x,恒有下式成立:

    我们便称此定理为中心极限定理而且还透露着一个极为偅要的信息:1730年,棣莫弗用二项分布逼近居然得到了正太密度函数并首次提出了中心极限定理。

    终于1780年,拉普拉斯建立了中心极限定悝的一般形式(也就是上文3.2节中所讲的中心极限定理的一般形式):


    棣莫弗的工作对数理统计学有着非常大的影响棣莫弗40年之后,拉普拉斯建立中心极限定理的一般形式20世纪30年代终于完毕独立和中心极限定理最一般的形式,在中心极限定理的基础之上统计学家们发现当样夲量趋于无穷时,一系列重要统计量的极限分布如二项分布都有正态分布的形式,也就是说这也构成了数理统计学中大样本方法的基礎。

    此外从上面的棣莫弗-拉普拉斯定理,你也许还没有看出什么蹊跷但我们能够这样理解:若取c充分大,则对足够大的N事件

|的概率鈳随意接近于1,由于

>0 有下式成立:

    而这就是上文中所讲的伯努利大数定律(注:上面讨论的是对称情况,即p=1/2的情况)

    我之所以不厌其烦的偠论述这个棣莫弗的二项概率逼近的相关过程,是想说明一点:各个定理.公式彼此之前是有着紧密联系的要善于发现当中的各种联系。

哃一时候另一个问题,相信读者已经意识到了如本文第一节内容所述,咱们的概率论与数理统计教材讲正态分布的时候一上来便给絀正态分布的概率密度(函数),然后告诉我们说符合这个概率密度(函数)的称为正态分布,紧接着阐述和证明相关性质最后说了一句:”茬自然现象和社会现象中,大量随机变量都服从或近似服从正态分布如人的身高,某零件长度的误差海洋波浪的高度“,然后呢然後什么也没说了。连正态分布中最主要的两个參数为

的的意义都不告诉我们(

位置參数即为数学期望尺度參数为即为方差,换句话说有叻期望和方差,就可以确定正态分布

随后教材上便開始讲数学期望,方差等概念最后才讲到中心极限定理。也许在读者阅读本文之后这些定理的先后发明顺序才得以知晓。殊不知:正态分布的概率密度(函数)形式首次发现于棣莫弗-拉普拉斯中心极限定理中即先有中心極限定理,而后才有正态分布(通过阅读下文4.6节你将知道高斯引入正太误差理论,才成就了正态分布反过来,拉普拉斯在高斯的工作之仩用中心极限定理论证了正态分布)

    如rickjin所言:’‘学家研究数学问题的进程非常少是依照我们数学课本的安排顺序推进的,现代的数学课夲都是依照数学内在的逻辑进行组织编排的尽管逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净DNA双螺旋结构的发现鍺之中的一个James Waston在他的名著《DNA双螺旋》序言中说:‘科学的发现非常少会像门外汉所想象的一样,依照直接了当合乎逻辑的方式进行的’ ’‘

前面,介绍了惠更斯、伯努利和棣莫弗等人的重大成果无疑在这些重要发明中,二项分布都占领着举重轻重的地位这在早期的概率统计史当中,也是唯一一个研究程度非常深的分布但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外,在18世纪中叶为了解決二项分布概率的预计问题,出现了一个影响极为广泛的贝叶斯方法贝叶斯方法经过长足的发展,如今已经成为数理统计学中的两个主偠学派之中的一个:贝叶斯学派牢牢占领数理统计学领域的半壁江山。

    据数理统计学简史一书托马斯.贝叶斯,此人在18世纪上半叶的欧洲学术界并不算得上非常知名,在提出贝叶斯定理之前也未发表过片纸仅仅字的科学论著,套用当今的话来说他便是活生生一个民間学术屌丝。

    未发表过不论什么科学著作但一个人假设热爱研究,喜好学术的话必找人交流。于此诸多重大发明定理都出如今学者の间的一些书信交流中。奇怪的是贝叶斯这方面的书信材料也不多。也许读者读到此处已知我意,会说这一切在他提出贝叶斯定理之後有了改变但读者朋友仅仅猜对了一半。

chances(机遇理论中一个问题的解)的遗作此文在他发表后非常长一段时间起,在学术界没有引起什么反响直到20世纪以来,突然受到人们的重视此文也因此成为贝叶斯学派最初的奠基石(又一个梵高式的人物)。

    有人说贝叶斯发表此文的动機是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题所谓逆概率,顾名思义就是求概率问题的逆问题:已知时间嘚概率为P,可由之计算某种观察结果的概率怎样;反过来给定了观察结果,问由之能够对概率P作何判断也就是说,正概率是由原因推結果称之为概率论;而逆概率是结果推原因,称之为数理统计

4.5、最小二乘法,数据分析的瑞士军刀

    其实在成百上千的各式各样的攻擊方法中,取算术平均恐怕是最广为人知使用也最为广泛的方法由于可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也常常把“平均说来”挂在嘴边故此节要讲的最小二乘法其实并不高罙,它的本质思想即是来源于此算术平均的方法

    不太精确的说,一部数理统计学的历史就是从纵横两个方向对算术平均进行不断深入研究的历史,

  • 纵的方面指平均值本身诸如伯努利及其后众多的大数定律,棣莫弗-拉普拉斯中心极限定理高斯的正太误差理论,这些在非常大程度上都能够视为对算术平均的研究成果甚至到方差,标准差等概念也是由平均值发展而来;
  • 横的方面中最为典型的就是此最小②乘法

    而算术平均也是解释最小二乘法的最简单的样例。使误差平方和达到最小以寻求预计值的方法则称为最小二乘预计(当然,取平方和作为目标函数知识众多可取的方法之中的一个比如也能够取误差4次方或绝对值和,取平方和是人类千百年实践中被证实行之有效的方法因此被普遍採用)。

     何谓最小二乘法实践中,常需寻找两变量之间的函数关系比方測定一个刀具的磨损速度,也就是说随着使鼡刀具的次数越多,刀具本身的厚度会逐渐减少故刀具厚度与使用时间将成线性关系,假设符合f(t)=at + b(t代表时间f(t)代表刀具本身厚度),ab是待确定的常数,那么a、b怎样确定呢

    最理想的情形就是选取这种a、b,能使直线y = at + b 所得到的值与实际中測量到的刀具厚度全然符合但實际上这是不可能的,由于误差总是存在难以避免的故因误差的存在,使得理论值与真实值存在偏差为使偏差最小通过偏差的平方和朂小确定系数a、b,从而确定两变量之间的函数关系f(t)= at + b

    这种通过偏差的平方和为最小的条件来确定常数a、b的方法,即为最小二乘法最尛二乘法的一般形式可表述为:

    在此,说点后话最小二乘法是与统计学有着密切联系的,由于观測值有随机误差所以它同正态分布一樣与误差论有着密切联系(说实话,最小二乘法试图解决的是误差最小的问题而正态分布则是试图寻找误差分布规律的问题,不管是最小②乘法还是正态分布的研究工作,至始至终都环绕着误差进行)

    那么,最小二乘法是怎样发明的呢据史料记载,最小二乘法最初是由法国数学家勒让德于1805年发明的那勒让德发明它的动机来源于哪呢?

    18世纪中叶包含勒让德、欧拉、拉普拉斯、高斯在内的很多天文学家囷数学家都对天文学上诸多问题的研究产生了浓厚的兴趣。比方以下问题:

  • 土星和木星是太阳系中的大行星由于相互吸引对各自的运动軌道产生了影响,很多大数学家包含欧拉和拉普拉斯都在基于长期积累的天文观測数据计算土星和木星的执行轨道。
  • 勒让德承担了一个政府给的重要任务測量通过巴黎的子午线的长度。
  • 海上航行经纬度的定位主要是通过对恒星和月面上的一些定点的观測来确定经纬度。

    这些问题都能够用例如以下数学模型描写叙述:我们想预计的量是β0,?,βp另有若干个能够測量的量x1,?,xp,y,这些量之间有线性关系

    怎样通過多组观測数据求解出參数β0,?,βp呢欧拉和拉普拉斯採用的都是求解线性方程组的方法。

可是面临的一个问题是有n组观測数据,p+1个变量假设n>p+1,则得到的线性矛盾方程组无法直接求解。所以欧拉和拉普拉斯採用的方法都是通过一定的对数据的观察把n个线性方程分为p+1組,然后把每一个组内的方程线性求和后归并为一个方程从而就把n个方程的方程组化为p+1个方程的方程组,进一步解方程求解參数这些方法初看有一些道理,可是都过于经验化无法形成统一处理这一类问题的一个通用解决框架。
以上求解线性矛盾方程的问题在如今的本科生看来都不困难就是统计学中的线性回归问题,直接用最小二乘法就攻克了可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能對这些问题提出有效的解决方式可见在科学研究中,要想在观念上有所突破并不easy有效的最小二乘法是勒让德在1805年发表的,基本思想就昰觉得測量中有误差所以全部方程的累积误差为:

    我们求解出导致累积误差最小的參数就可以。

上面我们已经看到是勒让德最初发明嘚最小二乘法,那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢(:勒让德时期的最小二乘法还仅仅是作为一个处悝測量数据的代数方法来讨论的,实际上与统计学并无多大关联仅仅有建立在了測量误差分布的概率理论之后,这种方法才足以成为一個统计学方法尽管拉普拉斯用他的中心极限定理定理也能够推导出最小二乘法,但不管是之前的棣莫弗还是当时的勒让德,还是拉普拉斯此时他们这些研究成果都还仅仅是一个数学表达式而非概率分布)。

由于1829年高斯提供了最小二乘法的优化效果强于其它方法的证明,即为高斯-马尔可夫定理也就是说勒让德最初提出了最小二乘法,而却是高斯让最小二乘法得以巩固而影响至今且高斯对最小二乘法嘚最大贡献在于他是建立在正太误差分布的理论基础之上的(兴许更是导出了误差服从正态分布的结论),最后1837年,统计学家们正式确立误差服从正态分布自此,人们方才真正确信:观測值与理论值的误差服从正态分布

4.6、误差分布曲线的建立

十八世纪,天文学的发展积累叻大量的天文学数据须要分析计算应该怎样来处理数据中的观測误差成为一个非常棘手的问题。我们在数据处理中常常使用平均的常识性法则千百年来的数据使用经验说明算术平均能够消除误差,提高精度平均有如此的魅力,道理何在之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:測量中的随机误差应该服从怎样的概率分布算术平均的优良性和误差的分布有怎样的密切联系?

    伽利略在他著名的《关于两个主要世界系统的对话》中对误差的分布做过一些定性的描写叙述,主要包含:


  • 误差是对称分布的分布在0的两側;
  • 大的误差出现频率低小的误差出现频率高。

    用数学的语言描写叙述也就是说误差分布函数f(x)关于0对稱分布,概率密度随|x|添加而减小这两个定性的描写叙述都非常符合常识。

4.6.1、辛普森的工作

    很多天文学家和数学家開始了寻找误差分布曲線的尝试托马斯?辛普森(Thomas Simpson,)先走出了有意义的一步。

Simpson的误差态分布曲线

取小值的机会更大辛普森的这个工作非常粗糙,可是这是第一次茬一个特定情况下从概率论的角度严格证明了算术平均的优良性。

4.6.2、拉普拉斯的工作

    在年间拉普拉斯也添加到了寻找误差分布函数的隊伍中。与辛普森不同拉普拉斯不是先假定一种误差分后去设法证明平均值的优良性,而是直接射向应该去怎么的分布为误差分布以忣在确定了误差分布之后,怎样依据观測值

    拉普拉斯假定误差密度函数f(x)满足例如以下性质:

C>0且为常数,由于

故当x<0,结合概率密度的性質之中的一个(

    由此终于1772年,拉普拉斯求得的分布密度函数为:

    这个概率密度函数如今被称为拉普拉斯分布:

拉普拉斯開始考虑怎样基於測量的结果去预计未知參数的值,即用什么方法通过观測值

呢要知道咱们现今所熟知的所谓点预计方法、矩预计方法,包含所谓的极夶似然预计法之类的当时可是都还没有发明。

    拉普拉斯能够算是一个贝叶斯主义者他的參数预计的原则和现代贝叶斯方法非常类似:假设先验分布是均匀的,计算出參数的后验分布后取后验分布的中值点,即1/2分位点作为參数预计值。可是基于这个误差分布函数做了┅些计算之后拉普拉斯发现计算过于复杂,终于没能给出什么实用的结果故拉普拉斯终于还是没能搞定误差分布的问题。

    至此整个18卋纪,能够说寻找误差分布的问题,依然进展甚微以下,便将轮到高斯出场了历史总是出人意料,高斯以及其简单的手法给了这個误差分布的问题一个圆满的解决,其结果也就成为了数理统计发展史上的一块重要的里程碑

4.6.3、高斯导出误差正态分布

其实,棣莫弗早茬1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式到了1780年后,拉普拉斯也推出了中心极限定理的一般形式但不管是棣莫弗,还是拉普拉斯此时他们这些研究成果都还仅仅是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上去思索而仅仅有到了1809年,高斯提出“正太误差”的理论之后它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视

   追夲溯源,正态分布理论这条大河的源头归根结底是測量误差理论那高斯究竟在正态分布的确立做了哪些贡献呢?请看下文

Piazzi发现了一颗從未见过的光度8等的星在移动,这颗如今被称作谷神星(Ceres)的小行星在夜空中出现6个星期扫过八度角后在就在太阳的光芒下没了踪影,無法观測而留下的观測数据有限,难以计算出他的轨道天文学家也因此无法确定这颗新星是彗星还是行星,这个问题非常快成了学术堺关注的焦点高斯当时已经是非常有名望的年轻数学家了,这个问题也引起了他的兴趣高斯一个小时之内就计算出了行星的轨道,并預言了它在夜空中出现的时间和位置1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里用望远镜对准了这片天空。果然不出所料谷神星出现了!

    高斯为此名声大震,可是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完好了相关的数学理论后才将他的方法發布于众,而当中使用的数据分析方法就是以正态误差分布为基础的最小二乘法。那高斯是怎样推导出误差分布为正态分布的呢请看丅文。

为n次独立測量值每次測量的误差为

,假设误差ei的密度函数为f(e)则測量值的联合概率为n个误差的联合概率,记为


    到此为止高斯的莋法实际上与拉普拉斯同样,但在继续往下进行时高斯提出了两个创新的想法。

便是:高斯并没有像前面的拉普拉斯那样採用贝叶斯的嶊理方式而是直接取L(θ)达到最小值的

的预计值,这也恰恰是他解决此问题採用的创新方法即


     如今我们把L(θ)称为样本的似然函数,而得箌的预计值θ?称为极大似然预计。高斯首次给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为參数预计中的极大似然预計理论
    高斯的第二点创新的想法是:他把整个问题的思考模式倒过来,既然千百年来大家都觉得算术平均是一个好的预计那么就直接先承认算术平均就是极大似然预计(换言之,极大似然预计导出的就应该是算术平均)所以高斯猜測:

    然后高斯再去寻找对应的误差密度函數

以迎合这一点。即寻找这种概率分布函数

,使得极大似然预计正好是算术平均

通过应用数学技巧求解这个函数f,高斯证明了全部的概率密喥函数中,唯一满足这个性质的就是(记为


    而这恰巧是我们所熟知的正态分布的密度函数

就这样,误差的正态分布就被高斯给推导出来叻!

    但高斯是怎样证明的呢?也就是说高斯是怎样一下子就把上面(11)式所述的概率密度函数给找出来的呢?例如以下图所看到的(摘自數理统计学简史第127页注2图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法,而下图最后所说的(11)式就是上面推导出来嘚概率密度函数):

    进一步高斯基于这个误差分布函数对最小二乘法给出了一个非常美丽的解释。对于最小二乘公式中涉及的每一个误差ei,有

则结合高斯的第一个创新方法:极大似然预计及上述的概率密度,(e1,?,en)的联合概率分布为


取最小值这正好就是最小二乘法的要求。

    高斯的这项工作对后世的影响极大它使正态分布同一时候有了”高斯分布“的名称,不止如此后世甚至也把最小二乘法的发明权也归功于他,由于他的这一系列突出贡献人们    採取了各种形式纪念他,如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线

借此表明在高斯的一切科学贡献中,尤以此”正太分布“的确立对人类文明的进程影响最大

  1. 如你所见,相比于勒让德1805给出的最小二乘法描写叙述高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然预计的思想又攻克了误差的概率密度汾布的问题,由此我们能够对误差大小的影响进行统计度量了
  2. 但事情就完了么?没有高斯设定了准则“最大似然预计应该导出优良的算术平均”,并导出了误差服从正态分布推导的形式上非常简洁优美。可是高斯给的准则在逻辑上并不足以让人全然信服由于算术平均的优良性当时很多其它的是一个经验直觉,缺乏严格的理论支持高斯的推导存在循环论证的味道:由于算术平均是优良的,推出误差必须服从正态分布;反过来又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性故当中不管正反论点嘟必须借助另一方论点作为其出发点,可是算术平均到并没有自行成立的理由

    也就是上面说到的高斯的第二点创新的想法他把整个问題的思考模式倒过来:既然千百年来大家都觉得算术平均是一个好的预计,那么就直接先承认算术平均就是极大似然预计(换言之极大似嘫预计导出的就应该是算术平均)”存在着隐患,而这一隐患的消除又还得靠咱们的老朋友拉普拉斯攻克了

  受高斯启示,拉普拉斯将误差嘚正态分布理论和中心极限定理联系起来提出了元误差解释。他指出假设误差能够看成很多微小量的叠加则依据他的中心极限定理,隨机误差理应当有高斯分布(换言之按中心极限定理来说,正态分布是由大量的但每一个作用较小的因素的作用导致而成)而20世纪中心极限定理的进一步发展,也给这个解释提供了很多其它的理论支持

  至此,误差分布曲线的寻找尘埃落定正态分布在误差分析中确立了自巳的地位。在整个正态分布被发现与应用的历史中棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它高斯把咜应用在误差分析中,殊途同归只是由于高斯在数学家中的名气实在是太大,正态分布的桂冠还是很多其它的被戴在了高斯的脑门上眼下数学界通行的用语是正态分布、高斯分布,两者并用

4.6.4、正态分布的时间简史

    至此,正态分布从首次出现到终于确立其时间简史为:

  1. 1705年,伯努力的著作猜測术问世提出伯努利大数定律;
  2. 年,棣莫弗从二项分布逼近得到正态密度函数首次提出中心极限定理;
  3. 1780年,拉普拉斯建立中心极限定理的一般形成;
  4. 1805年勒让德发明最小二乘法;
  5. 1809年,高斯引入正态误差理论不但补充了最小二乘法,而且首次导出囸态分布;
  6. 1811年拉普拉斯利用中心极限定理论证正态分布;
  7. 1837年,海根提出元误差学说自此之后,逐步正式确立误差服从正态分布

    如上所见,是先有的中心极限定理而后才有的正态分布(当然,最后拉普拉斯用中心极限定理论证了正态分布)能了解这些历史,想想都觉嘚是一件无比激动的事情。所以我们切勿以为概率论与数理统计的教材上是先讲的正态分布,而后才讲的中心极限定理而颠倒原有历史的发明演进过程。

第五节、论道正态正态分布的4大数学推导

如本blog内之前所说:凡是涉及到要证明的东西.理论,便一般不是怎么好惹的東西绝大部分时候,看懂一个东西不难但证明一个东西则须要点数学功底,进一步证明一个东西也不是特别难,难的是从零開始发奣创造这个东西的时候则更显艰难(由于不论什么时代,大部分人的研究所得都只是是基于前人的研究成果前人所做的是开创性工作,洏这往往是最艰难最有价值的他们被称为真正的先驱。牛顿也曾说过他只是是站在巨人的肩上。你我则更是如此)。

     上述第4节已经介紹了正态分布的历史由来但尚未涉及数学推导或证明,以下參考概率论沉思录,引用“正态分布的前世今生”等相关内容介绍推导囸太分布的4种方法,曲径通幽4条小径,殊途同归进一步领略正态分布的美妙。

    「注:本节主要整编自rickjin写的"正态分布的前后今生"系列

    苐一条小径是高斯找到的高斯以例如以下准则作为小径的出发点

误差分布导出的极大似然预计 = 算术平均值

次独立測量值,每次測量的误差为

则測量值的联合概率为n个误差的联合概率,记为



    由于高斯假设极大似然预计的解就是算术平均

把解带入上式,能够得到




而满足上式的唯一的连续函数就是

从而进一步能够求解出


正规化一下就得到正态分布密度函数

    第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年天文学家Herschel在对星星的位置进行測量的时候,须要考虑二维的误差分布为了推导这个误差的概率密度分布f(x,y),Herschel设置了两个准则:
  1. x轴和y軸的误差是相互独立的即误差的概率在正交的方向上相互独立;
  2. 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没囿关系

    这两个准则对于Herschel考虑的实际測量问题看起来都非常合理。由准则1能够得到


    把这个函数转换为极坐标,在极坐标下的概率密度函數设为


具有旋转对称性也就是应该和

,综合以上我们能够得到





就是标准二维正态分布函数。


    1860年我们伟大的物理学家麦克斯韦在考虑氣体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布

这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗


    所以这个分布其实是三个正态分布的乘积。你嘚物理老师是否告诉过你其实这个分布就是三维正态分布反正我是一直不知道,直到今年才明确

    Herschel-Maxwell推导的神妙之处在于,没有利用不论什么概率论的知识仅仅是基于空间几何的不变性,就推导出了正态分布美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有

的数学公式的时候,就会问:圆在哪里这个推导中使用到了

,也就是告诉我们正态分布密度公式中有个

其根源来在于二维正态分布中的等高线恰好是個圆。 研究通信电路中的噪声电压通过分析经验数据他发现噪声电压的分布模式非常类似,不同的是分布的层级而这个层级能够使用方差来刻画。因此他推理觉得噪声电压的分布函数形式是如今假设有一个相对于而言非常微小的误差扰动,且的分布函数是,那么新的噪聲电压是Landon提出了例如以下的准则

  1. 随机噪声具有稳定的分布模式
  2. 累加一个微小的随机噪声,不改变其稳定的分布模式仅仅改变分布的层級(用方差度量)

应该长成啥样。依照两个随机变量和的分布的计算方式

的分布函数的卷积,即有


在x′处做泰勒级数展开(为了方便展开后紦自变量由x′替换为x),上式能够展开为



,我们觉得他取正值或者负值是对称的所以


,所以依照Landon的分布函数模式不变的假设,新的噪声电压的汾布函数应该为把

处做泰勒级数展开,得到


    比較(8)和(9)这两个式子能够得到例如以下偏微分方程

概率论沉思录作者E.T.Jaynes对于这个推导的评价非瑺高,觉得Landon的推导本质上给出了自然界的噪音形成的过程他指出这个推导基本上就是中心极限定理的增量式版本号,相比于中心极限定悝来说是一次性累加全部的因素,Landon的推导是每次在原有的分布上去累加一个微小的扰动而在这个推导中,我们看到正态分布具有相當好的稳定性;仅仅要数据中正态的模式已经形成,他就easy继续保持正态分布不管外部累加的随机噪声

是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉

5.4、正态分布和最大熵

    另一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献他在《概率论沉思录》里面对这种方法有描写叙述和证明,没有提到发现者只是难以确认这条道的发现者是否是Jaynes本人。

    熵在物理学中由来已久信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,读者中非常多人可能都知道眼下机器学习中有一个非常好用的分类算法叫最大熵分类器要想把熵和最大熵的来龙去脉说清晰可不easy,只是这条道的风景是相当独特的E.T.Jaynes对这条道也是偏爱有加。


(给定均值和方差这个条件也能夠描写叙述为给定一阶原点矩和二阶原点矩,这两个条件是等价的)则在全部满足这两个限制的概率分布中熵最大的概率分布

    这个结论的嶊导数学上略微有点复杂,只是假设已经猜到了给定限制条件下最大熵的分布是正态分布要证明这个猜測却是非常easy的,证明的思路例如鉯下


读者注意:经好友白石指正,上述等式右边的第一项p(x)之后,1/p(x) 之前少画了个log符号

    熟悉信息论的读者都知道这个式子是信息论中的非常著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号仅仅有取


的均值方差有例如以下限制:


的时候上式能够取到等号,这僦证明了结论


    E.T.Jaynes显然对正态分布具有这种性质极为赞赏,由于这从信息论的角度证明了正态分布的优良性而我们能够看到,正态分布熵嘚大小取决于方差的大小。这也easy理解由于正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的而熵的大小反應概率分布中的信息量,显然和密度函数的形状相关

   所谓横看成岭側成峰,远近高低各不同正态分布给人们提供了多种赞赏角度和想潒空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话引用来作为这个小节的结束:

    OK,尽管上文已经花了如此多的篇幅讲了那么多的概念然其实,在概率论与数理统计中上文所讲的概念尚不到1/3,限于篇幅还有诸多概念没有阐述完毕,例如以下图所看到的:

So如上,之前微博上 说要写的概率论与数理统计的科普blog已经初步整理完毕(当然兴许一个星期之内会继续修补完好)。从前天晚上開始连续写了两天,花了半身力气文章若有不论什么问题,欢迎指正尤能给出批评修订意见,则倍感荣幸谢谢。.同一时候但全蔀以上这些绝大部分都仅仅是概率论与数理统计的基础知识,因此本文仅仅能作个科普之效若要深入学习,还是烦请读者朋友们阅读相關书籍或加以动手实践。

    本文之后待写的几篇文章罗列例如以下,详细完毕时间全部待定:


  1. 机器学习中相关的降维方法如PCA/LDA等等;
  2. 神經网络入门学习导论;
  3.  (2013年3月已经写好,点击左边链接查看);

在页面上有一个按钮点击按钮時随机从一个数组中随机抽取一个数据显示到页面上.

要求: 从A数据组取出数据的概率是十分之一, 即点按钮10次,只有一次从A数据组中取,另九次从B數据组中取,请问怎么实现?

拍照搜题秒出***,一键查看所有搜题记录

拍照搜题秒出***,一键查看所有搜题记录

概率统计(数学期望和方差)
有一群人受某种病的感染率占20%,现在随机从他们中間抽取50人,其中患有病的数学期望和方差. 首先,我们先求分布率.我只想知道是0——1分布,还是二项分布,单看题目,我感觉应该是0--1分布,如果是二项分咘,那不是要求50个结果?,期望和方差我自己会求

拍照搜题秒出***,一键查看所有搜题记录

参考资料

 

随机推荐