不列颠智商测试题国际标准怎么玩最后一关

www.51yue.net 2012-05-22 标签：智商测试

　　对从事智力工作的人来说，能力很重要，不过韦克斯勒认为，这并不是"唯一重要的或首当其冲的因素"。他把有关智力的"其他东西"诸如热情、执著、规划能力等称做"非智力因素"。韦克斯勒甚至还试图测定这些非智力因素，而且还发明了测试方法，不过始终不成功。所以，如今他留给人类的，不过是据称能测定常规智力的测试方法而已。

　　尽管没有理论基础，尽管韦克斯勒因其测评方法过分狭隘如鲠在喉，人类依然沿用着韦氏测评，似乎它能够解析人们的大部分或全部认知能力。例如，利用韦氏测评作私立学校入学测评的心理学家们往往会说，学校特别看重韦氏儿童智力测评和韦氏幼儿智力测评(测试小小孩的方法)，将其看做测定孩子未来学习能力的方法。学校完全不会考虑孩子的非智力因素。

　　各种各样的早期韦氏测评题无非是拼凑而成的，差不多就像捆扎木筏那样拼凑而成。人们的思维究竟可以调动到什么程度，通过韦氏测评能否真实地揭示出来?常见的情况是，一些思维足够敏捷然而未受过教育的人，在口头问答环节得分相当低。不过，这样的结果并不能套用到非口头动手类题型里。例如，做非口头韦氏***智力矩阵推理测时，在看完一系列图片后，应试者必须按要求回答提问。

　　做最初级的题型时--难度会随着做题的进程逐级增加--心理学家会向应试者出示一系列图片，第一幅画着没有色彩的盒子，尔后是填了色彩的盒子，再往后是一支没填色彩的箭。应试者应当由此推导出，最后一步是一支填了色彩的箭。

　　 "这些题非常重要，因为它们和学校里教的知识毫无关系。"在阿特金斯案庭审期间，纳尔逊博士如是说。"应试者是否上过学，完全无关紧要。所有接受过传统教育的人，没人做过这样的东西。"

　　心理学家们始终保留着一些秘不示人的玄机，这是其一。不过，正规教育和个人阅历对所有智商测试和题型都有影响。例如生日这种看起来根本不靠谱的东西，也可以决定9岁的孩子应该上三年级还是四年级。一般来说，四年级的9岁孩子比三年级的9岁孩子智商高，这一点在非口头测试中的抽象推理题型上反映得相当准确，韦氏***智力矩阵推理测评题即如是。

　　和人们的直觉正相反，最终的结果证明，比起直接针对知识(例如词汇和算术)的测试，非口头测试更容易受人们生活环境的影响。

　　 3）弗林——智商测试为何逐年提高

　　 20世纪80年代，一位名叫詹姆斯·弗林的新西兰政治科学家发现，在发达国家的圈子里，智商测试的分数一直在逐年上升，前一代人和后一代人之间的分数差距非常大。

　　弗林向各国的学术界人士散发了一份调查表，要求他们尽最大可能由远及近追溯人们的智商测试分数，然后反馈给他。最初，他仅能从14个国家得到反馈信息。从20世纪40年代到50年代，这些国家常常用相同的方法为军队里的人作测试。

　　到20世纪90年代，弗林已经搜集了20个国家的信息。尽管各国的考试时间长短不一，应试者做的试卷却完全相同，因此弗林可以轻而易举地比较两三代人之间的分数差异。

　　弗林最感兴趣的智力测验是瑞文渐进测评。韦氏***智力矩阵推理测评题即源自该测评。从20世纪30年代问世以来，瑞文测评中的60道题在很长一个时期一直没什么变化，因此该测评成了对比各个时代智商分数的理想工具。用弗林的话来说，瑞文测评的内容没什么"文化内涵"，避开了人们在学校、工作场合，以及其他有文化氛围的地方常见的文字和标记。

　　心理学家们认为，矩阵测评测定的是"流动的"智力--现场推断问题的智力和解决问题的智力，其对立面为后天获得的知识，即"固化的"智力。固化的智力例如用词汇测验即可检测出来。

　　许多心理学家同时还认为，利用瑞文测评测定常规智力指数是最靠得住的方法。所以，弗林的研究成果公开发表之前，许多专家认为，瑞文测评的分数在好几代人之内会维持稳定。和前一代人相比，后一代人不可能在很短的时间变得天生聪颖，对吧?

他们大错特错了。从世界范围来说，瑞文测评的分值每年都在提高。仅举一个实例为证：1945年以来，荷兰军方每年都用相同的简易版瑞文测评(从60道题里选取40道题)测验年满l8岁的入伍新兵。随着时间的延续，能够在选出的40道题里答对24道以上的人或多或少在逐年增加。1952年，仅有31％的人达标；l962年，比率已经提高到46％；l972年，63％的人能够答对24道题以上；1981年到1982年问，82％的人能够达标。这表明，在过去30年问，智商测试的分值平均增长了20个点。虽然弗林从各国搜集来的数据不尽相同，上述发现确实是有力的证明。

　　可想而知，弗林的研究成果在心理学界引起了巨大的恐慌和激烈的辩论。自从智商测试横空出世以来，心理学家们一向坚信，他们可以通过智商测试解析应试者理解周围事物的能力。加利福尼亚州立大学的著名心理学家阿瑟·詹森曾经说过，智商测试得分为75的人能够沉浸于棒球赛的氛围里，却无法正确理解比赛规则和棒联运作细则，甚至也不清楚每支球队有几个球员。

　　智商测试的成绩和人们的智力究竟是什么关系，弗林的发现使人们更难以推论了。

　　弗林曾经提到："有一位从教30年的荷兰女性，她的智商测试分数为ll0，不妨以她为例进行说明。l952年，她的聪明超过高年级75％的学生；1967年时，她和学生的水平旗鼓相当；到l982年，75％的学生比她更聪明了。是否其他荷兰老师的从教经历和这位女士一样呢?"

和如今的成年人的智商分数相比，出生于l877年的人究竟表现如何，涉及瑞文测评的另外两项研究成果有助于科研人员进行这样的对比。1942年，参加瑞文测评的英国成年人，年龄跨度从25岁到65岁。l992年，科研人员请来一组年龄完全对应的人作了完全相同的测试。近年出生的几代人得分明显高于早年出生的几代人。和维多利亚时代25岁的人相比，l992年，处于相同年龄的人显然聪明了许多。弗林推测，按照如今的标准，19世纪末期，不列颠至少有70％的人智商低于75分。如果智商测试确确实实能测定智力，那么，19世纪的人有能力做出正常人做的事吗?

　　 "板球运动是l9世纪末期不列颠人的主要兴趣之所在，推测当年有70％的人不懂比赛规则，这道理说得通吗?"弗林曾经这样质疑过。"军事信息的准确性毋庸置疑，在道理上却同样无法自圆其说。足球是全体荷兰人最喜爱的运动，难道我们可以推断，l952年有40％的荷兰人缺少看懂足球赛的能力?"

　　有趣的是，从世界范围看，诸如斯坦福-宾尼特智力测试和韦氏测评等与教育有关的智商测试的分数也在看长。抛开国别差异不说，各代人之间的平均分差在9到18之间。总的来说，如果智商的分数确实在看长，考卷和题型与教育联系越紧密，分数的长幅会越小。例如，在韦氏测评试卷的算术部分和词汇部分应试者的分数似乎总是不见长(不知出于什么原因，德国在这方面是个例外；德国人学习刻苦，学会新词的速度极快)。

　　智商测试的分数为什么会逐渐升高，没有人知道确切的原因。是由于普惠制的教育，还是由于计算机游戏的存在，或是由于考试多了熟能生巧，甚至是由于营养的改善，抑或是多种原因的综合?学术界对此争论得不可开交。不过，有一点人们却没有异议：未见人类的遗传基因有任何突变。

　　 "智商的大规模提升不可能是由于遗传因素。"弗林曾经这样写道。"即便在一代人之内将智商的分数提高微不足道的一个点，不同的社会阶层在生殖方面的微小差异都必须变得无穷大。"

对那些相信智商测试可以用来测定智力的心理学家们来说，无论智力是否与生俱来，每隔一代，人们的智商分数都会显著提高，这对他们是个相当沉重的打击。难道如今三十多岁的这批人比他们的父母聪明了许多?弗林曾经论述道：专利的注册数量和学术的重大突破未见显著上升；人们在迟缓地前行--效率高也罢，效率低也罢，人们的聪颖和愚钝一如既往。尽管许多心理学家发出的声音不同，不断上升的智商测试分数有力地证明，智商测试测定的是人们的学识和"抽象解决问题的能力"。

　　正如弗林所言："心理学家们应当三缄其口，不要再说智商测试能测定智力以及诸如此类的话。他们应当说，智商测试能够测定人们解决抽象问题的能力。这一术语精确地解释了我们的无知。我们都知道，人们作智商测试的过程就是解决问题的过程。我们会认为，这些问题离我们太遥远，和现实相比太抽象。随着时间的流逝，人们解决现实世界问题的能力会淡化，这种能力即是智力。除此而外，我们对智力知之甚少。"

　　在现实世界里，人们如何认识智商测试究竟能测出什么非常重要。如果达里尔·阿特金斯的词汇量极少，家里的水管爆裂后不知所措，也不知道如何做算术，我们就无法判断，他是缺乏知识呢，还是常规智力指数特别低。如果是前者，他就有足够的悟性规划一次谋杀，他也会清楚司法程序。如果是后者，凭良心说，从生物学的角度看，他已经傻到了家，因而不能对他施以死刑。

　　附5张据说高智商才能看懂的图

　　文字之美，精神之渊。阅读更多好书、好文章，请搜索关注凤凰读书微信公众号（ID：ifengbook）

　　长按二维码向我转账

受苹果公司新规定影响，微信 iOS 版的赞赏功能被关闭，可通过二维码转账支持公众号。

人杀人了，如何免于罪行？

除了社会新闻看到“精神病”，还可能是因为智商。

1996年8月份，达里尔·阿特金斯因涉嫌杀害一名空军士兵而入狱。为此，阿特金斯以抢劫和故意杀人罪被判死刑。而1998年时阿特金斯接受智商测试的结果为59，低于死刑最低智商标准———70。

美国最高法院因此在2002年重新听审这一案件后认为，阿特金斯智商过低，处死智力如此低下的犯人是“残忍而不合常理的”，阿特金斯由此侥幸保命。但是，2005年的智商测试结果却显示阿特金斯有变聪明的迹象，智商达到了74-76之间。

围绕着阿特金斯究竟是否“弱智”的问题，控辩双方展开了一场拉锯战。美国法院在2009年最终认定阿特金斯的智力水平能够承担死刑罪名，对其判处死刑。

而现在已经不是太火的“智商测试”，到底能测出什么？

大多数心理学家坚信，他们能够测定智力，而且，他们测定的东西非常重要。

一位处于学术前沿的心理学家在电子邮件中写道："人和人之间的差异体现的是巨大的社会和政治内涵。智力是人们最为重要的差异之一，而智商测试可以揭示这些差异。"

如何给智力下定义，长期以来，心理学家们争论不休。争议最大的是，智力究竟为何物。自从查尔斯·斯皮尔曼命名常规智力以来，大多数定义都可以九九归一为一个词语："思维能力"。

达里尔·阿特金斯案第一次开庭时，埃文·纳尔逊博士把智力定义为"某种用于思维、推理、理解的能力。在理想的社会环境里，智力和受教育的程度毫无关系。它主要指的是思维能力，某种程度上指的是知识。不过，人们常常梳理不清这两者之间的关系"。纳尔逊认为，阿特金斯的智商成绩为59分，恰恰忠实地反映了他"当前的智力水平"。

那么，阿特金斯的智商指数为59，这究竟意味着什么呢?研究一下智力测试的基本结构，有助于解开这一疑团。

纳尔逊博士用来测定阿特金斯的韦氏***智力测评-Ⅲ之类的智商测试，通常由"口头"提问和"非口头"提问组成。因为，上个世纪初，美国的心理医生们的测试对象包括识字的、不识字的以及不会说英语的人群(口头提问方式甚至包括数学问题)。这种口头和非口头试题结构并非基于智力理论，亦非基于某种精细的人脑功能模块，而是历史原因使然。

第一次世界大战期间，在埃利斯岛工作的医生们，以及在美国军队里工作的心理学家们，他们面对的是许多读不懂英文的人，因此他们需要采用非口头的"动手"作答的提问方式--比如利用拼图块拼出一艘舰艇的图案--测定智力。这种解题方式后来为军队的B试卷所采用，最终被韦氏***智力测评和其他韦氏测评方法所采用。

韦氏***智力测评中的口头答题方式主要取自军队的A试卷。这种为识字的人设计的测试方法来自更早的实践活动，例如刘易斯·特曼引进的埃尔弗雷德·宾尼特的方法。

因此，今天的心理学家们利用韦氏***智力测评测定智力时，他们实际上是在废旧的钢轨上跑今天的火车。这类测试并非基于什么理论，而是基于前人的实践。第一次世界大战前，埃尔弗雷德·宾尼特的试卷中有这样的问题："如果某人得罪了你，向你道歉，你应当做什么?"军队的A试卷测试的不过是常识问题，实例如下：

水结冰会胀破水管，其原因为：

阿特金斯案第一次开庭时，纳尔逊在出庭过程中列举的韦氏***智力测评中测定常识的一个问题，与上述题型有异曲同工之处。他说的例题是："如果你家的水管破裂，你该做什么?"

这一类取自试卷"阅读理解部分"的题，明显而鲜明地指向人们所学的知识和所受的教育，以及范围更广的，应试者的所有生活阅历。如果应试者是个未受过教育的来自密西西比三角洲的农场打工者，此人就不太可能知道英国剧作家莎士比亚是《哈姆雷特》的作者。这是纳尔逊在出庭过程中列举的另一个例子。如果应试者具备哈佛大学文学博士的头衔，情况会大为不同。

自1939年诞生以来，韦氏***智力测评-Ⅲ里的题型几乎没有什么变化，不仅阅读理解部分如是，其他部分也如是。现如今，在韦氏***智力测评-Ⅲ的l4类题型里，仅有两类题型源自20世纪60年代以来的设计，另有一类源自20世纪30年代的设计，剩下的11类源自第一次世界大战前。

比如，早在l9世纪80年代，弗朗西斯·高尔顿就采用了背诵数字串，即鹦鹉学舌般背诵一串数字(正着背诵和倒着背诵)。如今它仍然是韦氏***智力测评试卷里的题型之一。

说实在的，大多数口头问答的题型源自埃尔弗雷德·宾尼特的测试套题。智力究竟是什么，宾尼特对此没发表什么言论。他的看法是，通过测试不同年龄段的孩子的语言能力和推理能力，可以将他们区分开来。20世纪30年代的人物大卫·韦克斯勒(DavidWech-sler，各种韦氏***智力测评的发明人)除了开发测试题，也没提出过什么理论，或极少提及理论。而且，直到世纪末，他开发的题型几乎还是当初的老样子。

简而言之，如今的智力测试没有理论依据，人们不过是利用已经掌握的能力对人群草率地加以群分而已。

宾尼特的高明之处在于，他提出，智力测试者应当测定人们更高层次的推理能力，例如抽象思维。因此，他为法国的在校学生设计的题型包括找出"苍蝇和蚂蚁"、"深红色和血红色"、"报纸、标签、图画"的相同之处。这种找相同点的题型如今仍然存在于测试美国成年人的韦氏***智力测评-Ⅲ中。

心理学家们为韦氏***智力测评-Ⅲ制定的《考试指南》里有这样一句话："抽象能力分值应当计入总成绩。"如今这一《指南》已被广为采用。"回答可以是抽象的(例如：桌子和椅子均为'家具')、具体的(例如：裤子和领带均为'棉织品')或功能性的(例如：地图和指南针'可用于确定方向')。"与此相同的是，对阅读理解部分里的问题作具体解释，远不如对诸如"这山望着那山高"等熟语作抽象解释得分高。

韦氏***智力测评-Ⅲ里有七个部分为口头问答题，其中六个部分源自刘易斯·特曼早在1916年发表的斯坦福-宾尼特智力测试题，以及(或者)第一次世界大战期间军队采用的A试卷。与此相同的是，试卷中有七个部分为非口头问答题，其中四个部分源自军队的试卷。"看图答题部分"--例如，指出兔子少了一只耳朵，网球和球网相匹配--在第一次世界大战期间以及大战之前即已存在，出现于同一时期的还有"图形组合部分"和"数字符号编码部分"。在埃利斯岛上工作的医生们发明的积木(移民们用其拼出完整的图案)至今仍然是各种韦氏测评的主要题型。医生们认为每个人都应该会做的拼图--例如船或人脸的侧影，也诞生于那一时期。

自从埃尔弗雷德·宾尼特于l905年发表第一套测试题以来，已经过去了上百年。智商测试技术(智商究竟是什么，人类并没有充分认识，也没有达成一致)源自实用的必然和历史的必然，自出现至今几乎没发生过什么变化。变化确实有，不过往往只是形式上的改变。

例如，为应付大规模的测试，采用了单项选择的形式；为适应美国和其他地方的文化背景，题型都进行了入乡随俗式的改造。在韦氏测评和其他智商测试中业已存在数十年的口头问答题和"动手"作答的提问方式，并非出自智力理论或认知理论，而是出自特殊的历史需求，出自对考试成绩和卷面成绩，以及预测未来的某种力量对比关系的统计。心理学抗拒改变，致使智商测试长期以来一直沿袭着固有的结构。

第一次世界大战期间，大卫·韦克斯勒不过是年轻的军队监考人员中的一员。那时候，他刚刚完成美国哥伦比亚大学的硕士研究生学业。战前以及战后，包括在军队服役期间，身为学生的韦克斯勒，有机会和当时差不多所有名声斐然的心理学家共同从事研究和工作。在此过程中，韦克斯勒接触到了心理学对智力的全方位思考。

在哥伦比亚学期间，韦克斯勒师从詹姆斯·麦基恩·卡特尔，我们在第二章里介绍过此人，他的人体检查数据和智力测试分数无论纵向还是横向都没有比对性。韦克斯勒和心理学家艾德华·桑代克(EdwardThorndike)也一起共过事，后者坚信，智力由独立的、特殊的能力构成，也即是说，其构成并非单一。韦克斯勒在英国学习了数个月，其间师从查尔斯·斯皮尔曼，后者因命名了常规智力而享誉天下。韦克斯勒在法国期间，和其他许多心理学家共过事。

面对如此众多并且相互矛盾的观点，韦克斯勒表现得极为现实。他总结道：那些高水平的心理学家们"全都没错"。这完全称不上是纯粹基于理论的观点。不过，持这样的态度，使他在创作测试题时显得特别灵活和特别开放。

20世纪30年代，韦克斯勒将人们在第一次世界大战期间应用烂熟的测试方法和当年心理学家们所熟知的其他测试方法一勺烩，使之成为一种可行的、多用途的考试方法。心理学家们对他的方法爱不释手，导致刘易斯·特曼的斯坦福-宾尼特智力测试套题相形见绌。

对于大卫·韦克斯勒试题的出处，那些拥有执照的心理学家在使用试题的过程中也有过担心。乔治梅森大学的杰克·纳格利埃里(JackNaglieri)是一位学院派心理学家，他常常在全美各地作报告。

在作报告的过程中，他常常向听众演示美国军方在第一次世界大战时期的试题。看见这些试题，"人们会问，怎么看起来像韦氏测评试题啊?这时候我会解释说，当然啦，确实如此，因为韦克斯勒的试题都是剽窃的……韦克斯勒所做的不过是把'一战'时期的规模化测试改成了一对一的测试。他所做的不过如此……他的实际贡献是，他提供了一种心理医生们能够在诊所里使用的测试方法"。

韦克斯勒的第一套测试题发表于l939年，其名称为韦克斯勒-贝尔维智力测评。与之前的测试相比，它最大的不同在于，心理学家们要求应试者做的题型既包括口头问答，也包括非口头问答。对于当年的许多心理学家而言，将这两类问答题放在一起毫无意义。

对于能阅读英文以及能说英语的人们来说，让他们做动手题，回答非口头问题--例如摆弄木头块，拼图案--还有什么意义呢?与从前的老前辈埃尔弗雷德·宾尼特和查尔斯·斯皮尔曼如出一辙，韦克斯勒也认为，心理学家们应当测定各种各样的智能。

同时他还认为，动手题能够让检测者深入窥探他人可以测出来的智力，尤其能够深入窥探人们的个性。韦克斯勒清楚，试卷的各个部分之间相互关联得非常好，也即是说，能够做好词汇部分和算术部分的人，同样能够做好动手题。这仅仅是个例子。所以，从某种程度上说，这些活动在智力上是互通的。

总体上说，每当人们问韦克斯勒，他的试题究竟能测出什么，他一向出言谨慎。他说过，通过做他的试卷，可以得到一个分数，例如达里尔·阿特金斯的得分为59。

他认为，测试的得分可以量化人们从事智力工作的能力。他还认为，智商测试无法直接测定人们的智力。无论他的试卷能测出什么，他曾经白纸黑字地表述过："测出的肯定不是某种单一因素能够表示清楚的东西，无论如何也不能用人们常说的词汇进行定义，例如智能、演绎能力、智慧因素等等，更不用说常规智力指数了。智力可能是这个东西，也可能是其他东西。"

对从事智力工作的人来说，能力很重要，不过韦克斯勒认为，这并不是"唯一重要的或首当其冲的因素"。他把有关智力的"其他东西"诸如热情、执著、规划能力等称做"非智力因素"。韦克斯勒甚至还试图测定这些非智力因素，而且还发明了测试方法，不过始终不成功。所以，如今他留给人类的，不过是据称能测定常规智力的测试方法而已。

尽管没有理论基础，尽管韦克斯勒因其测评方法过分狭隘如鲠在喉，人类依然沿用着韦氏测评，似乎它能够解析人们的大部分或全部认知能力。例如，利用韦氏测评作私立学校入学测评的心理学家们往往会说，学校特别看重韦氏儿童智力测评和韦氏幼儿智力测评(测试小小孩的方法)，将其看做测定孩子未来学习能力的方法。学校完全不会考虑孩子的非智力因素。

各种各样的早期韦氏测评题无非是拼凑而成的，差不多就像捆扎木筏那样拼凑而成。人们的思维究竟可以调动到什么程度，通过韦氏测评能否真实地揭示出来?常见的情况是，一些思维足够敏捷然而未受过教育的人，在口头问答环节得分相当低。不过，这样的结果并不能套用到非口头动手类题型里。例如，做非口头韦氏***智力矩阵推理测时，在看完一系列图片后，应试者必须按要求回答提问。

做最初级的题型时--难度会随着做题的进程逐级增加--心理学家会向应试者出示一系列图片，第一幅画着没有色彩的盒子，尔后是填了色彩的盒子，再往后是一支没填色彩的箭。应试者应当由此推导出，最后一步是一支填了色彩的箭。

"这些题非常重要，因为它们和学校里教的知识毫无关系。"在阿特金斯案庭审期间，纳尔逊博士如是说。"应试者是否上过学，完全无关紧要。所有接受过传统教育的人，没人做过这样的东西。"

心理学家们始终保留着一些秘不示人的玄机，这是其一。不过，正规教育和个人阅历对所有智商测试和题型都有影响。例如生日这种看起来根本不靠谱的东西，也可以决定9岁的孩子应该上三年级还是四年级。一般来说，四年级的9岁孩子比三年级的9岁孩子智商高，这一点在非口头测试中的抽象推理题型上反映得相当准确，韦氏***智力矩阵推理测评题即如是。

和人们的直觉正相反，最终的结果证明，比起直接针对知识(例如词汇和算术)的测试，非口头测试更容易受人们生活环境的影响。

3）弗林——智商测试为何逐年提高

20世纪80年代，一位名叫詹姆斯·弗林的新西兰政治科学家发现，在发达国家的圈子里，智商测试的分数一直在逐年上升，前一代人和后一代人之间的分数差距非常大。

弗林向各国的学术界人士散发了一份调查表，要求他们尽最大可能由远及近追溯人们的智商测试分数，然后反馈给他。最初，他仅能从14个国家得到反馈信息。从20世纪40年代到50年代，这些国家常常用相同的方法为军队里的人作测试。

到20世纪90年代，弗林已经搜集了20个国家的信息。尽管各国的考试时间长短不一，应试者做的试卷却完全相同，因此弗林可以轻而易举地比较两三代人之间的分数差异。

弗林最感兴趣的智力测验是瑞文渐进测评。韦氏***智力矩阵推理测评题即源自该测评。从20世纪30年代问世以来，瑞文测评中的60道题在很长一个时期一直没什么变化，因此该测评成了对比各个时代智商分数的理想工具。用弗林的话来说，瑞文测评的内容没什么"文化内涵"，避开了人们在学校、工作场合，以及其他有文化氛围的地方常见的文字和标记。

心理学家们认为，矩阵测评测定的是"流动的"智力--现场推断问题的智力和解决问题的智力，其对立面为后天获得的知识，即"固化的"智力。固化的智力例如用词汇测验即可检测出来。

许多心理学家同时还认为，利用瑞文测评测定常规智力指数是最靠得住的方法。所以，弗林的研究成果公开发表之前，许多专家认为，瑞文测评的分数在好几代人之内会维持稳定。和前一代人相比，后一代人不可能在很短的时间变得天生聪颖，对吧?

他们大错特错了。从世界范围来说，瑞文测评的分值每年都在提高。仅举一个实例为证：1945年以来，荷兰军方每年都用相同的简易版瑞文测评(从60道题里选取40道题)测验年满l8岁的入伍新兵。随着时间的延续，能够在选出的40道题里答对24道以上的人或多或少在逐年增加。1952年，仅有31％的人达标；l962年，比率已经提高到46％；l972年，63％的人能够答对24道题以上；1981年到1982年问，82％的人能够达标。这表明，在过去30年问，智商测试的分值平均增长了20个点。虽然弗林从各国搜集来的数据不尽相同，上述发现确实是有力的证明。

可想而知，弗林的研究成果在心理学界引起了巨大的恐慌和激烈的辩论。自从智商测试横空出世以来，心理学家们一向坚信，他们可以通过智商测试解析应试者理解周围事物的能力。加利福尼亚州立大学的著名心理学家阿瑟·詹森曾经说过，智商测试得分为75的人能够沉浸于棒球赛的氛围里，却无法正确理解比赛规则和棒联运作细则，甚至也不清楚每支球队有几个球员。

智商测试的成绩和人们的智力究竟是什么关系，弗林的发现使人们更难以推论了。

弗林曾经提到："有一位从教30年的荷兰女性，她的智商测试分数为ll0，不妨以她为例进行说明。l952年，她的聪明超过高年级75％的学生；1967年时，她和学生的水平旗鼓相当；到l982年，75％的学生比她更聪明了。是否其他荷兰老师的从教经历和这位女士一样呢?"

和如今的成年人的智商分数相比，出生于l877年的人究竟表现如何，涉及瑞文测评的另外两项研究成果有助于科研人员进行这样的对比。1942年，参加瑞文测评的英国成年人，年龄跨度从25岁到65岁。l992年，科研人员请来一组年龄完全对应的人作了完全相同的测试。近年出生的几代人得分明显高于早年出生的几代人。和维多利亚时代25岁的人相比，l992年，处于相同年龄的人显然聪明了许多。弗林推测，按照如今的标准，19世纪末期，不列颠至少有70％的人智商低于75分。如果智商测试确确实实能测定智力，那么，19世纪的人有能力做出正常人做的事吗?

"板球运动是l9世纪末期不列颠人的主要兴趣之所在，推测当年有70％的人不懂比赛规则，这道理说得通吗?"弗林曾经这样质疑过。"军事信息的准确性毋庸置疑，在道理上却同样无法自圆其说。足球是全体荷兰人最喜爱的运动，难道我们可以推断，l952年有40％的荷兰人缺少看懂足球赛的能力?"

有趣的是，从世界范围看，诸如斯坦福-宾尼特智力测试和韦氏测评等与教育有关的智商测试的分数也在看长。抛开国别差异不说，各代人之间的平均分差在9到18之间。总的来说，如果智商的分数确实在看长，考卷和题型与教育联系越紧密，分数的长幅会越小。例如，在韦氏测评试卷的算术部分和词汇部分应试者的分数似乎总是不见长(不知出于什么原因，德国在这方面是个例外；德国人学习刻苦，学会新词的速度极快)。

智商测试的分数为什么会逐渐升高，没有人知道确切的原因。是由于普惠制的教育，还是由于计算机游戏的存在，或是由于考试多了熟能生巧，甚至是由于营养的改善，抑或是多种原因的综合?学术界对此争论得不可开交。不过，有一点人们却没有异议：未见人类的遗传基因有任何突变。

"智商的大规模提升不可能是由于遗传因素。"弗林曾经这样写道。"即便在一代人之内将智商的分数提高微不足道的一个点，不同的社会阶层在生殖方面的微小差异都必须变得无穷大。"

对那些相信智商测试可以用来测定智力的心理学家们来说，无论智力是否与生俱来，每隔一代，人们的智商分数都会显著提高，这对他们是个相当沉重的打击。难道如今三十多岁的这批人比他们的父母聪明了许多?弗林曾经论述道：专利的注册数量和学术的重大突破未见显著上升；人们在迟缓地前行--效率高也罢，效率低也罢，人们的聪颖和愚钝一如既往。尽管许多心理学家发出的声音不同，不断上升的智商测试分数有力地证明，智商测试测定的是人们的学识和"抽象解决问题的能力"。

正如弗林所言："心理学家们应当三缄其口，不要再说智商测试能测定智力以及诸如此类的话。他们应当说，智商测试能够测定人们解决抽象问题的能力。这一术语精确地解释了我们的无知。我们都知道，人们作智商测试的过程就是解决问题的过程。我们会认为，这些问题离我们太遥远，和现实相比太抽象。随着时间的流逝，人们解决现实世界问题的能力会淡化，这种能力即是智力。除此而外，我们对智力知之甚少。"

在现实世界里，人们如何认识智商测试究竟能测出什么非常重要。如果达里尔·阿特金斯的词汇量极少，家里的水管爆裂后不知所措，也不知道如何做算术，我们就无法判断，他是缺乏知识呢，还是常规智力指数特别低。如果是前者，他就有足够的悟性规划一次谋杀，他也会清楚司法程序。如果是后者，凭良心说，从生物学的角度看，他已经傻到了家，因而不能对他施以死刑。

附5张据说高智商才能看懂的图

本文选自《智商测试》/三联书店/

购买，请直接点击阅读原文

谁是智商测试的奠基人，他和达尔文有什么关系？第一次大规模智商测试是在什么时候，其结果如何？纳粹德国的遗传病法庭上的智商测试是如何进行的？智商能测出什么？作者揭示了智商测试的历史和原理，但第一章的题目却是“智商测试的先天缺陷”。

▌ 攻击性是人类的本能吗？| 知识周刊

▌ 多好啊，每个人都在走自己的路| 凤凰好书榜

▌ 爱，不仅是情欲，更是拯救| 杨庆祥专栏

▌ 四大名著文学常识100题| （附***）

▌ 《圣经》到底在讲什么？

主编：严彬（微信larfure）

受苹果公司新规定影响，微信iOS 版的赞赏功能被关闭，可通过二维码转账支持公众号。

参考资料

随机推荐

网站简介 | 联系站长 | 网站首页 |

本站部分内容系根据指令自动收集于互联网，不代表本站赞成该内容或立场