r键复试考试怎样考

标准化成就测验
当前位置:
一、标准化成就测验的历史
标准化测验的编制开始于本世纪初,但标准化测量的观念由来已久。1845年,美国波士顿城第一次进行了全城范围的书面考试,从而拉开了现代标准化测验运动的序幕。同年,美国大教育家曼(Horace Mann)在论述口试与笔试的利弊时提出:
①统一的笔试比个别的口试公平些,因为应试儿童可接受同样的试题,不至有难易的不均;
②统一的笔试比个别的口试可靠些,因为笔试题多,受偶然因素影响小;
③统一的笔试比个别的口试在时间上经济些;
④口试容易引起临场的慌乱。
这些论述虽然对于测验运动的发展没有产生太大影响,但与后来标准化测验的观念极为吻合。
1864年,美国的费希尔(George Fisher)曾广泛搜集学生的书法、拼字、算术、文法、作文、历史、自然、图画、法文等作业样本编成量表集,作为评量各科成绩的标准。书中备有各科学生作品的不同水平的样本,并为每一样本评定一种分数,以示优劣。在评定某学生某个作品时,可将其作品与量表集中的各样本相互比较,以求得与其作品优劣相等的样本,此样本的分数即为该生应得的分数。这种评定分数的方法有标准可循,应该说比较客观和一致。但费希尔在编量表集时,仅凭个人的主观判断来评定样本分数,因而也就影响了其客观性和精确性。费希尔的这种方法与后来的书法量表、作文量表的编制方法是大体相同的。
19世纪末20世纪初,美国兴起了教育改革运动,亦称进步教育或新教育运动,其宗旨是反对当时形式主义占统治地位的传统学校教育,主张改革学制、课程、教学方法和教学组织。有人主张对学校里只注重练习与背诵的教学方法进行改革,增加实用学科,遭到守旧派的反对。守旧派认为,新的功课一加入,学生就没有功夫学习旧的有用的基本科目了。1894年,莱斯(J.M.Rice)选定50个字作为拼法测验,测量各校学生的拼字能力,并调查各校每周讲授拼法的时数。结果表明,讲授时间的多少与成绩优劣没有多大关系。8年之中每天用15分钟学习拼法的学生,其成绩并不次于每天用40分钟学习拼法的学生。莱斯的工作虽然受到许多人的怀疑,但也获得了少数有思想的教育家的注意与赞同。他采用客观方法来研究教育问题,对测验运动的贡献是不可磨灭的。
这场运动对传统的考试制度进行改革,主张:①考试主要不是同别人比分数而是看学生的进步程度,使学生看到自己的进步和不足,以激励他们作自我努力;②学校教育实行单轨制,放宽招生考试,使同一年龄的学生进入同一类学校,反对传统的竞争考试,使学生接受教育的机会均等;③通过智力测验,根据学生智力水平的差异分班、分组,以根据学生的个别差异进行教育;④提倡标准化测验。这些主张推动了教育测验运动的发展。
教育测验运动的中心人物是桑代克。艾尔斯(L. P. Ayres)曾说过:“我们既称莱斯为教育测验的创始者,则对桑代克应称之为教育测验运动的鼻祖。” 1904年桑代克出版了《心理与社会测量》一书,介绍了心理统计方法及编制测验的基本原理。这是世界上第一本社会科学方面的测量学专著。1908年,在桑代克指导下,斯腾编制了一个算术推理测验,这是一种最早的标准化测验。1909年,桑代克发表书法量表,这是世界上第一个用科学方法编制的教育测量工具,是测验运动中极重要的事件。自此以后,各种标准化测验和量表日渐增多,由单科测验发展到成套的一般成就测验,由小学扩展到中学、大学,由用于调查和选人发展到用于诊断和促进教学。直到现在,教育测验一直是心理测验中数量最多、用途最广的一种测验。
我国的标准化测验,应以1918年俞子夷编制的小学国文毛笔书法量表为起点。20年代初,在美国教育测验专家麦柯尔的帮助下,北京师范大学、北京大学等校的教授和学生编成测验四十余种。当时,中华教育改进社还组织人力用测验进行了大规模的小学调查。随后,艾伟和其他人士编制了小学各科测验和诊断测验,后来这种研究被中断。虽然我国最早使用测量的方法选拔人才,但在教育测验方面还远落后于发达国家。
二、标准化成就测验的编制
(一)标准化成就测验的编制程序
标准化成就测验是由专门的测验机构编制的。以美国教育测验中心(ETS)为例,在那里,测验的编制工作是在一个由学科和测量专家组成的顾问委员会指导下进行的。他们提出一般的原则:需要哪种类型的测验?用于什么目的?测量哪些知识和技能?相对重点是什么?适用于哪个年龄范围?需要多少题目?本测验和成套测验中别的测验以及市面上流行的测验的关系是什么?采用哪种形式的题目?需要几种分数或分测验?等等。他们对这些问题的决定,便成为编制测验的总纲和准则。
测验的实际编制工作,是由学科专家与测验编制专家共同完成的,其步骤与一般心理测验的编制程序相同。
首先,根据测验目的,由许多人共同拟定测验计划,集中各种观点,使其具有广泛的代表性。具体的编题计划通常采用内容和行为目标双向细目表。接下来是编题,由学科专家和测验专家进行评论、修改、再评论,如此反复,直至得到一套满意的题目为止。编写的题目应比需要的多出几倍(通常为三四倍),然后通过试测进行项目分析。项目分析可以用经典测量理论方法,也可用项目反应理论方法。成就测验一般多用复本信度和分半信度作信度指标,以年级为样本的测验应该给出各年级的单独的信度。成就测验的效度指标主要是内容效度。用于预测的成就测验,实证效度很重要。除常模分数外,有时还需要提供内容参照分数。最后是编写测验说明书(测验手册),并制作各种辅助材料(如作答纸格式、剖析图、记分键等),必要时还要为学生编写测验指南并提供一些模拟试题,这些对测验的有效使用是必不可少的。
对大规模使用的标准化成就测验,最好建立题库。建立题库应注意:
①测验的要求、内容、题型、格式必须定型;
②放在题库里的题目必须在与将来被试情况相一致的样本里试测过,而且难度和区分度等指标符合要求,同时要根据双向细目表做好分类、归档,以备随时检索、调用;
③题库要有一套好的管理和检索系统,题目可用题卡或电脑储存,并将题目的变化、使用情况、试测结果都记录在案。
(二)教育目标的分类与测量
近几十年来,心理学家和教育学家对教育目标问题作了许多研究。一般认为,教育的目标可以分为认知性的、情感性的和心理运动三大领域。认知领域包括与知识和认识能力的发展有关的目标;情感领域指一定的态度、价值和情感;而心理运动领域主要指有关的动作技能目标。
教育的认知目标分类法通常有四种,如表8-1。
表8-1 教育的认知目标分类
──────────────────────────────────────────
布鲁姆和克拉斯沃?(D.R.Krathwohl)(1956)
格拉赫(V.S.Gerlach)和沙利文(H.J.Sullivan)(1967)
教育测验中心
伊贝尔(1979)
  术语(或词汇)的理解
  事实和原则(或普遍性)的理解
  解释或演示的能力(关系的理解)?
  计算能力(数学问题)?
  预测能力(在何种情况下最可能发生什么)?
  选择最合适的活动(或某种具体实际问题的情况)的能力
  作出评价判断的能力
──────────────────────────────────────────
第一种分类方法也是最流行的为布鲁姆和克拉斯沃编著的《教育目标分类学:认知维度》(1956)一书中提出的系统。这种分类从简到繁有六个级别,这六个类型不是相互排斥的,较高级的类中包含较低级类型的内容。例如“知识”(1级类)和“理解”(2级类)都是“应用”(3级类)的基础而且包含在第三种类型中。
布鲁姆对教学目标的六个级别类型有明确的定义,并提供了试题范例,供编制测验参考。
①记忆(知识):对具体事实的回忆,方法或过程的回忆,模式、结构或背景的回忆等。例如:“请列举所有的惰性元素。”
②理解:理解事物的意义或目的。这一层次的一般行为是转译、解释或推论。测量理解的题目常用的词汇是:转换表达方式、解释、总结等。例如:“请解释测验不可靠的含意。”
③应用:将知识和想法应用到新的具体情境中。测量应用的题目常用词汇是:计算、确定、解决等。例如:“计算下面一组分数的平均数和标准差。”
④分析:将事物***成不同部分以揭示其结构和各部分之间的关系。这类题目常用的词汇是:分析、区别、关系。例如:“分析性向测验和成就测验的不同。”
⑤综合:将各种不同元素或部分组合成一个整体结构。测量综合题目的常用词汇是:设计、归纳、设想、计划等。例如:“设计一个项目分析课程测验的双向细目表。”
⑥评价:在推理的基础上对事物的价值作出判断。测量判断的题目常用词汇是:比较、评价、判断、评论等。例如:“评价使用智力测验的后果。”
情感和心理动力的教育目标还没有令人满意的分类方法。
第二种分类方法是由格拉赫和沙利文提出的,它是完全由被试通过学习应该达到的行为要求所定义的,例如:识别能力要求被试能够指出题目属于何种特定类型;命名能力则要求被试以正确的词汇来表达或表示某种知识或概念;描述能力要求能报告物体的确切类别、事件、所有物或相对物;建构能力要求能根据特殊要求完成任务,作出成绩;分级能力要求被试能对两个或更多的参照物划分具体的等级;应用能力要求学习者能够根据要求演示完成某项专门任务的行为。
其他两种分类方法,这里就不详加介绍了。
(三)客观题和论文题的争议
标准化测验诞生后不久,就出现了客观题和论文题的争议,这种争议一直持续到今天。虽然有些学者认为,可以通过测量技术使客观题测到论文题所测的能力,但对于各种语言考试,如中文、英文等,论文题一直是考试内容不可缺少的一部分,很难用客观题来代替。因此,有必要讨论一下客观题和论文题的特点,从而在编制测验时正确使用。
据罗斯(C. C. Ross)的考证,客观题的兴起比标准化成就测验晚了约十年。从历史来看,最早的传统学校考试主要是用一些论文题。本世纪初,许多研究考试方法的文章相继发表,批评论文式考试结果不可靠,心理学家开始提倡用客观测验。
客观题的形式很多,主要有再认式,如是非题、多选题、匹配题、排列题等。有时也采用回忆式题目,但***很简单,一般只有一两个字或一两句话,如填空题、简答题、改错题等,记分较为客观。
客观题有许多优点,最主要的优点是它在每道题目上所花费的时间要比典型的论文题少得多。因此客观题能够包含较完全的内容,从而大大降低了因题目取样所造成的误差,减少了个人在测验得分上的不公平。一些早期的研究显示,一个测验中包含的题目越多,则机会、运气对总分的影响也就越小。
客观题的另一个得到大家公认且已被详尽研究的优点是记分容易、迅速且一致。客观题可用机器阅卷,对于大规模的施测计划,尤其是对需要及时反馈的测验,用处极大。
客观题的评分客观,试题形式变化多,学生作答感到有兴趣,而作答方法简易,适合中、小学生的作答能力。这些特点使客观题在标准化测验中已在很大程度上取代了论文题。
当然,客观题也有缺点。客观题中的是非题、多选题、匹配题等,由于***在选项之中,被试可能凭猜测而侥幸得分。例如,对于二择一的是非题,猜对的概率为50%,对于四择一的题目,猜对的机遇有25%,这样就会影响成绩的真实性。对于这个缺点,测量学家已仔细研究,提出了校正公式,如麦柯尔提出以下校正公式:
)×每题应占分数
式中R=答对的题数,W=答错的题数,N=备选***数目,S=校正机遇影响后的分数。对大多数客观题,每题只占1分,所以式中最后一项可以省略。对于只有两个选择的是非题,校正公式可以简化为S=R-W。注意在这个公式中,对未答项目不加考虑。
对猜测的校正是否必要是个有争议的问题。赞成者的理由有两点:一是对猜测加以校正可使分数更好地反映学生真实成绩;二是对于胡乱猜答给予惩戒,可培养学生实事求是的态度和谨慎思考的习惯。反对者的理由:一是学生答错题目,并非都是存心投机取巧,有些学生是诚实作答的,但可能因记忆错误或其他原因答错,结果连累答对的题目,实在冤枉;二是根据统计学原理,凭猜测得高分的可能性是很小的;三是对猜测校正与不校正,其分数的相关很高,因为大家猜测机会相等,扣分只能使分数普遍降低,但每人成绩位置?名次?很少改变;四是一个学生如果答对的题数等于或少于答错的题数,校正后便会得到零分甚至负分,这是难以解释的;五是在不能肯定的情况下,进行合理的猜测是值得培养的习惯,对于猜测给予惩罚,会使儿童谨小慎微,泯灭创造精神;六是通过对错误选择的分析,可以判定学生混乱或误解的原因,倘若扣分,便得不到此种信息;七是应用校正公式计算分数很麻烦。
上述两种意见都言之成理,我们不妨采取一个折中的办法。
①是非题凭猜测得分的机遇较大,有必要加以校正。多选题(***在四个以上)猜测机会很小,可不校正。
②当题数过多、时间不够或题目太难时,学生乱猜的现象增加,可采用校正公式,但事先要对考生说明。
客观题的另一不足是使用范围有一定限制。客观题容易出得死板,只考查学生对零碎、琐屑知识的机械记忆,忽略对知识的理解、组织和应用等能力的测量。当然,通过改进编题技巧,例如通过针对教学目标命题,使试题代表教材中重要部分,尽量少出事实性题目?如人名、地名、年代、数字记忆等?,多出思考性题目,叙述情境要求学生进行分析等,可以克服这些毛病,在一定程度上扩大其使用范围。但是,无论通过什么技术改进,客观题也不能完全代替论文题的功能。
论文题是一种用于衡量较高级的思维过程的测试方法,如果命题得当,可以测量学生组织材料的能力、综合能力和文字表达能力,有时甚至可以测量评价能力和创造能力,而这些能力是客观测验难以测量的。另外,这种题目出起来比较容易,并且不允许被试通过随机猜测回答。考夫曼(W.E.Coffman)的研究结果表明,如果采用论文题,学生则会比较注意整体教材的综合和应用能力,对写作会有积极影响。
论文题也存在缺点,第一是题量太少,取样不广且不均,不能代表全部教材,很容易影响分数的可靠性,也可能滋长学生投机取巧的心理。图8-3是论文题取样不完备影响得分的极端例子。甲、乙、丙、丁四位学生,每人都只掌握了教材的50%,图中阴影代表他们掌握的部分,空白代表他们没有掌握的部分;1、2、3、4代表四个题目,考试结果分数差距竟达100分。
论文题的另一个缺点是没有固定***,尽管采用各种评分技巧,评分还是难以客观。1983年高考评分前,郑日昌曾从北京市随机抽取语文、政治、物理、数学4科各5份考卷,复印后请全国除西藏、台湾外的28个省、市、自治区阅卷组分头评分。尽管高考组织工作比较严密,阅卷时集中了一大批有经验的大、中学教师,命题组统一制定了评分细则,阅卷时又可集体讨论,也还是难以做到完全客观。如语文试卷,作文题议论文部分,满分为30分,对某份考卷28个省、市阅卷组给出了十几种分数,最高为26分,最低为8分,相差18分之多。整份考卷分数全距为50~83,相差33分。
总之,论文题和客观题各有利弊,只要运用得当,两者都很有价值。
三、成套成就测验
成套成就测验有时也称做一般教育发展测验 (General Educational Development Test),测量内容包括阅读、数学、语言等方面的基本技能以及相应年龄水平的学习能力。这种测验涉及的学科广泛,适用于各个不同的学校,便于了解学生的教育发展的一般状况。它主要用于学生分班(安置)、教学计划评估及安排、特殊学生鉴别等,对教师、家长、教育管理人员及学生都有用。但成套成就测验可能与各个学校具体的教学目标不很一致,这是它的不足之处。
(一)成套成就测验的常模
成套成就测验的使用范围可由小学到***阶段。在典型情况下,这些测验组可以提供各分测验得分的剖面图。由于成套成就测验中各分测验都是在大致相同的被试中进行标准化的,因此这是一套统一的常模,可以直接评估被试在几个不同学科中的相对成绩高低。同样,由于成套成就测验是在可以比较的团体中进行标准化的,因而可以通过比较学生在几年内的成绩来反映他们的学业发展。
(二)成套成就测验的内容和范围
在小学阶段,各个学校在教学方面的一致性较大,成套成就测验通常实施于这一年龄阶段。这一阶段的成套测验包括测量词汇、阅读理解、语言使用、拼读、算术运算及算术理解等。这种测验有时还包括学习能力、自然科学和社会科学知识的测量,但在小学水平通常更强调基本言语和数量技能的测量。
在中学阶段,各个学校在教学进度上的差异增大,成套成就测验的使用相对减少。虽然继续重视阅读、语言和算术方面的基本技能,但在其他方面的知识和技能的测量越来越普遍,如读书技能、书籍参考技能、资源利用技能?如字典?或研究技能。
成套成就测验为了解一般的教育发展而编制,因而很多这种测验都包含了不同的年级范围。有些测验是为小学范围设计的,有些以高中为主,但大部分的测验均有较大的年级范围,我们在表8-2中列出了一些代表性的例子以及它们包含的年级范围。
(三)常见的综合成就测验
目前我国还没有理想的标准化成就测验,以下所举的是在心理测验文献中经常涉及的几个在内容和统计上较好的测验样例。
1. 都市成就测验?(Metroplitan Achievement Test,简称MAT) ?
都市成就测验是一套在美国广泛使用的成套测验。初版于30年代,第五版由贝罗(I. H. Balow)等人编制(1978)。这个版本的测验使用范围由幼儿园延续到高三,总共由8个重叠的测验组组成,所有的测验组都有两个平行的版本可供使用,并有一份含有例题的练习手册,在正式施测前数天使用。下面以测验组的初级层次(包括3年级中到4年级末的范围)为例,来说明MAT的内容。在此层次的测验组包含10个分测验,可以得到5个内容领域的分数。
①字词:了解文章里的字词的意义。
②字的辨识:包括字形、字音(元音及辅音)以及以字的一部分为线索。
③阅读理解:由按难度分等级的文章段落组成,利用一些问题来评估对文章的细节及前后因果的理解、文章的推论、原因及影响、中心大意、角色分析以及归纳结论等方面的能力。
①概念:评估数字、几何及度量概念,包括千位以上的数字、小数及分数、形状、金钱、时间及惯用度量与公制度量。
②问题解决:回答口述的问题,有些题目要求解出数学问题并选择正确***,有些仅要求选出正确的数学表达式。
③计算:要求做整数、小数及分数的加、减、乘、除运算。
①拼字:要求选出口述的句子里某个字的正确拼法。
②语言:选出正确的标点符号、大小写或文法格式,辨认出句型的各个结构部分,按字母顺序排列及查字典的技能。
用来测验知识、理解力、询问技巧以及对物理、地球与太空及生命科学问题的分析能力。
将上面“科学”一项所列的四个认知技巧运用于地理、经济、历史、政治科学及人类行为(人类学、社会学、心理学)上。
本测验组还可求出一项“研究技能”分数,它的题目藏在这10个分测验内。在小学层次题本里,书籍参考、字母排序及字典使用技能被安排在语言分测验;图表及统计技能安排在问题解决分测验;询问及科学分析技能则在科学及社会研究分测验里均有包括。不论在哪一个年级层次,这整份调查测验组被分在几个时段里施测。以小学层次而言,它在8个35~50分钟的时段施测。
MAT包括8个常模参照水平,还有“教育阅读水平”中所有检查测验的参照标准的解释方法。基本型包括阅读理解、算术、语言测验;复杂型除包括这3个测验外,再加上社会研究和科学测验。其常模建立于70年代后期,80年代重新进行了标准化。表示方法有年级当量、百分位数、量表分数和标准九分等。该测验的信度、效度指标都较完备。在内容效度方面,MAT手册还提供所有题目所包含的每一项教学目标,查阅这份手册里有关各测验层次及主题的概要说明,可帮助各级学校就他们的使用目标来判断测验的内容效度。
MAT测题举例:
阅读:字词
选出最适合下面句子中空格的词
  Terry_____ to the park today.
  ①likes      ③home
  ②teaches     ④fast
阅读:字的辨识
  选出最适合下面句子中空格的词
  Mrs. King is our reading
  ①teaching      ③teacher
  ②teaches      ④teach
数学:问题解决
  挑出能表示以下问题的数学表达式
  美玲有3枝铅笔,她送给朋友1枝,请从下面的式子中选出能显示美玲剩多少枝笔的表示式。
  ①3-1=□    ③4-1=□
  ②3+1=□    ④1+1=□
  选出最佳解答
  You are most likely to find a battery in a
  ①thermometer     ③flashlight
  ②refrigerator      ④toaster
2.基本技能综合测验?(Comprehensive Tests of Basic Skills,简称CTBS)
这是一个发展较早的综合成就测验,第三版于1981年出版,主要测量广泛领域的技能。
阅读测验:包括词汇和阅读理解两类题目。
拼读测验:主要测量英语中元音、辅音及其结构形式的规则应用。
语言测验:主要测量语法和语言表达的基本技能。
数学测验:测量运算技能和概念应用与转换。
自然科学测验:主要测量自然科学知识(如植物、动物、物理、化学、生态学)以及自然科学语言、概念和方法的理解。
社会科学测验:主要包括地理、经济、历史、政治和社会学等方面的概念。
整个测验分10个水平,U和V两种形式。在测验编制和标准化过程中,曾应用项目反应模型,并在美国全国范围内取样,测验时间是1~4学时。
测题举例:
测验1:阅读词汇测验,要求被试选出与给定的词汇意思相同或相近的词汇。
测验3:语言—语法测验,要求被试找出错误之处。
测验5:语言—拼读测验,要求被试找出拼错的单词。
测验7:算术概念测验,例如:
  水平1(2.5~4年级)?
  ①方格中该填哪个数?
  5+4=10-□
  0 1 9 10
  水平2(4~6年级)?
②系列中最后该是哪个数?
  57,64,71,76,______?
  水平3(6~8年级)?
③5 963?427这个数的百分之一位是多少?
  水平4(8~12)年级?
④如果R<S,而且S<T,则:
  F.R=T
  G.R>T
  H.R<T
  J.R+S=T
测验9:学习技能测验,测量被试利用参考材料的能力。例如:
  水平1(2.5~4)年级?
①下列哪个词如果按a b c 系列排列,将排在第一位?
  pair paint polish point
  水平2(4~6年级)?
②如果需要“世界造船史”的材料,你将找哪本参考书?
  A.年鉴
  B.词典
  C.百科全书
  D.地图集
水平3(6~8年级)?
③如果需要寻找心理学图书,该在哪个图书分类中寻找?
  A.A──ALK
  B.ALL──ANH
  C.ANI──ANS
  D.ARO──BAH
  水平4(8~12)年级?
④如果要写一篇关于某位现代诗人的论文,哪一种将是你的主要材料来源?
  F.该诗人的作品集
  G.有关诗人的作品评论集
  H.访问诗人的亲朋好友
  J.诗人的自传
3.艾奥瓦基本技能测验(lowa Tests of Basic Skills)?
由黑尔洛尼姆斯(A. N. Hieronymus)和林得魁斯特(E. F. Lindquist)于1982年编制,用来评价各种学校活动中的基本技能,包括基本型和复杂型两种形式。
4.SRA教育成就系列测验(Sequential Test of Educational Progress)?
由科学研究协会?(Science Research Associates)编制,1978年出版。该测验测量广泛的知识、一般技能和应用能力。初级水平(幼儿园到3年级)包括阅读、算术测验(A、B、C、D水平)和语言艺术(C、D水平)。较高水平(E、F、G、H,4~12年级)的测验,除包括以上内容外,再加上自然科学知识、社会科学知识以及使用参考材料的能力。水平H还包括生活技能的测量。除此8个水平的成就测验外,还有一个30分钟的教育能力系列测验 (Educational Ability Series, 简称EAS) 可供选择。整个测验时间从2小时到4小时不等。
SRA成就系列测验于1978年春在美国采用全国取样方法,得到83 000人的样本;1978年秋再得121 000人样本,并由此建立了各种形式的常模?年级、百分位、标准九等?。
5. 斯坦福成就测验系列?(Stanford Achievement Series)?
这是最早的综合成就测验,于1923年出版。以后经过数次修订,编制者为加德纳(E. F. Gardner)等人。其编制的目的是测量“公认为中、小学课程所达到的结果”,即那些重要的知识和技能。该测验包括斯坦福学习技能测验(SESAT,第二版)、斯坦福成就测验(第七版)和斯坦福学习技能测验(TASK,第二版),测量阅读、语言、数学等领域的基本技能,年龄范围从幼儿园到高中毕业生。SESAT有两个水平,适用于不同年龄的幼儿园儿童。斯坦福成就测验有六个水平,分为初级1型(1.5~2.9年级)、初级2型(2.5~3.9年级)、初级3型(3.5~4.9年级)、中级1型(4.5~5.9年级)、中级2型(5.5~7.9年级)和高级型(7.0~9.9年级)。TASK有两个水平,分别为(8.0~12.9)年级(TASK1)和9.0~13年级(TASK2)。由此可见,该测验适合于任何年级的被试,即使学校教学计划难度高于或低于平均水平时,也有相应的测验内容。
在不同水平,分测验的数目从5到11不等。大多数水平包含的分测验有学习技能、阅读理解、词汇、听力理解、拼读、语言、数概念、数学运算和数学应用等。施测时间为2~5学时。在1981年秋和1982年春对40万名学校儿童进行了施测,取得了标准化样本资料。该测验能提供量表分数、全国百分等级和个体与特定学校、班级的各能力的比较,其信度、效度均达到有关的心理测量学标准。
(四)基础教育及基本技能最低限度测验
70年代末期到80年代初期,美国心理学家开始高度关注高中毕业生在阅读、写作及算术方面能力水平的高低,针对不同用途,为小孩或***所编制的很多基本技能测验被开发出来。许多成套测验开始应用于测量***应该掌握的高中毕业生的基本技能,其中较为著名的是基本技能评定?(Basic Skills Assessment)、USES基本能力读写测验(Basic Occupational Literacy Test, 简称BOLT)和***基本学习测验(Adult Basic Learning Examination, 简称 ABLE)。
1. 基本技能评定
专为初一至高三学生设计,由美国教育测验中心与全国各区域的学校、协会联合编制。整个测验组包含四部分,一份模拟真实情况的写作样本,要求一些实际的写作,如填一份表格,写一封求职信等,另外还有三份关于阅读、写作技巧以及数学方面的选择题。该测验的测量学指标均达到极高的水准。
测验举例:
以下①~③题与下面的药品标签有关
可暂时解除您轻微的喉咙痛
剂量:3~6岁,每6小时1/4茶匙
12岁以上,每4小时1茶匙
注意:严重及持续的喉咙痛,或是喉咙痛伴随着发烧、头痛、反胃、恶心、呕吐等症状,请立刻找医生,若发生出疹或兴奋等现象,停止使用并找医生。
①根据以上提示,如果您现在喉咙痛、发烧和头痛,您应该
A.使用雷密妥两天以上   C.增加雷密妥的药量
B.尽快找医生       D.使用其他药物以消除痛苦
②7岁小孩该服用多少剂量的雷密妥
A.每6小时1/4茶匙
B.每6小时1/2茶匙
C.每4小时1/2茶匙
D.每4小时1茶匙
③如果您有下列那种情形便应立刻停止使用雷密妥
A.头痛  B.发烧  C.出疹  D.喉咙痛
写作技能:
第⑨题说明:请根据下列问题选出最佳***
⑨在下列应征申请表中,David Albert Woods应如何填写画线部分?
应征人员申请表
──────────────────────────────────────────
     (last)? (first) ?(middle initial)
A.Woods David.A.    B.D.A. Woods
C.Woods D.A.&      D.David Albert Woods
第⑩~⑿题说明:选择最佳的句子填入以下空白处
⑩Whenever Hackie rides her bicycle, _______________beside her.
A. and her dog runs
B. her running dog
C. her dog runs
D. then her dog running
⑾My music teacher
My music teacher thinks that Marian Anderson sings_____________
A.more well than
B.better than
C.the most good of
D.more better over
⑿Never use cleaning fluids of polish on a television screen because
A.of this harming the glass
B.the glass can suffer from it
C.of the reason of injury to the glass
D.they can damage the glass
⒅王***必须在8点45分开始工作,如果她花1小时20分才能到达工作场所,她最迟可在什么时候离家出发?
A.7点45分    B.8点5分
C.7点30分    D.7点25分
超大型电视每台400元,免付现金,
只需一个星期缴1元。
⒆如果你买这台电视机,你必须付款几年?
A.1  B.2  C.4  D.8
⒇如果州政府的税率是5%,那么一台价值400元的洗衣机要缴多少税?
A.2  B.5  C.20  D.50
2. USES基本职业读写能力测验
USES基本职业读写能力测验是特别为受教育程度较低的***设计的求职时使用的基本技能测验之一,是由美国就业服务中心(U.S. Employment Service)编制的。它包含字词、阅读理解、数学计算及算术推理4个部分,并分为4个层次。被试先接受一份简短的、包含能力范围较广的基本测验,以决定用哪一个适当层次施测。BOLT的分数用它与斯坦福成就测验分数的关系以年级当量表示,也可用它与职业名称字典中所描述的“一般教育发展”水平的关系以职业听写能力等级表示。但这些等级范围太广,难以确切区分出某特定职业所需听、写能力的等级。同时,BOLT分数与实际职业成就之间是否有直接关系难以证实,因此在使用BOLT的结果作解释或安置咨询时必须谨慎。
3. ***基本学习测验
***基本学习测验是供***教育课程、刑事机构执行教育计划以及工作训练计划用的成就测验。共有三个层次,分别相当于小学一至四年级?(层次1)、小学五年级至初中二年级(层次2) 及初中三年级至高三(层次3),每一层次有两份平行题本。ABLE的题目大多取材于***日常生活中的实际问题,包括字词、阅读理解、拼字、语言、数字运算及问题解决等分测验。除了阅读测验外,其他测验大多以口述方式呈现题目。在拼写测验里,单字是出现在有上下文的句子里。各分测验分数以年级当量、标准九及百分位数表示。各分测验的分半信度和库-理信度在***团体中为0.80~0.96之间,各层次样本与斯坦福成就测验的相应分测验的相关为0.60~0.80。
四、单科成就测验
成套成就测验包含广泛的学科领域,但当我们对某一学科领域的成就感兴趣时,成套成就测验就不能很好地满足这种需要,因此,很有必要发展单科成就测验。单科成就测验相对于成套测验中类似的分测验,有许多优点,例如,它们所包含的题目较多,学科内容更全面。这些测验有阅读、数学、语言、自然科学、社会科学、商业、专业课程等,此外,还有书法、健康、家政、工业技术、图书查阅、音乐、演讲、拼读等方面的标准化成就测验。美国心理测量年鉴相当完备地收集了这些测验,并按各种主题做了适当的分类。值得注意的是,最近一些年来,有很多使用录音带来测量读、写及听的能力的现代外语测验开始发行。
单科成就测验也有很多不足,主要反映在它只测量被试学习某种科目或接受某项专门训练的成效,被试在各科目间的成就不易互相比较,难以了解被试的长处和短处。
成就测验旨在考查学生的学业成效,所以成就测验的编制必须配合学校的课程。我国从本世纪初就开始编制配合小学课程的成就测验,至今为止已有相当丰富的这类测验。我们将分别介绍标准参照的水平考试、语文学科测验、算术学科测验和其他专业测验,其中以介绍我国的语文学科测验、算术学科测验为主。
(一)标准参照的水平考试
水平考试又称基本限度测验。近年来,西方出现了强调对高中毕业生能力最低限度进行评估的趋势。在这种力量的推动下,各种具体学科领域的标准参照测验发展起来,例如,对高、初中学生的阅读、写作和数学知识及技能进行评定的“熟练测验”,各种大学同等学力的鉴定考试,大学程度鉴定计划(College-level Examination Program,简称CLEP)等都属于这种测验。
最近几年,我国的各种水平考试也发展很快,最有影响的是国家公派出国人员的英语水平考试(WSK),大学生的英语四、六级考试,计算机考试,汉语水平考试,中学毕业会考和***自学考试等。
(二)语文学科测验
语文测验其实是一门综合的学科测验,它可以细分为阅读测验、词汇测验、语句测验、语法测验、作文测验、书法测验。前三种考查学生的阅读能力,后三种考查学生的表达能力。
这些测验又可分为三大类:检查测验(数量最多)、诊断测验和准备性测验。
中国的语文有其独特的语法、文字意符、语音和音调等多种特点,很有研究价值,同时为配合教育的实际需要,也很有必要探讨语文测验的编制,下面就介绍我国的语文测验。
1.阅读测验
阅读测验可分为朗读测验(Oral Reading Test)和默读测验(Silent Reading Test),朗读测验多用于小学低年级,用来了解学生认字的能力,诊断阅读的困难,以及检查儿童对内容了解的程度。这类测验在我国编制较少,下面只介绍默读测验。
(1)艾伟、王金桂合编的小学国语默读测验
艾伟是我国研究儿童阅读问题的先驱,他对小学儿童对语文的阅读、理解及其测量做过多年系统研究,用20年时间完成了《阅读心理:国语问题》(1948)一书。
艾伟、王金桂合编的小学国语默读测验分低、中、高三组。低组测验适用于二年级上至三年级上,中组测验适用于三年级下至四年级下,高组测验适用于五年级上至六年级下。每组有复份三至四个。
它的选题原则是:①测验材料包括故事、时事、通讯以及各种叙事的文章,不包括诗歌等韵文;②每组文字是逐渐加长,低组从十几个字至五十几个字,中组从七十余字到二百多字,高组从二百多字到四百多字;③每段文章,自成一段,有头有尾;④不适于小学生阅读的材料,均设法避免。
测题的格式为四择一选择题。每类测验有10~20段,每段后面有3~5个问题。每类测验共有50个问题,测验时间为35分钟。现以中组第一类的一个测题为例来说明。
一个秋天的早上,陈儿同着父亲到乡村去玩。那里虽然没有什么名胜,但是有山有水,风景倒也很好。尤其是看着碧油油的水,倒映着带有秋色的山峰,真有一个说不出的美丽。
①陈儿游玩的地方是_________。
?A.?山上   ?B.?乡村  ?C.?水里  ?D.?名胜
②水里倒映着____________________。
?A.?树木   ?B.?小船  ?C.?小屋  ?D.?山峰
③碧油油的是_________________。
?A.?水色   ?B.?山色  ?C.?秋色  ?D.?景色
?2.艾伟、杨清编的小学国语诊断测验
该测验分为四种,每一种代表一种默读能力。
测验一:测量学生迅速浏览以获得大意的能力。
测验二:测量学生细心阅读并记住细节的能力,即精读能力。
测验三:测量学生纵览全章提纲挈领的能力,即学生能从错综复杂的文章里找出要领或因果关系的能力。
测验四:测量学生推敲文字、了解寓意的能力。该测验可适用于四、五、六年级学生。通过使用该测验,教师可以发现学生阅读能力的缺陷在何处。
每个测验有12篇短文,每篇短文后有1~4个测题,皆采用选择题。
例如,测验一的题目是:
乌鸦飞到田里,要吃麦。农人做了一面旗,插在田里赶乌鸦。乌鸦不怕旗,还要飞来吃。农人做了一个草人,插在田里赶乌鸦。乌鸦不怕草人,还要来吃。农人在草人的手里,挂了两把扇子。扇子趁着风飘来飘去,乌鸦当是真人,不再飞来了。 ?问题?这个农人:①真聪明 ②真糊涂 ③真顽皮 ④真愚蠢
2.语句测验
语句测验主要测量小学生的语句组织能力和理解能力,其中较有名的是艾伟所编的两个测验。
(1)艾伟、丁祖荫合编的语顺测验
该测验是测量小学生的语句组织能力。它分为三种程度:低组(二年级上至三年级上)、中组(三年级下至四年级下)、高组(五年级上至六年级下)。每组有3~4类难度大致相等的测题,以便交替使用。每类测验中有50个句子,每句中的字的排列是散乱的,读起来不成句。例如:
想可简法无直(排顺后,应为:简直无法可想)?
类似这样的句子共50句,要求学生在35分钟内做完。
(2)艾伟编的四言辞句测验
主要测量学生对成语和语句的意义了解的程度。共有三类,第一类适合五年级,第二类适合六年级,第三类适合初中一年级。用四选一的格式,要学生找出正确的词句。例如:
①同心协力 ②同心胁力 ③同心洽力 ④同心惜力
3.语法测验
语法测验主要测量学生在文字和语言组织上辨别错误的能力。以陈鹤琴小学语法测验为例,该测验共有50个题目,每个题目里有一个字是不符合语法的,需要改正。测验时间为20分钟。
测验举例:
①皮鞋是牛皮做得(的)。
②那个地方我从外(来)没有走过。
③这件事我觉可(得)非常奇怪。
④先生的话我没好(有)一句不明白。
语法测验是每题1分,算出总分后,再从测验说明书的转换表查出T分数。
(三)算术学科测验
数字的计算和应用是心理能力中一项重要的能力。算术测验很多,一般可分为:准备性测验、检查测验和诊断性测验,下面主要介绍检查测验和诊断性测验。
1.检查测验
检查测验又可细分为四则测验和应用测验。
(1)四则测验
这类测验是测量加、减、乘、除四种基本能力的。它包括速度和正确两个方面,就是既要计算得快,又要正确。测验材料的取样应包括各种计算方法。
(2)应用测验
该种测验的目的在于测量学生能否应用算术知识解决实际问题。在编制算术应用题时,应注意:①测题内容要切合实际生活情境;②测题的文字要简易通俗,成绩一般的学生都能理解。
2.诊断性测验
我们以四则运算方面的内容为例来说明诊断性测验的编制。
该种测验应包括四则运算的各种类型和难点。四则运算有各种难易不同的步骤,称为算术上的难易阶梯,诊断性测验就是要把这些难易阶梯全部包括在内,并按难易的阶梯排列测题。
(1)加法的难易阶梯
①两数相加,例如1+2=?,6+7=?
②三数相加,例如6+7+6=?
③两位数相加,如48+7=?
④七个数的直行?竖式?相加,例如79,11,37,84,75,42,93相加。
⑤三位数相加。
⑥十三个数的直行?竖式?相加。
⑦位数不等的数目相加。
(2)减法中的难易阶梯
①一位数相减,例如7-5=?
②从两位数内减去个位数(不借位),例如 19-9=?
③数中含有零的直行(竖式)相减,例如
  - 5 && ____________
④借位的减法,如
    276
  - 148&   ____________
⑤借位的减法(借位两次或三次),如
    340
  - 171   ____________
3.乘法的难易阶梯
①一位数相乘,例如4×5。
②一位数与两位数相乘,不要进位,例如23×2。
③一位数与两位数相乘,需要进位,例如49×8。
④多位数相乘,但不需进位,例如 31 233×132。
⑤乘数或被乘数中有0,有四种表现形式。
A、0在被乘数的个位位置,例如560×47。
B.0在被乘数的某一中间位置,例如807×59。
C.0在乘数的个位位置,例如753×60。
D.0在乘数的某一中间位置,例如617×508。
⑥多位数相乘,需要进位,例如29 704×675。
(4)除法的难易阶梯
①一位数的除法,例如4÷2。
②简单除法而每一位数都能整除,例如48÷2。
③简单除法而某位数不能整除,需将余数带到下一位,例如 962÷2。
④多位数相除且能整除的,例如 183÷61。
⑤至⑥有0的困难,有两种方式,如:
如欲编制四则运算诊断性测验,可参照上述的难度阶梯进行。
五、预测性测验
成套成就测验和单科成就测验都可用于对学生的成就进行评价,单科测验还可用于找出学生学习困难之所在。现在我们介绍的一类测验是用来预测学生未来学业成就的测验,这类测验在功能上接近于性向测验,但其内容又与成就测验非常类似,它通常用来预测学生的学业表现,或考查被试对于完成某种学习任务是否做好了知识或技能的准备。下面介绍几种国外的预测性测验。
(一)美国大学招生测验
美国大学录取新生完全由大学自己决定。由于美国中、小学由地方自办,教材极其多样化,为了对学生的学习能力有一个共同的衡量标准,1926年,由大学入学考试委员会首次编制了学能测验(SAT),1948年后移交给教育测验中心主持。该测验每年举行五次,在全国乃至全世界各地同时举行。
测验不分科目,而只分语言和数学两部分。语言部分测词汇和理解能力,数学部分测运算代数和几何解题的能力,每次测验3小时,800分为满分。每份考卷分6段(每段30分钟),语言2段共85题,数学2段共60题,标准书面英语测验1段,调查性测验1段。后两测验不记入SAT成绩。标准书面英语旨在预测入大学后的阅读和书写能力,以便帮助学生决定入学后应修哪些语言课。调查性测验旨在为测验中心今后拟定试题提供统计资料。
SAT均为多重选择题,每题有4或5个选项。题目的难易程度差别很大,有的90%的学生都能答对,有的则只有10%的学生答得出。整个测验只提供语言和数学两个分数,没有合成分。SAT的心理测量学指标很完善。
大学招生用的另一个测验是美国大学测验(ACT),从1959年开始使用。ACT成套测验包括四个方面:英文运用、数学运用、自然科学阅读、社会科学阅读。每个分测验报告一个分数,四个分测验分数的平均为合成分数。ACT介于能力倾向测验与成就测验之间,SAT则更接近于能力倾向测验。
(二)美国的研究生入学考试
美国教育测验中心主持的研究生入学考试(GRE),第一部分属于学能测验,主要测量语言、数学推理和逻辑分析能力,第二部分属于成就测验,共分20个专业,其中9个专业还有分科?如心理学专业分为实验心理和社会心理?。
(三)美国都市准备测验(MAT)
准备性测验也是一种预测性测验,用在学生学习某种课程之前,考查儿童是否具有完成特定的教育任务所必须的技能。
编制这种测验的第一步是确定能预示成功的能力,有人认为它们包括普通智力、体力以及必要的知识、技能准备等,也有人把动机、态度、兴趣等人格特征看做是准备的重要方面。但一般来说,接受前一种观点的人多,例如,对于幼儿来说,进入小学所必须具备的条件有视、听分辨能力,运动控制能力,听觉理解能力以及词汇、数概念和一般知识的掌握。
由于准备性测验主要用于未学会阅读的儿童,因此大多使用非文字材料(图画和符号等),用口语指导施测。
美国都市准备测验的1976年版本有两个水平,一个适用于幼儿园小班和中班的儿童,另一个适用于幼儿园大班和小学一年级的儿童。第二个水平包括下面8个分测验:
①语言辨别:每一个题目有四张画,主试说出每张画的名称,并另外说出一个词,然后让儿童找出一张画,其名称的读音与这个词的读音开头部分相同。
②发音 — 字母匹配:每一题目包括一张画和四个字母,主试说出每张画的名字,让儿童找出与这张画的名称的第一个音相同的字母。
③视觉比较:让儿童看一行符号的开头,然后让他说出这些符号是下列哪一种:字母系列(不是词),词,数字,与字母类似的形状(人工字母)。
④找图式:让儿童在一个较大的结构中找出一个指定的字母组合、词、数字或人工字母。
⑤学校语言:检验儿童对学校教学中常用语言的一些基本的和较为复杂的语法结构与概念的理解。
⑥听力:测验儿童对用口头呈现的短文中词汇的结构的理解力,有些题目要求儿童进行推理并得出结论。
⑦数概念(选做):检验儿童对大小、形状、方位、数量等数学基本概念的理解。
⑧数运算(选做):检验儿童对计数和简单数字运算的掌握情况。
前面介绍的都是标准化测验,这些测验是由测验专家根据测验原理编制的,具有高信度和高效度。但在很多情况下,难以找到适合特定地区、特定学校、特定班级的标准化成就测验,因此,在教育工作中大量使用的测验多是教师自编的测验。我国学校进行的各种考试大多属于教师自编测验。
我国的大学招生和研究生招生考试属于预测性的成就测验,只是标准化程度还不够高,主要问题是:题目少,取样缺乏代表性;内容偏重知识,忽视能力;采用较多非客观性题目,评分带有一定的主观性;题目没有进行预测和项目分析,试题的测量学指标难以保证;合成分数的方法过于简单,没有考虑预测效度的要求;对分数的微小差异做出有意义的解释。
近几年我国在高考标准化方面进行了大量的工作,我国教育部考试中心组织有关专家就高考的命题、评分、分数转化和分数等值等方面进行了大量研究,取得了一定的成效。
【上一篇】
【下一篇】

参考资料

 

随机推荐