郑日昌《心理测量学》笔记（转载）

genggeng30 · 发表于 06-8-6 14:18:04

第一章心理测量的历史（郑日昌《心理测量学》笔记）
要了解当代心理学的各个领域不可不了解心理测验，因为测验是在当代心理学的各个领域从事理论研究和实际
应用的重要手段。要研究心理测验，不可不考察它的发生发展的历史。
第一节  心理测量在我国有着悠久的历史
测验的历史根源虽然无从考究，但中国人最早使用测验，也最重视测验，这一点是举世公认的。
一、我国古代的心理测验
早在2500多年前，我国古代教育家孔子就曾根据自己的观察评定学生的个别差异，把人分为中人、中人以上和中人以下，这实际上相当于测量学中的命名量表和次序量表。所谓“中人以上可以语上也，中人以下不可以语上也”，就是说智力比普通人高的可以给他高等教育，智力比普遍人低的不能给他高等教育。比孔子稍晚的孟子也说过：“权，然后知轻重；度，然后知短长。物皆然，心为甚”这就明确指出了心理现象进行测量的必要和可能。
三国时刘劭著的《人物志》一书，提出了心理观察的一条基本原理，即“观其感变，以审常度。”意思是霉根据一个人的行为变化便可推测他的一般心理特点。并提出通过词，以回答法(“应赞”)为手段来观察人的智力。这是一部论述能力问题的古代专著。1937年美国人把它译成英文，书名为《人类能力的研究》。
6世纪初，南朝人刘勰在《新论•专学篇》甲提到，“使左手画方，右手画圆，无一时俱成”，“由心不两用则手不并运也”。这是世界上最早的心理测验，比西方分心测验的出现要早1300多年。
世界上最早的婴儿发展测验也出自中国民间，自6世纪中叶以来，“周岁试儿”在我国江南就已经成为风俗。《颜氏家训》作者颜之推在《风操篇》中对此做了详细记载：“江南风俗，儿生一期(一周岁)，为制新衣，盥浴装饰。男则用弓矢纸笔，女则刀尺针缕，并加饮食之物及珍宝服玩，置之儿前，观其发意所取以验贪廉、智愚，名之为试儿。”美国的盖塞尔(A•Gese11)到本世纪20年代才用类似方法在实验室条件下记录幼儿的动作和顺应行为等方面的发展。颜之推还根据心理与行为的密切关系强调客观了解心理的可能，在《名实篇》中写道，“人之虚实真假在于心，无不见乎迹。”
自从隋炀帝创行开科取仕，科举制度在我国通行了1300多。年。目前西方言语测验中常见的填字和类比，相当于我国科举考试中的贴经和对偶，早在7世纪的唐代就有了。欧美各国通过考试选拔官吏的方法是18世纪末、19世纪初从我国学去的。
清朝后期出现的益智图（通称七巧板），形状大小不同的七块小板能够组成近百种的生物和实物图样，这可以看作是创造力测验的最早方案之一。七巧板的操作属于典型的发散式思维活动，操作的成果是形象转化(见图1—1)，值得高度重视。我国民间流行的九连环，其设计之巧妙，也可以和现代的魔方、魔棍相媲美《见图1—2》。西方直到1914年才有五巧板。后来刘湛恩先生用英文写了《中国人用的非文字智力测验》一书，把七巧板、九连环介绍到国外，武德沃斯(Woodworth)对九连环极为赞赏，把它称作“中阻式的述津”。最近，五巧板、七巧板已经发展成为纸笔测验，可应用于团体，测试方便，计分准确，已达到标准化程度。
二、民主革命时期测验运动的发展
清朝末年，心理学由西方传人我国。1914年有人在广东测验了500名儿童的记忆和比喻理解。1920年，北京高等师范学校和南京高等师范学校建立了我国最早的两所心理实验室。廖世承和陈鹤琴在南京高师开设测验课，并用心理测验试测投考该校的学生。这便是我国正式开始的科学心理测验。1921年他俩正式出版《智力测验法》一书。1922年，比奈量表由费培杰译成中文，并在江、浙二省的一些小学生中进行过测验。同年美国测验专家麦柯尔(W•A•Mocall)博士应中华教育改进社聘请来华讲学，在他的指导下，北京师范大学、北京大学、燕京大学、北京女子高等师范、东南大学等校的教授和学生开始编制测验。据麦氏说：当时中国心理学家所编造的各种测验“至少都与美国的水平相等，有许多竟比美国的为优。”1923年，在教育改进社的主持下，进行了全国小学教育调查，调查地区包括22个城市和11个乡镇，测验了92000个儿童。这个大规模的调查，引起了当时教育界对测验的注意。1924年，陆志韦先生发表了《订正比奈西蒙智力测验说明书》，30年代又与吴天敏再次做了修订；1931年中国测验学会成立。1932年《测验》杂志创刊。根据不完全的资料统计，到抗日战争前夕，我国心理学工作者制订或改编出合乎标准的智力测验和人格测验约20种，教育测验50多种。如廖世承团体智力测验，陈鹤琴图形智力测验，刘湛恩非文字智力测验，以及肖孝嵘修订的墨跋量表和画人测验(原编制者美F•L．Goode-•nongh)、艾伟修订的宾特纳智慧测验等。在这一时期，测量工作者能比较正确地估计测验的效用和价值，并不满足于已有的方法和技术，因而力图改进和提高。但是抗日战争爆发后，绝大多数人不得不中断或推迟当时所进行的工作。解放前共出版心理的研究、王征葵的《态度溅量法》、沈有乾的《心理与测验》、王书林的《心理与教育测量》、陈选善的《教育测验》、艾伟的《小学儿童能力测验》、孙帮正的《心理与教育测验》等。
林传鼎先生指出：“民主革命时期我国心理学家在测验领域至少做了两方面有益的工作：一是为当时的语文教学改革提供科学根据。二是为探索我国青少年儿童心理特点积累一些客观材料。”
三、心理测验在科学的春天中复苏
解放后的近30年，由于多方面原因，心理测验一直成为禁区。粉碎“四人帮”后，心理测验才在科学的春天中复苏。1979年，林传鼎，张厚粲等参考国外材料编制了少年儿童学习能力测验．同年，中国心理学会在天津开会时，医学心理专业委员会成立了心理测验协作组，建议由湖南医学院龚耀先主持修订韦氏成人智力量表。1980年初，北京师大心理学系首次开设心理测量课。同年5月，中国心理学会实验心理学专业委员会在武汉召开了全国心理测验研究协作会议，决定由林传鼎，张厚粲主持修订韦氏儿童智力量表，吴天敏主持修订比奈量表。经过三年的努力，这些测验已基本修订完成。在这期间中国科学院心理研究所和北。京安定医院等单位协作修订了明尼苏达多相个性调查表，北京大学心理系陈仲庚先生等修订了艾森克人格问卷，北京师大心理系编制了镶嵌图形测验，还有其它许多单位也编制或修订了一些心理测验，如注意测验、记忆测验、气质测验、婴幼儿发展测验等，并在编制创造思维能力测验方面做了一些有益的尝试。随着心理测量教学和研究工作的开展，心理测验开始在实际部门应用，如飞行员的选拔，运动员的选材、精神病的诊断、儿童多动症以及超常与智力落后儿童的检查等都用到心理测验。1983年初，在昆明召开的普通心理，实验心理专业年会上，就测验问题进行了讨论。总结了近几年测验工作中的经验，找出了问题，明确了方向。1984年末，在北京召开的第五届全国心理学年会上，成立了—测验工作委员会，加强了对测验工作的指导。
第二节  科学心理测验的产生与发展
一心理测验的产生是社会的需要
在西方一些国家，工业革命成功后，对劳动力的需要急剧增加，工厂大量采用童工，许多地方官与工厂主订约，每雇20个童工，必需带一个低能者。第—个用科学方法研究低能者的是法国医生意太(Itard)。他的学生沈干（Seguin）继承其师半途而废的事业，用生理训练法进行了多年试验，并于1837年创办了第一所专门教育智力落后儿童的学校。后来，其他一些欧美国家也陆续设立低能学校或在普通学校设特别班。在这种情况下，单靠长期观察和社会公认来鉴别智力落后儿童就很不够了。1864年，沈干出版了《白痴：用生理学方法来诊断与治疗》一书，介绍了在感觉辨别力和运动控制力方面训练落后儿童的方法，其中的一些方法如形式板被后来的非言语智力测验所采用。
19世纪，由于社会上对智力落后和精神失常者实行人道主义在欧洲和美洲开设了一些护理精神病人的特别医院，因而急需确定收护标准和客观化的分类方法，首先必须区分精神错乱者与智力落后者。法国医生伊斯奎洛尔(Esquirol)经过种种尝试最后断定：一个人驾驶语言的能力，是他智力水平的最可靠的标志。
另外，随着工业的发展，社会分工日益精细，因而有了专才训练与职业指导的需要，这也是促使测验发展的重要因素。特别是后来各种特殊能力倾向测验更是直接应实践的需要而产生的。
二、心理测验起源于个别差异的研究
世界上的事物千差万别，既是同一种事物，也有个别差异，没有任何两个物体是完全相同的。身有胖瘦，面有俊丑，而人心之不同，更是胜过其面。有个别差异，才有测量的必要。
科学家最初发现人的心理的个体差异的重要性是起因于天文学上的一个事件。1796年，英国格林威治天文台的皇家天文学家N•马斯基林因为助手金内布鲁克观察量体通过的晚间比自己迟0．2秒，认为他“师心自用，不依法行事”而将他辞退。此事在20年后受到另一天文学家贝塞尔的注意，他通过研究认为，这是一种不可避免的个人观察的误差。于是引起了学者们对个别差异的研究。
但是，当时的心理学家们并不关心个别差异的测量。直到19世纪末时，心理物理学的发展才促进了对心理现象的量的测定。
1879年，冯特(W•Wundt）在莱比锡大学设立第一所心理实验室。这一时期的实验心理学家长于生理学和物理学，主要目标是要发现人类行为的一般趋势，注意的焦点是行为的共同性而不是它的差异性。但是在研究中发现，对于同一刺激；各人的反应常常不同。起初以为这是由于实验手续上的错误。经过长时间的实验才认识到，此种差异并非由于偶然的错误，而是由于个人间能力上的真正差别。于是，引起了个别差异的研究。要研究个别差异必须有测量工具，由此便引起了测量运动。
另一方面，早期的心理实验提出了严格控制观察条件的要求。例如，在一个测量反应时的实验中，给予被试者的指导语可能明显地提高或降低被试者的反应速度。再如，周围环境的照度和色调可能明显地改变视觉刺激物的形象。这表明，只有在标准状况下被试者所作的观察报告才是有价值的。这种程序的控制为测验的标准化打下了基础。
三、心理测验的早期尝试
首先倡导测验运动的是优生学创始人、英国生物学家和心理学家弗兰西斯，高尔顿爵士(Francis Gdllon)。1869年，他出版了《遗传的天才》一书，提出人的能力是由遗传而来，并设想人的能力的分布是常态的，其差异是可以测量的。他在调查遗传问题的过程中，认识到有必要测量那些有亲缘关系和没有亲缘关系的人们的特性，以确定其相似程度。为此，高尔顿促使一些学校保存了对学生所进行的系统测量记录。他还在1884年国际博览会上设立了一个人类测量实验室，参观者付三个便士就可以测量到自己的某些身体素质和视听觉的敏锐性：肌肉力量、反应时以及其他一些简单的感觉一运动功能，博览会闭幕后，这个实验室迁到伦敦的南圣顿博物院，在这里继续开办了六年之久。用这种方法系统积累了关于简单心理过程方面的个别差异的大量资料。高尔顿设计了许多简单的测验，如判断线条长短与物体轻重。等。他受17世纪英国教育家洛克“一切知识来之感官”的观点的影响，企图由各种感觉辨别力的测量结果以推估个人智力的高低。他在1883年出版的《人的能力研究》一书中说：“外部世界”的信息是通过我们的感觉到达我们大脑的。我们的感觉越敏锐，获得的信息便越多，获得的信息越多，我们的判断与思维便越有用武之地”。高尔顿还注意到，白痴对于热、冷，痛鉴别能力较低。这一观察结果使他进一步确信，感觉辨别力“基本上是心智能力中最高的能力”。高尔顿还是应用等级评定量表、问卷法以及自由联想法的先驱。他的另一个很重要的贡献是把统计方法应用于对个别差异资料的分析。他将以前数学家们所研究出来的统计技术改造为简单形式，使那些未经专门训练的调查者也能使用。他不但扩充了古特莱特(Guetelet)的百分位法，还创造了一种粗浅的计算相关系数的方法。他的学生卡尔•皮尔逊(Karl．Pearson)推进其事业，创立积差相关法，成为测验学者寸步不能离的工具。
在心理测验的发展史上，美国心理学家J•M•卡特尔(J•M•Cattell)占据了一个特别突出的位置。卡特尔早年留学于德国，从师冯特。他将新兴的实验心理学与刚刚兴起的测验运动结合起来，不顾先生的反对，完成了题为《反应时的个别差异》的博士论文。1888年，在剑桥大学任教期间，与高尔顿过从甚密，深受其影响，在差异测量方面的兴趣得到加强。回美后，执宾夕法尼亚大学心理学之教鞭，合冯、高二氏之学，以各种心理测验来研究个别差异。他在自己的实验室内编制测验五十个，包括测量肌肉力量、运动速度、痛感受性、视听敏度，重量辨别力、反应时、记忆力以及类似的一些项目。他于1890年发表的《心理测验与测量》一文，描述了这些测验。这篇论文首创了“心理测验”这个术语，还由高尔顿加上了一篇附录表示支持。在此文中，卡特尔说：“心理学若不立足于实验与测量上，决不能够有自然科学之准确。”又说：“心理测验若有一普遍的标准，则其科学的与实际的价值一定可增加不少。”他当时就极力主张测验手续和考试方法应有统一规定，并要有常模以便比较。所有这些都是测量学上的重要观念。但他的测验皆脱胎于冯特的实验室，测量的大多是感知和运动过程。对同一个人来说；—几项测验的结果往往很不一致，而且测验得分与老师评定的智力；等级或学习成绩相关极低。因此在教育上缺乏实用价值。这启发后来的研究者探索其他途径来研究智力的差异。
早在1889年，厄恩(Oehro)曾编制十组测验，测量知觉、记忆、联想和运动机能。1892年波尔顿(Bolton)用数字：测量儿童的记忆力。1895年包尔登(Bourdon)发明勾消测验，其结果虽与智力关系不大，但此法现在依然通行。1897年艾宾浩斯《Ebbinghaus)用算术运算，记忆广度、句子填充测验施测于小学生，最复杂的要数句子填充，其结果与学业成绩十分相符，这大有别于卡特尔的低级心理过程的测验。1903年，克来(Kelly)已有以智龄为常模的思想，可惜此后来深深加研究。列举这些人的贡献是为了说明，科学的心理测验不是哪一个人独立造的，而是时代发展的必然产物。
四、比奈的贡献
著名美国学者波林(E•G•Boring)指出；在测验领域中．“19世纪80年代是高尔顿的10年，90年代是卡特尔的10年，20世纪头10年则是比奈的10年。
比奈(A•Binet)，1857年生于法国尼斯市，其父为医生，其母为艺术家。比奈在青年时学习医学，却对心理学更有兴趣，1886年发表第一部著作《推理心理学》，1889年同享利•博尼                (H．Beaunis)在索那建立第一所法国心理实验室，后任实验室主任，1891年发表《个性的变化》一书，后来他还对一些著名的计算家、棋手和盲棋手的思维活动做了研究，1895年他创办第一份法国心理学杂志《心理学年报》，同年他与享利联名发表文章，批评当时流行的测验太偏重于感觉，过于集中在测量简单的、特定的能力方面。他们认为，测量比较复杂的功能，不必苛求精确度，因为这些功能的个别差异是较大的。1898年比奈在哲学杂志上发表《个性心理学中的测量》一文，提到许多测验，如画方形，比较线的长短，记忆数目，词句重组，回答含有道德判断的问题，了解抽象文章的意义，折纸等等，后来有许多采用在他的量表中。在这篇文章中，他还提出心理测量的根本原理在于将个人的行为与他人比较以归类，这是近代测验理论的基本思想。1903年，他的另一本著作《智办的实验研究》问世，在此书中他所讲的智力是广义的，包含一切高等心理过程，并且表现在推理，判断以及运用旧经验解决新问题的行为上，他以自己的两个女儿作为被试者，所用的测验有填字、图片解释等。有些后来亦用于他的量表中。1904年法国教育部委派许多医学家、教育家与科学家组织一个委员会，专门研究公立学校中低能班之管理法。比奈亦是委员之一。他决心将测验的理论研究变为实际的应用，不顾众人的反对，极力主张用测验法去辨别有心理缺陷的儿童。经过细心研究，次年与其助手西蒙（T•Simon）在《心理学年报》上发表一篇论文，题为《诊断异常儿童智力的新方法》，在这篇文章中介绍的就是第一个智力量表——比西量表。
1905年的量表有30个由易到难排列的项目，可用来测量各种各样的能力，特别侧重于判断，理解，推理，亦即比奈所谓智力的基本组成部分。虽然这些测验也包括了感、知觉的内容，但其中言语部分所占的比例远较同时代的其他测验为大。不过该量表比较粗糙。1908年做了修订，采用智力年龄的方法计算成绩，并建立了常模，这是心理测验史上的一个创新。1911年做了第二次修订，就在这一年比奈不幸谢世，终年54岁。
比奈的成功不是偶然的，他曾经测量过人的头盖骨，研究过面相、手相和字相，他是费了许多工夫，试了许多方法，走了许多歧路，才得到成功的。
目前世界上的智力测验为数众多，其基本原理和主要方法都是由比奈奠定的，在心理测量的发展史上，比奈的贡献是不可磨灭的。因此，美国心理学家宾特纳(R．Pintner)说：“在心理学史上，假使我们称冯特为实验心理学的鼻祖，我们不得不称比奈为心理智力测量的鼻祖。”
五、心理测验的发展
比西量表问世后，迅即传至世界各地。各种语言的版本纷纷出现，其中最著名的是美国斯坦福大学推孟(L．M，Terman)教授1916修订的斯比量表，其最大的改变是采用了智商的观念。早在1911年，德国汉堡大学心理学家斯腾(Stern)就曾提出用儿童的心理年龄除以实足年龄所得的“心理商数”来表示聪明程度。推孟在修订比西量表时将其改称为“智商”，从此智商一词便为全世界所熟悉。
心理测验运动自本世纪初兴起，20年代进入狂热，40年代达到顶峰，50年低转向稳步发展。在此期间测验主要有以下几方面的发展：
(一)编制出一批操作测验，既可弥补语言文字量表在理论上的缺陷，又可以用于文盲和有言语障碍的人，非文字量表以宾特纳所编的最好。
（二）编制出团体智力测验，扩大了测验的应用范围。促进团  体智力测验发展的原因，是第一次世界大战时美国军队对官兵选拔和分派兵种的需要，在推孟的研究生奥蒂斯(A•S•Otis)所编团体测验的基础上发展出军用甲，乙两种测验，对200多万官兵进行了智力检查。战后此种测验经改造广泛用于民间，为教育与工商各界普遍采用。
(三)多重能力倾向测验逐渐受到重视。早在一次世界大战前，一些特殊能力(如音乐，美术、机械等厂倾向测验已经在实际应用中得到发展。30年代后，随着因素分析理论的发展，多项能力倾向测验在二次大战后编制出来，这种成套测验为分析个人心理品质的内部结构提供了适用的工具。普通能力倾向(智力)测验也向多元分析形式发展。主要代表是美国学者韦科斯勒(D•Wechsler)  所编制的儿童智力量表(1949)，成人智力量表 (1955)和学前智力量表(1967)。其特点一是用离差智商代替比率智商，二是由各个分测验结果可以得到言语，操作和全量表三个分数，即可以区分个别间差异，也可以评定个别内差异。对人的智力的描述，从笼统地谈聪明。不聪明，转向区分智力的不同侧面。说明人人皆有所长和所短。
(四)正当心理学家们忙于发展智力测验的时候，传统的学校考试也正在进行一场改革，卡特尔的学生桑代克(E．LThorndike)等人，利用心理测验原理，编造了第一批标准化的教育测验。因此后人尊称他为教育测验之鼻祖。一些专门的教育测验机构也在一些国家陆续成立起来，美国教育测验中心成立于1947年，是目前世界上最大的测验编制和研究机构。它有心理学家，教育学家和各方面的学科专家2000余人，并配有现代化的计算设备。
(五)心理测验的另一领域涉及情感适应、人际关系、动机、兴趣、态度、性格等人格特点。人格测验的先驱是克瑞普林(E•Kraepelin)，他最早用自由联想测验来诊断精神病人。人格问卷或自陈量表的原型是1917年武德沃斯设计用于士兵的个人资料调查表，以后一直被奉为情绪适应调查表的范本。而1921年问世的罗夏克(RorschacA)墨迹测验则是投射测验的发端。人格测验后来也发展到要求数量化，如明尼苏达多相个性调查表等。
(六)60年代后，由于认知心理学的崛起，将实验法与测验法结合，产生了信息加工测验，为了解心理能力提供了一些补充方法，使心理测验出现了新的发展趋势。
纵观心理测验的发展历史，可看出以下几点：（一）先是以解剖生理特征为根据，而后转向对心智活动的测量。（二）由测量简单的感知能力，发展到测量复杂的认知能力。（三）由笼统的单一量数以评定个别间差异的观念，转变为以多个量数兼顾个别差异与个别内差异的观念。(四)心理测量学是随着实验心理学的发展而产生的，二者在发展过程中由合到分，最后又走到一起来了。
目前的心理测验虽然看起来很简单，却是经过几代心理学家用了近一个世纪的时间反复探索才找到的，其发展主要受了两方面因素的影响。一是心理学理论的发展。1904年英国心理学家斯皮尔曼(C．Spearman)提出智力的二因论，认为人类智力可分为普通因素和特殊因素二部分，比奈测验所测得的只是普通因素。后来人们又对特殊因素发生兴趣，而编出各种特殊能力测验。30年代智力的多因论兴起，瑟斯顿(L•L•Thurstone)由因素分析求得七种基本的心理能力，随之发展出一批多重能力侧向测验。60年代美国南加州大学教授吉尔福特(J•P•Guilord)的智力结构理论代之而起，提出发散思维为智力的因素之一，从而开拓测量创造力的新领域。二是统计学方法的进步。早期的心理测验主要应用相关法进行研究。30年代后，因素分析法盛行，不但推进了能力测验的发展，还促进了人格理论与人格测验的发展，卡特尔16种人格因素测验就是采用因素分析法编制的。当代信息加工测验的发展与一系列新的数学模式的提出是同计算机的应用分不开的。

genggeng30 · 发表于 06-8-6 14:22:10

第二章  心理测量的性质与功能
第一节  心理测量的性质
美国心理学家桑代克和教育测量学家麦柯尔在几十年前曾先后提出“凡客观存在的事物都有其数量”，“凡有数量的东西都可以测量”。对物理现象的测量由来已久，其可能性已为世人所公认。对心理现象测量的可能性，直到现在尚受到一些人的怀疑。
随着科学的发展，技术的进步，人们不但对物体的长度，重量，温度以及时间，空间，运动等物理特性做出了越来越精确的测量，而且不断地尝试着对人的感知，记忆，思维、想象、注意、情绪以及能力，气质、性格等心理特性进行测量，并摸索出了一些方法，加深了对人类心理现象的了解，促进了心理学理论的发展。
唯心主义者把人的心理归结为灵魂的活动。灵魂，自然是神秘不可测的。辩证唯物主义认为，心理是脑的机能，是客观现实的反映。人的心里既是主观的，又是客观的。其客观性不但表现在心理的产生具有客观的物质基础(外界刺激和脑的生理过程)，还表现在心理要通过各种活动或行为表现出来。心理的客观性，存在性决定了心理的可知性、可测性。譬如我们平时说的“怕” 这种心理现象，虽不是物质实体，但也是—种客观存在，伴随有一系列生理变化，并能用仪器测量出来。从脉博，呼吸、心跳，血压，皮肤电及外显行为的改变，便可以推测其“怕”的程度。当然，由于心理现象本身十分复杂，目前的测量方法尚未完善，心理测量无论就其可靠性和准确性都远不如物理测量。但测得不—准不等于不能测，现在不能测不等于将来不能测。不承认心理现象的可测性，是唯心主义的不可知论。
一、什么是测量
(一)测量的定义
简单地说，测量就是根据一定的法则用数字对事物加以确定。
所谓“一定的法则”，指的是在测量时所采用的规则或方法。例如，用秤测物体的重量，依据的是杠杆原理，用温度计测物体的温度，依据的是热胀冷缩规律，用尺子测物体的长度，是把尺子的零点对准物体的一端，看物体的另一端所对着的刻度，测量人的智力，是根据智力理论编制测验，看被试者在测验上的得分，如此等等。使用好的法则，可以得到准确的测量效果，使用坏的法则，则会得到不准确的测量效果。许多事物易于测量，因其使用的法则易于确立和遵守，心理现象难以测量，是因为我们很难设计清晰而良好的法则。随着人类认识的发展，测量法则不断完善，测量也就越来越真确。
所谓“事物”，指的是我们所感兴趣的东西，说得更明确些，是引起我们兴趣的事物的属性或特征。测量就是确定这些属性或特征的差异。人与人的差别不只表现在有高有矮，有强有弱，有人跑得快、有人跳得高等身体外貌和体力特点上，也表现在较为抽象的心理能力和人格特点方面。例如有人活泼好动，有人沉静安详，有人勇敢豪放，有人谦逊细心，有人过目不忘，有人思维敏捷，有人精于数理工程，有人擅长文学艺术等等。所有这些特性都是心理测量的对象。
所谓“数字”，是个比数值意义更广泛的概念，可以表示数量，也可以不表示数量。一般说来，用数字对事物加以确定，就是确定出一个事物或事物的某一属性的量。但有时也可把数字当作一种事物的符号，而不反映事物的量，如“1班、2班、3班……”等。通常人们说的测量，指的是前一种情况，  即根据特定的法则，采用一定的操作程序，给事物确定出一种数量化的价值。
（二）测量的要素
1．参照点
要确定事物的量，必须有一个计算的起点，这个起点叫参照点。参照点不同，测量的结果便无法相互比较。参照点有两种：一种是绝对的零点，如测量轻重、长短，都以零点为参照点，即以“恰恰没有一点重量”、“恰恰没有一点长度”为计算的起点。另一种人定的参照点，如以海平面为测量陆地高度的起点，以冰点为测量温度的起点，这些都是人定的参照点。
理想的参照点是绝对零点。心理测量中所用的参照点都是人定的，此种参照点有一个极大的限制，就是从该点起计算的数值不能以“倍数”的方式解释。如甲的智商为100，乙的智商为50，不能说甲的智力是乙的二倍，因为没有零智力。这个道理虽然简单，但往往为人们所忽略，因而常常对测验分数做出不恰当的解释。
测量长度以米、厘米等为单位，测量重量以公斤、克等为单位，测量时间以分、秒等为单位。没有单位，数量的多少、大小便无法表示。
好的单位须符合两个条件，一为有确定意义，即同一单位在大家看来意义相同，不允许有不同的解释。二为有相等的价值，即第一单位与第二单位间的距离等于第二单位与第三单位间的距离。上述测量长度、重量与时间所的单位符合这两个条件，而心理和教育测量所用的单位则不等值。如智龄是年龄作为智力的单位，因为智力发展的速度先快后，4岁与5岁之间的差别，明显大于14岁与15岁之间的差别。
(三)测量的量表
要测量某个事物，必须先有一个定有单位和参照点的连续体，将要测的每个事物放在这个连续体的适当位置上，看他们距参照点的远近，便会得到一个测量值．这种连续体就叫量表。
由于制定量表的单位和参照点的种类不同，量表的种类也不同，根据测量的精确程度，其蒂文斯(S。S．Sfepens)将测量从低级到高级有分成四种水平，高级量表除包括低级量表的条件假设和功能外，还有本身的特点。
1．命名量表
这是测量水平最低的一种，只是用数字来代表事物或把事物归类。因为这里的数字没有数量化的关系，所以也有人认为它不能算是测量。这种量表又可分为两种，
(1)代号——用数字来代表个别事物，如学生和运动员的编号等。
(2)类别——用数字来代表具有某一属性的事物的全体，即把某些事物确定到不同性质的类别里，如用1代表男，用2代表女，或用不同数字代表不同职业等。
在命名量表中，数字只用来作标记和分类，而不能作数量化分析，既不能说A>B>C，也不能做加，减，乘，除的运算。它所适用的统计有次数、众数、百分比、偶发事物相关(如四分相关，相关)以及x2考验等。
2．二次序量表
它比命名量表水平高，不但指明类别的大小或含有某种属性的多少，如学生的考试名次、工资级别、能力等级、对某事物时喜爱程度等等。这里的数字包含有数量关系，代表符号是“>”，  如A>B>C等，主要用于分等（当然也包含了分类）。
在次序量表中，既无相等单位，又无绝对零点，数字仅表示等级。并不表示某种属性的真正量或绝对值。它所适用的统计有中位数，百分位数、斯皮尔蔓等级相关系数和肯德尔和谐系数等，但不能做加、减、乘、除运算。
3．等距量表
它比次序量表又进一步，不但有大小关系，而且一定数量的差异在整个量表的所有部分都是相等的，也就是具有相等的单位，其数值可相互做加、减运算，但没有绝对的零点，因此不能做乘除运算。典型例子是温度计，10℃与15℃的差别，同15℃与20℃的差别是一样的，我们可以说某物温度比另一物高多少，但不能说某物温度是另一物的多少倍，因为它的零点是人定的，0℃并不意味着没有温度。
等距量表的数值加或减一个常数或用一个常数乘或除，不会破坏原来数据之间的关系，因此一个量表上的数值可以转换为另一个具有不同单位的量表上的数值，而且几个不同单位的测值可以转换到一个通用量表上以便于比较。如摄氏10度可以转换华氏50度。用此种量表获得的数值可计算平均数、标准差、积差相关、阶层相关，并作T和F检验。
4．比率量表
是最高水平的量表，既有相等单位又有绝对零点。此种量表在物理测量中容易见到，长度、重量、时间等都是。所得的数值可做加，减，乘、除运算。如体重：甲80公斤，乙40公斤，我们既可以说甲的体重比乙多40公斤，也可以说甲的体重是乙的2倍。
比率量表所适用的统计除上述几种外，还可以计算几何均数及变异系数等。
由于大多数心理特征难以找到有意义的零点，所以本书不讨论用比率量表进行的测量。
二、什么是心理测量
所谓心理测量，就是根据一定的法则用数字对人的行为加以确定。即依据一定的心理学理论，使用一定的操作程序，给人的行为确定出一种数量化的价值。
本书中所讨论的心理数量，是以测验作为工具的测量，而不是用实验，观察等方法对心理现象的测量。
(一)  测验的定义
“测验”一词虽为大家所熟悉，但要给测验下一个严格的定义却并不容易。目前，关于测验有许多定义，笔者较为赞成美国心理与教育测量学家布朗(F•G•Brown)的说法：测验是 “测量一个行为样本的系统程序”。通俗地说，心理测验就是通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析一种科学手段。
首先，测验测量的是人的行为，严格地讲，只是测量了做测验的行为，也就是一个人对测验题目所进行的反应。在这个意义上可以说，测验即引起某种行为的工具。
其次，一个测验不可能包含所要测量的行为领域的所有可能的题目，它所包含的只是全部可能题目的一个样本。当然，也有例外的情况；例如对幼儿施测一个10以内数字的加法测验，就可以包括两个一位数字加法的全部各种组合。但这种情况是极少的，由于测验只是测量一个行为样本，因此测验题目的取样必须有代表性，而且在用同一领域的另一个等值的样本时，应该得到同样的分数。
第三，在编制、施测、评分和解释方面依据一套系统的程序。这种按照严格的科学程序去编制和使用的测验称之为标准化测验。标准化有三点好处，一是可以减少无关因素测验目的的影响，使测量准确、客观。二是有统一标准，便于对不同人的测验成绩进行比较和交流。三是同一份测验可用于许多人并可反复使用，较为经济。
我们平时说的考试也是用来测量人的某种行为，藉以判定个别差异的工具，它们与测验的主要差别在于没有标准化，或标准化程度较低。通常只凭教师各自经验出题施测和评分，对分数的解释也带有主观随意性。而测验不但要通过统计分析等科学程序编制出符合测验目的的题目，并有严格的实施程序与计分方法，而且要有关于测验的信度、效度以及如何解释分数的说明。
(二)心理测量属于哪一种水平的测量
一个标准化测验除了有一系列测题外，还有一个或几个标定得很好的量表，每个量表是一组符号或一组数量，用来描写所测量的特性的拥有程度。这些量表是属于哪一级水平呢？
一般说来，心理测量是在次序量表上进行的。因为对于人的智力、性格、兴趣、态度等来说，绝对零点是难以确定的。有人从智力发展曲线推定出智力的、绝对零点是在出生前三个月，亦即受孕后六个月，这个时期恰恰相当于胎儿开始活动，中枢神经系统开始控制肌肉运动这样一个成熟的时期。但此说尚未得到普遍承认。即便在某一学科的考试中得了零分，也不能认为被试在此学科方面的知识和能力为零。而且，在心理测量中，相等单位是很难获得的，例如，假定一个测验包含50个个难度不同的题目，每题1分，我们能否说10分和15分的差别与45分和50分的差别相等?表面看来，都是5分之差，似乎是相等的，但仔细考虑一下就会发现，45—50之差比10—15之差要大些，因为从45分提高到50分，要求再答对5个较难的题目，而从10分提高到1—5分却只要求再做对5个相对容易的题目。所以此量表实际上并没有相等间隔或单位。
虽然心理现象适合在次序量表上进行测量，但大多数心理学家喜欢把测验成绩表现在等距量表上。尽管目前在心理测验中还无法直接制定出等距量表，但可以采用统计方法把测验分数转换到一个有相等单位的量表上，最通常的转换方法是转换成标准分数。即把次序量表转变成以标准差为单位的等距量表。
(三)心理测量的性质
把心理测量同物理测量等量齐观，是导致人们对心理测验产生种种误解的原因。心理测量与物理测量有同也有异，总的看来，心理现象比物理现象更复杂，更难以测量。
1．心理测量的间接性
科学发展到今天，我们还无法直接测量人的心理，只能测量人的外显行为，也就是说，我们只能通过一个人对测验题目的反应来推论出他的心理特质。
所谓特质是描述一组内部相关或内在联系的行为时所使用的术语，是在遗传与环境影响下，个人对刺激作反应的一种内在倾向。例如，一个人喜欢阅读机械杂志，喜欢观看各种机器运转，热心为别人修理钟表、自行车，由此我们便可推论此人具有机械兴趣的特质。可见，特质乃是个体特有的(与他人不同)、稳定的(表现于多种情况)、可辨别的(可与其他特征分开)特征。但它又是一个抽象的产物，一个构想，而不是一个被直接测量到的有实体的个人特点。由于特质是从行为模式中推论出来的，所以心理测量永远是间接的。对这种间接测量有人持怀疑态度，认为所测量的不是所要要测的东西。实际上，这种间接测量的方法不仅在心理测量中采用，在生理学上，巴甫洛夫用狗的唾夜分泌推测大脑的高级神经活动，也是一种间接的测量。人的心理活动与行为具有因果关系，由“果”推测“因”，这是科学研究的基本方法之一。
2．心理测量的相对性
在对人的行为做比较时，没有绝对的标准，亦即没有绝对零点，我们有的只是一个连续的行为序列；所谓测量就是看每个人处在这个序列的什么位置上，由此测得一个人智力的高低兴趣的大小等，都是与所在团体的大多数人的行为或某种人为确定的标准相比较而言的。
3．心理测量的客观性
客观性是对一切测量的基本要求。在心理测量中要控制的变量比物理测量多得多，要做到客观颇不容易。
测验的客观性实际上就是测验的标准化问题；量具必须标准化，这是对一切测量的共同要求。经过长期的努力探索，测验的标准化即客观性已经有了很大改进。
首先，测验用的题目或作业、施测说明、施测者的言语态度及施测时的物理环境等，均经过标准化，测验的刺激是客观的。特别是对测验项目的选择不是随意的，而是在预测基础上，通过统计分析(难度、区分度等)确定的。
其次，评分计分的原则和手续经过了标准化，对反应的量化是客观的。评分方面的客观性测验种类和题目类型而异。一般说来，投射测验的客观性差些，而选择题的客观性较好，因此后者有时又叫客观测验。
最后，分数的转换和解释经过了标准化，对结果的推论是客观的。测验常模是通过对总体的代表性样本的预测确定的，测验的信度和效度也在一定程度上经过实践的检验，依据这些资料所做出的推论，自然较为可靠和客观。
心理测验的客观性虽然尚需进一步提高，但它毕竟是测量人的心理特性的较为客观、较为科学的方法，目前，还没有更有效、更实用的方法能够取代它。

genggeng30 · 发表于 06-8-6 14:22:47

第二节       心理测验的种类及功能
心理测验是判定个别差异的工具，个别差异包括很多方面，并可在不同的目的与不同的情境下去研究，这就使测验具有了不同的类别和功用。
一、心理测验的种类
心理测验的分类随采用的标准不同而有所不同。
(一)按测验的功能分类
1．能力测验
能力一词，其含义颇为笼统。从心理测验的观点看，可将其分为实际能力与潜在能力。实际能力是指个人当前“所能为者”，即代表个人已有的知识、经验与技能，是正式与非正式学习或训练的结果。潜在能力指个人将来，严可能为者”，是在给予一定的学习机会时，某种行为可能达到的水平。有人只把测量实际能力的测验称作能力测验，而把测量潜在能力的测验称作能力倾向测验。实际上二者很难分清。能力测验又可进一步分为普通能力测验与特殊能力测验。前者即通常说的智力测验，后者多用于测量个人在音乐、美术、体育、机械、飞行等方面的特殊才能。
2．学绩测验
主要用于测量个人（或团体）经过某种正式教育或训练之后对知识和技能掌握的程度。因为所测得的主要是学习成绩，所以称作学绩测验。最常见的是学校中的学科测验。
无论学绩测验还是能力测验（包括能力倾向测验），所测得的都是个人在其先天条件下经由后天学习的结果。不过学习成绩测验多是测量有计划的或比较确知的情境(如学校)下学习的结果，而能力测验，特别是能力倾向测验则是测量较少控制的或不大确知的情境中学得的结果，也就是在个人生活中经验累积的结果。
3．人格测验
人格测验主要用于测量性可知、气质、兴趣、态度、品德、情绪、动机、信念等方面的个性心理特征，亦即个性中除能力以外的部分。
(二)按测验的对象分类
1．个别测验
个别测验每次仅以一位受测者为对象，通常是由一位主测者与一位受测者在面对面的情形下举行。此类测验的优点在于主测者对受测者的行为反应有较多的观察与控制机会尤其对某些人(如幼儿及文盲)不能使用文字而只能由主试者记录其反应时，就非采用面对面的个别测验不可。个别测验的主要缺点是时间不经济，不能在短时间内经由测验收集到大量的资料，而且个别测验手续复杂，主持者需要较高的训练与素养，一般人不易掌握。
2．团体测验
团体测验是在同一时间内由一位主测者（必要时可配几名助手）短时间内收集到大量资料，因此在教育上被广泛采用。团体测验的缺点是是受测者的行为不易控制，容易产生测量误差。
(三)按测验材料分类
1．文字测验
文字测验所用的是文字材料，受测者用文字作答，所以也称其缺点是容易受被测者文化的影响，因而对不同教育背景下的人使用时，其有效性将降低，甚至无法使用。
2．非文字测验
非文字测验也称操作测验。测验题目属于对图形、实物、工具、摸型的辨认和操作，无需使用文字作答，所以不受文化因素的限制，可用于学前儿童和不识字的成人。此种测验的缺点是大多不宜团体实施，在时间上不经济。
(四)，按测验的目的分类
1．描述性测验
测验的目的在于对个人或团体的能力、性格、兴趣、知识水平等进行描述。
2．诊断性测验
目的在于对个人或团体的某种行为问题进行诊断。
3．预示性测验
目的在于从测验分数预示一个人将来的表现和所能达到的水平。
(五）按测验的难度和时限分类
1．速度测验
题目数量多，并严格限制时间，主要测量反应速度。此种测验题目较为容易，一般都没有超出被试的能力水平，但因时限较短，几乎每个被试都不能做完所有题目。在纯粹的速度测验中，分数完全依赖于工作的速度。
2．难度测验
包含各种不同难度的题目，由易到难排列，其中有一些极难的题目，几乎所有被试都解答不了。但作答时间较为充裕，使每个受测者都有机会做所有的题目，并在规定时间内做完会做的题目，因此测量的是解答难题的最高能力。
(六)按测验的要求分类
1．最高行为测验
此种测验要求受测者尽可能做出最好的回答，主要与认知过程有关，有正确答案。能力测验、学绩测验均属最高行为测验。
2．典型行为测验
此种测验要求受测者按通常的习惯方式做出反应，没有正确答案。一般说来，人格测验测量的均属典型行为。
(七)按测验的性质分类
1．构造性测
在此种测验中，所呈现的刺激和受测者的任务是明确的。
2．投射性测验
在此种测验中，刺激没有明确意义，问题模糊，对被试的反应也没有明确规定。
(八)按测验的应用分类
1．教育测验
教育部门是测验应用最广的领域，许多能力和人格测都可在学校中应用，但用得最多的的是学绩测验，平时说的教育测验，主要指后者。
2．职业测验
主要用于人员选拔和安置，可以是能力和学绩测验，也可以用人格测验．
3．临床测验
主要用于医务部门。许多能力和人格测验可用来检查智力障碍或精神疾病，为临床诊断和心理咨询工作服务。
以上几种分类都是相对的，同一个测验采用不同的标准，可能归为不同的类别。
二、心理测验的功能
心理测验的基本功能是测量个体差异或同一个体在不同场合下的反应。测验在实际工作和理论研究中有着广泛的应用。
(一)测验在实际工作中的应用
1．选材
在教育、工业、军事、艺术、体育等部门，人们经常面临着选材问题，也就是要辨认那些具有最大成功可能性的人。世人常常感叹伯乐之不常有，实际上仅仅依靠个人经验来识别人才，是学生，也可用于评价教师和教学方法，既可用于评价个人，也可用于评价集体。测验还有助于人们的自我了解和自我评价一种原始方式，不能满足当代社会对各种各样不同人才的大量需要。根据对各种活动的分析，找出各种活动所要求的心理模式，然后根据这些特征设计出各种能力、人格和学绩测验，预测人们从事各种活动的适宜性，可以提高人才选拔和职业训练的效率。例如，美国1942年制定全套方案对飞行员进行选拔，结果淘汰率由65％下降到36％。我国近年来制定的《学习飞行能力预测方法》，从注意广度，视觉鉴别，运算能力、地标识别，图形记忆等几方面进行测验，大大减少了人力，物力的浪费。
2．安置
在学校对学生如何按能力分班以做到因材施教、早出人才；在工厂和部队如何根据每个人的特长分配工作和兵种，以做到人尽其才，提高劳动生产率和部队战斗力。借助于心理测验，可以使我们在人和工作之间做出较好的匹配，避免乱点鸳鸯谱。
3．诊断
对于智力落后者的鉴别是促进心理测验发展的原动力之一，直到今天,在临床上对各种智能缺陷、精神疾病和脑功能障碍的诊断仍是某些心理测验的主要用途。
测验的诊断功能不只限于临床，在教育工作中还可以用测验来发现学生适应不良的原因和学习困难之所在，搞清是缺乏某种特殊能力，还是某方面的知识没有掌握，亦或是性格不良，从而采取适当的帮助和补救措施。专门为某一学科编制的诊断测验还可以确定学生所犯错误的类型，找出每个学生在学习中的弱点，以决定采用什么方法弥补。
4．评价
测验可以评价人们在学习和能力上的差异，人格的特点以及相对长处和弱点，评价儿童已达到的发展阶段等。既可用于评价
5．咨询
各种学业，能力，兴趣、性格测验可以服务于升学，就业指导，还可探察人的情绪困扰和人格障碍，为当事人的自我决策和行为矫正提供参考意见。
用测验来解决实际问题时，要注意测验资料只是作决定时要考虑的一个因素，而不是充分的条件，要作出一个好的决策还必须考虑其它方面的信息。
(二)测验在理论研究中的应用
1．搜集资料
几乎所有的心理学领域都涉及到个别差异问题，而测验是用来搜集有关资料的一个简便易行而又较为可靠的方法。譬如对智力的发展速率、智力的个别差异，团体差异以及影响智力发展的环境和遗传因素等问题的研究，大量资料都是由测验得到的。
2．建立和检验假说
心理学中的许多理论是在测验资料的基础上提出来的，并且用测验来检验。心理测验在基本理论的研究中所起的作用是不容忽视的。如智力结构理论的提出和发展，智力测验就起了重要作用。在教育工作中，不同教育措施的效果也要靠测验来比较和检验。
3．实验分组
在心理学研究中，常用测验来对被试进行实验分组，以达到等组化的要求。
总之，心理测验充实了研究心理学的方法，不但推动了心理学理论的发展，面且使心理学更好地为实际服务。
第三节  正确地对待和使用测验
—、对测验的错误看法
自测验问世以来，人们对其毁誉不一。对测验的效能存在两种极端看法：
(一)测验完美无缺
有的人高估测验的效能，对测验奉若神明，单纯依靠测验做各种决定，而不考虑从其他方面来的信息。他们迷信分数，把测验分数绝对化，甚至把测验分数的微小差异也看作具有重大的实际意义。特别是在20年代，随着团体测验的兴起，测验在西方风靡一时、泛滥成灾，忽略了测验还只是个粗糙的工具。当测验结果与那些毫无根据的期望大相径庭的时候，对测验的失望、怀疑，乃致敌视情绪便油然而生。这一狂热运动实际上反而延宕了心理测验的进一步发展。
(二)测验无用且有害
心理测验在其发展过程中不断受到人们的批评。测验的反对者认为测验是根本无用的，依靠测验往往会做出许多错误的决定。
在西方对测验的另一种批评是，某些人格测验侵犯了个人秘密，违背民主原则。他们认为人的个性和态度是自己的事，与学习或工作的成功无关，不应该在作实际决定时加以考虑。美国加利福尼亚州的立法机关通过的一条法令规定：凡涉及学生“家长或监护人的个人信仰、私生活、家庭生活、品格或宗教方面的问题，禁止施行任何测验，问卷，调查或检查……除非书面通知学生的家长或保护人，说明需要施行这样的测验、问卷、调查或检查，并得到他们以书面形式所表示的同意……”
人们对测验批评最强烈的问题是：测验为宿命论和种族歧视、阶级压迫提供心理学依据。近年来对此问题国际上已取得渐趋一致的看法。人们普遍认为，这不是测验本身的过错，测验是一个工具，测的是人的心理的差异，至于这个差异是先天的还是后天的，这要看使用者持哪种心理学理论，而与测量工具无关。现在大多数人认为测验测量的是教育成就和现有能力，是遗传与环境，成熟与学习相互作用的结果。至于测验为少数种族主义者和统治者所利用，这种情况确实存在。早期的智力测验由于内容多是白人和城市中产阶级所熟悉的材料，黑人和劳动人民在测验上得分较低。于是有人便得出了黑人和劳动人民天生愚笨的结论。但此种观点很快就受到正直的心理学家的批判。譬如，美国明尼苏达大学心理学教授欧文•戈茨曼（I•Gotte—Sman），就曾明确指出：“美洲黑人和其他美国人的平均智商之间的差异，几乎完全可以用从胎儿起直至整个一生的处境不利来说明。”
对文化背影影响测验分数的问题已经研究了很多年，最初，有些研究者企图发展排除文化影响的测验，可是人们很快就认识到这是行不通的，于是又转向编制所谓文化公平的测验。还有人根据亚文化群的特点，为不同文化背景的团体编出不同的量表。所有这些努力都取得了一定的效果，我们认为所谓公平只是相对的，更重要的是找出造成各个团体文化差异的因素，然后再去设法消除它。
过去，某些人脑子里有这样一个公式：心理测验=智力测验=智商=遗传决定论，这实在是对测验的一种误解，正是这种误解，使心理测验蒙受了长期的不白之冤。
二、对测验的正确态度
（一)测验是研究心理学的一个重要方法和作决策的辅助工具。
俄国化学家门捷列夫说过：“从开始有测量的时候，才开始有科学。”
从心理学的发展史来看，心理测验是在心理学由思辩科学转向实验科学后产生的，对行为的客观测量代替了内省法，这是—个进步，是继实验法之后，在心理学研究方法上的又一次唯物主义尝试。测验法较之观察法和旧法考试更推确、更客观。同时由于测验对被试的取样大，并能研究较为复杂和高级的心理现象。因而可弥补实验法的某些不足。有人承认通过测验法所得到的心理学理论，          却反对测验法本身，实在是一件很荒唐的事，但是，我们也应看到，测验不是鉴别个别差异的唯一方法，更不是万能方法。任何一种方法都有自己的长处和短处，测验的作用是有限的，只有把各种方法结合起来，才能对人的心理现象做出全面的考察。当现实需要我们做出决定时，我们应当采用最有效的信息，如果它能从测验分数得到，那就使用测验，如果别的方法能提供更好的信息，那就不用测验，重要的是对各种方法的功效做出评价，权衡利弊，尽可能公正地客观地采用最理想的程序。
现在的问题是，我们一方面责难心理测验不准确、不可靠、不科学，另一方面却又大量使用更不准确，更不可靠、科学性更差的旧法考试。在升学，就业、招工，晋级、长工资、授学位时用一些未经标准化的测验来作筛选，甚至以一次考试定终身。自己的东西因为用起来顺手，尽管有许多弊端，也舍不得丢掉，别人的东西，尽管有某些长处，因为自已不熟悉，便拒之门外。崇洋媚外，月亮也是外国的圆，固然不对，但闭关自守，抱残守缺，也未必好．正确的态度应该象鲁迅先生说的那样，对外国一切好的东西都采取拿来主义，为我所用。
(二)测验作为一个研究手段和测量工具尚不完善
心理测验无论在理论上和方法上都存在不少问题，绝不能认为测验分数对于人们的能力和人格提供了非常准确可靠的指标，在对测验分数作解释，尤其是对个别人做预测时必须十分小心。
在某些情况下，测验使人做出了错误的决定，但在更多的情况下，测验能为我们提供用其他方法得不到的有用信息。我们不应该重犯倒洗澡水把孩子也泼掉的错误。
心理测验的主要问题是缺乏坚实的理论基础，关于智力和人格目前还没有统一的定义和理论。有人可能会质问心理学家，你们连什么是智力和人格都没搞清就想要测量它们，岂不荒唐?我们说这种情况在科学史上是屡见不鲜的。譬如，在对万有引力定律、一无所知时，人们仅根据简单的杠杆知识就能称物体的重量，在认识到物体受热分子运动加速以前，人们仅根据热胀冷缩这一现象就可以测量物体的温度。正是由于秤和温度计等测量工具的发明与使用，促进了对物理现象的研究，发展了物理学理论。
世界上第一把石斧绝不会削铁如泥，世界上第一杆秤也绝不会量出一克的千万分之一。任何一个工具只有在使用中才能发现它的弊端，从而不断改进和完善。如果当初因为秤不够准，刀不够快就禁止使用，那么今天的电子天平和金属切割机就绝不会产生。
(三)为了更好发挥测验的效能，必须防止测验的乱编滥用
测验是个有用的工具，但对测验的使用必须加以控制。测验之所以遭到一些人的反对，除了测验本身的问题外，在很大程度上是由于测验的误用带来严重的社会后果，败坏了测验的信誉。
为此，美国心理学会于1954年制订了《心理学家的道德准则》和《心理测验与诊断方法的技术建议》两个文件，对测验的发行和实施原则做了明确规定，对使用者的资格也做了严格的限制。
前车之覆，后车之鉴。目前，测验在我国刚刚兴起，我们应该一开始就强调它的科学性、严肃性，使之沿着正确方向发展。为了防止测验的乱编滥用，要注意以下几个问题：
1．测验的编制和修订要注意科学性
编制和修订心理测验是一项十分复杂的工作，必须由有关领域的专家来主持。他们不但要对该领域（如智力、人格等）的心理学理论有较深造诣，而且要通晓测验的基本原理和编制技术。对心理学和测量学一窍不通或一知半解就来编制或修订测验是应该禁止的。
测验的首要条件是标准化。标准化测验在编制时要遵循特定的程序，不但要有统一的内容、施测程序和评分方法，而且要有较高的效度和信度，还要有解释分数的常模资料或其他参照标准。即使国外广为流行的测验，在引进时也必须根据试测结果修订常模和某些不合适的题目，简单照搬或仅凭主观经验稍加更改就拿来应用，是很危险的。
2．测验的出版和发行要严加控制
对于大多数心理测验来说，泄露测验内容，可能会使测验失效。因此，对测验的出版发行必须严加控制。不应在科普读物上发表测验题目，在一般公开发行的书籍上，（包括某些教科书）介绍能力或教育测验需要举例时，最好用模拟题目。编制和修订一个测验需要很长时间，有的测验经过几十年的使用和反复修订已渐趋完善，一旦公开发表，便整个报废。某些人格测验对题目的保密要求虽然不象能力测验那样强，但广为散发也会增加误用的可能性，造成不良的社会后果。为了保护测验，防止测验失密，不让一般人熟悉测验内容，需要有相应的出版法来保证。
正式发行的测验，必须备有详细的测验手册或说明书，不仅要讲清施测和计分方法，而且应提供足够的信息以使得人们能对测验本身做出评价，没有效度和信度资料的测验是不能发行的。目前在一些科普刊物上登载的测验多半是游艺性的，不能正式拿来使用。在宣传和介绍测验时要实事求是地讲清测验适用范围，指出其不足和局限，不要夸大测验的功能。
3．测验使用者要具备一定的资格
测验的选择、施测、计分和解释都必须由受过专门训练的心理学工作者，教育工作者或医生来进行。一般说来，个别施测的智力测验和大部分人格测验对使用者的要求较高，而学绩测验的使用者只要受过初步训练即可。
测验的使用者既要有能力，又要恪守一定的职业道德。在宣传和分析测验结果时要谨慎行事，要考虑对当事人可能产生的影响，在一般情况下，告诉当事人的应是对结果的解释，而不是简单宣布一个分数，要保护受测者的利益，如对测验结果保密等，如果发现受测者在能力、人格或学习上存在某种问题，要给以辅导和帮助，并尽可能提供相应的教育和治疗上的措施，把诊断与矫正结合起来。
我国著名心理学家陈立先生在一篇文章中谈了对测验的看法，他在充分肯定测验是一个有用工具的前提下，特别表示了对目前社会上乱编、滥用测验的关切。每一个心理测量工作者必须牢记陈老的告诫。
4．要学习和宣传测量理论
乱编滥用测验的根源在于不懂测量理论。为了解决这个问题，有必要提倡心理学和教育学工作者学点测量学对广大教师宣传和普及测量理论，促进考试科学化，亦属当务之急。对国外测量理论和测验一样，也要加以适当改造，使之适合我国国情。

genggeng30 · 发表于 06-8-6 14:23:50

第三章  心理测验的编制
工欲善其事，必先利其器。为了在研究工作和实践中更好地发挥测验的效能，首先要编制出各种高质量的、合用的测验。
第一节  编制测验的一般程序
编造测验的方法，依测验的性质而异。不同类型，不同用途的测验，编制的具体过程是不同的。但由于测验原理大体相同，因而可以概括出一套通用的编制程序。
总的说来，编制心理测验一般要经过以下几个步骤，确定测验的目的，制定编题计划，编辑题目，题目的试测与分析，集合成测验，将测验标准化，对测验的鉴定，编写测验说明书。
一、确定测验的目的
(一)测量对象
在编造测验前首先要明确测量对象，也就是该测验编成后要用于哪些团体。只有对受测者的年龄、智力水平、社会经济和文化背景以及阅读水平等心中有数，编制测验时才能有的放矢。
(二)测量目标
所编的测验用来测量什么，是测能力、人格，还是学业成就，也是必须首先考虑的问题。不但要明确测量的目标，还要对测量目标加以分析，将此目标转换成可操作的术语，即将目标具体化。如美国著名测验学家瑟斯顿通过因素分析，将智力分解为七种基本心理能力：
语文理解——阅读时了解文义的能力。
语词流畅——正确迅速拼字与敏捷联想词义的能力
数字运算——正确而迅速使用数字解答算术问题的能力。
空间关系——运用感觉器官及知觉经验正确判断空间方向及各种关系的能力。
机械记忆——对事物强记的能力。
知觉速度——迅速而正确地观察与辨别事物的能力。
一般推理——根据已知条件推理判断的能力。
瑟斯顿根据上述七种因素于1941年编成了“基本心理能力测验”又如，在60年代后期，人们开始对测量创造力发生兴趣。作为指导测验编制的操作定义，有人将创造力看作发散思维的能力，即对规定的刺激产生大量的、变化的、独特反应的能力，据此定义从反应的流畅性、变通性（灵活多变）和独创性三方面来测量创造力。
(三)测量目的
所编出的测验是要对被试做描述，还是做诊断，亦或是选拔和预测，这一点也是在测验编制前就应明确的。目的不同，编制测验时的取材范围以及试题难度等也不尽同。譬如，中学毕业考试的目的是考察学生是否掌握了中学阶段所学的各学科的基本知识，在命题时主要注意取材的代表性，不必过多参考虑题目的难度。而大学入学测验的目的是把学生作区分，以便择优录取，因此试题取样的代表性并不重要(在我国，高考实际上还具有左右中学教学的指挥棒作用，所以应考虑题目取样是否符合教学大纲)，但必须根据录取率来确定适当的难度。而一个学科诊断测验，则只要能找出学生学习困难之所在就可以了，对题目的难度和取样的代表性都不必考虑。
二、制定编题计划
编题计划，实际上就是编制测验的蓝图，通常是一张双向细目表，指出测验所包含的内容和要测定的各种技能，以及对每一个内容、技能的相对重视程度。不同的测验有不同的内容和技能，对于学绩测验来说，所谓内容就是某一学科教材中的各个课题；所谓技能，就是在教学中要达到的行为目标。美国心理学家布鲁姆（B•S•BlJoom)最早提出教育目标的分类问题。他把学习的心理活动过程分成认知、精神运动和情感三个领域，又把认知领域具体分为知道（记忆事实、条件、方法、原理等的能力)、理解、应用、分析、综合、评价六个层次。在布鲁姆等人编的《教育目标的分类》一书中，为每个认知层次提供了许多题目范例。后来人们一般就依据布鲁姆的认知性行为目标编拟学科试题，以测量学生的学习结果。
表3—1是一个小学高年级自然常识测验的编题计划。表中的数字代表每一类题目所占的百分比，这些比例反映着每一个内容及目标的相对重要性。在编制标准化的学绩测验时，这种双向细目表是由学科专家和有经验的教师，在对教材和教学大纲仔细分析的基础上，经过集体讨论制定的，以确保分类合理，比例恰当。
表3一1小学自然常识测验编题计划
获得基
本知识       理解原
理原则       应用原
理原则       分析因
果关系       综合成
系统
见解       建立评
价标准       合计
生物世界       3       5       6       3       2       1       20
资源利用       2       3       3       1       1       0       10
动力和机械       2       3       4       2       0       1       12
物质、物性与能量       5       6       8       3       2       1       25
气象       2       4       3       2       2       0       13
宇宙       2       5       4       1       0       0       12
地球       2       2       2       1       1       0       8
合计       18       28       30       13       8       8       100
测验计划有两个用途：
(一)在编题阶段，测验计划指出应该写多少和写哪些种类的题目；题目编好后可将题目的实际分布情况与测验计划对照，以确定测验题目是否恰当地代表了所要测量的领域，核对重要方面的内容是否有遗漏。
(二)在记分时可按表中百分比确定每类题目的分数。
三、编辑项目或题目
(一)搜集有关资料
测验计划编好后，就要搜集有关资料作为命题取材的依据，一个测验的好坏和测验材料的选择适当与否有密切关系。为此要注意以下几个问题：
1．材料要丰富
资料搜集愈齐全，命题工作便愈顺利，这样测验内容便不致有所偏颇，而且能提高行为样本的代表性。如编制人格测验，搜集的资料应包括：人格的主要理论，用于描述人格的术语，临床观察的资料，以及其它人格调查表的题目等。
2．材料要有普遍性
所选择的材料对测验对象要尽可能公平，即受测者都有相等的学习机会。譬如，编制标准化的学科成绩测验时，要以统一的教学大纲和统编教材作为题目来源，不能只考虑个别教师的意见，而要考虑大多数教师和专家的意见。在编制智力测验时则要尽量避免特殊知识经验和文化水平的影响。
（二）选择项目形式
测验编制者还必须确定题目的表现方式，是纸笔测验还是操作测验，是只要受测者认出正确答案，还是需要他自己做出正确答案。在大多数情况下，任何题目都可以用几种形式呈现，问题是如何选择“最优的’形式(各种题目形式的比较和编题原则，在下一节详细讨论)。在一个测验中，可以采用一种形式，也可以采用几种形式。
在选择题目形式时，要考虑以下几点，
1．测验的目的和材料的性质
如果要考察学生对概念和原理的记忆，适于用简答题，要考察对事物的辨别和判断，适于用选择题，而要考察综合运用知识的能力，则适于用论文题。
2．接受测验的团体的特点
如对幼儿宜用口头测验，对于文盲识字不多的人不宜采用要求读和写的项目，而对有言语缺陷的人(如聋哑，口吃)则要尽量采用操作项目。
3．各种实际因素
譬如，当被试人数过多，测验时间和经费又有限时，宜用选择题进行团体纸笔测验，而人数步，时间充裕，又有某些实验器和设备，则可用操作测验。
我国的廖世承、陈鹤琴先生几十年前曾提出以下几条选择测验形式的原则：使被试者容易明了测验作法；在做测验时不会弄错；做法简明省时，计分省时省力；经济。
(三）编写和修订题目
制定测题的过程包括，写出、编辑、预试和修改等一系列过程。在获得一个令人满意的测题之前，这些步骤是不断重复的。在这个过程中，编制者和有关方面专家要对题目反复审察修订，改正意义不明确的词语，取消一些重复的和不合用的题目。然后将初步满意的题目集起来组成一个预备测验。编写题目要注意以下几个问题。
1．题目的范围要与测验计划所列的内容技能双维表相一致。
2．题目的数量要比最后所需的数目多一倍至几倍，以备筛选和编制复份。
3．题目的难度必须符合测验目的的需要。
4．题目的说明必须清楚明白。
四、项目的试测和分析
初步筛选出的项目虽然在内容和形式上符合要求，但是否具有适当的难度与鉴别作用，必须通过实践来检验，也就是要通过预测进行项目分析，为进一步筛选题目提供客观依据。
(一)试测
项目性能之优劣，不能仅凭测验编制者主观的臆测来决定，必须将初步筛选出的项目结合成一种或几种预备测验，经过实际的试测而得客观性资料。预测应注意以下几个问题：
1．预测对象应取自将来正式测验准备应用的群体。例如，对于一个学绩测验来说，进行预备测验的学生必须和测验所指定的被试属于同一个年级。并且具有相同的课程背景。取样时应注意其代表性，人数不必太多，亦不可过少。
2．预测的实施过程与情境应力求与将来正式测验时的情况相近似。
3．预测的时限可稍宽一些，最好使每个受试者都能将题目做完。以搜集较充分的反应资料，使统计分析的结果更为可靠。
4．在预测过程中，应对受试者的反应情形随时加以记录，如在不同时限内一般受试者所完成的题数、题意不清之处及其他有关问题。
预测的目的在于获得被试对题目如何反应的资料，它既能提供哪些题目意义不清，容易引起误解等质量方面的信息，又能提供关于题目好坏的数量指标，而且通过预测还可以发现一些原来想不到的情况，如检验时限长合适，在施测过程中还有哪些条件需要进一步控制等。
(二)项目分析
对项目的分析包括质的分析和量的分析两个方面。前者是从内容取样的适切性，题目的思想性以及表达否清楚等方面加以评鉴，后者是对预测结果进行统计分析，确定题目的难度、区分度、备选答案的合适度等。
编制一套测验，只依据一次预测的结果所作的题目分析是不够的。
由于预测的被试样本可能会有取样误差，故由此得到的项目分析结果未必完全可靠；为了检验所选出的项目的性能是否真正符合要求，通常需再选取来自同一总体的另一样本再测一次，并根据其结果进行第二次项目分析，看两次分析结果是否一致。如果某个题目前后差距较大，说明该题的性能值得怀疑。这种在两个独立样本中进行项目分析的过程叫做复核。关于项目分析方面的问题，将在第七章详细讨论。
五、合成测验
经过预测和项目分析，对各个题目的性能已有可靠的资料作为评价的根据，下一步就可以选出性能优良的题目加以适当的编排，组合成测验。
（一）项目的选择
在选择项目时，不但要考虑项目分析所提供的资料，还要考虑测验的目的、性质与功能。最好的题目，就是只测定所需要的特征，并能对该特征加以有效区分的难度合适的题目。首先是要测定所需要的特征，如果我们想测定语言推理能力，就不要包括主要测量阅读能力或算术知识的项目。题目性能好坏是相对的，不同的测验对题目的难度和区分度有不同的要求。
一般说来，题目的区分度越高越好，这是选择题目的一条重要标准。特别是对于选拔测验，此条尤为重要。但有时根据需要也可以保留个别鉴别力不高的题目。如在学科成就测验中有些内容十分重要，即使区分度低一些，也要包括在内。
选择题目的另一个指标是难度．难度多大合适并无一个绝对标准，而要根据测验目的来确定。有的要求难一些，有的则要求容易一些，有的可不考虑难度，就是同一张试卷，题目难度也可以不同，只要整个测验的平均难度符合测验要求即可。
根据题目分析资料选出的题目，还要与测验计划(双向细目表)再次对照，看看在材料内容以及所测量的认知技能上的比率是否与计划相符，必要时须加以适当调整。此外题目的数量还必须适合于所限定的时间。
(二)项目的编排
项目选出之后，必须根据测验的目的与性质，并考虑受试者作答时的心理反应方式，加以合理安排。
在测验开头应该有一，两个十分容易的题目，以使受测者熟悉作答程序，解除紧张情绪，建立信心，进入测验情境。对试题的总的编排原则是要由易到难。这样可避免受测者在难题上耽搁时间太多，而影响对后面问题的解答。在测验最后可有少数难度较大的题目，以测出受测者的最高水平。
下面是两种常见的排列方式：
1．并列直进式
此种方式是将整个测验按试题材料的性质归为若干分测验，在同一分测验的试题，则依其难度由易到难排列。
2．混合螺旋式
此种方式是先将各类试题依难度分成若干不同的层次，再将不同性质的试题予以组合，作交叉式的排列，其难度则渐次升进。此种排列的优点是，受试者对各类试题循序作答，从而维持作答的兴趣。
(三)编造复本
为增加实际的效用，一种测验至少要有等值的两份，份数越多，使用起来愈便利。例如，我们要用测验来考察一班学生在一学期中的进步，必须测量两次，一次在开学初，一次在学期末，两次结果的差别代表一学期中成绩的提高。如果测验只有一份，用两次就难免有练习的影响，不能完全代表进步的数量。要是这个测验有好几份替换使用，就可以免掉这种困难。
测验的各份复本必须等值，所谓等值需符合下列几个条件：
1．各份测验测量的是同一种心理特性。
2．各份测验具有相同的内容和形式。
3．各份测验的题目不应有重复的地方。
4．各份测验题目数量相等，并且有大体相同的难度和区分度。
5．各份测验的分数分布(平均数和差异度)大致相等。
只要有足够数量的题目，编造复本的手续是很简单的。先将所有合用的题目按难度排列，其次序为1、2、3、4、5、6、……如果要分成两个等值的测验本，可采用下面的分法。
A本：1、4、5、8、9、12、13、16、17、20、……
B本：2、3、6、7、10、11、14、15、18、19、……
如果要分成三个等值的测验本，可用采下的分法：
A本：1、6、7、12、13、18、19、24、……
B本：2、5、8、11、14、17、20、23、……
C本：3、4、9、10、15、16、21、22、……
采用上面的分法可使复本之间在难度上基本相等，从而获得大体相同的分数分布。复本编好后，应该再试测一次，以决定各份究竟是否等值。
六、将测验标准化
—套好的题目并不一定是一个好的测验。对于测验的基本要求是准确、可靠。为了减少误差，就要控制无关因素对测验目的的影响，这个控制的过程，称作标准化。具体包括以下几方面：
(一)内容
标准化的首要条件，是对所有受测者施测相同的或等值的题目。测验的内容不同，所得的结果便无法比较。
（二）施测
尽管对于所有的受测者使用了相同的题目，但如果在施测时各行其是，所得的分数也不能进行比较。为了使测验条件相同，必须有统一的指导语和时间限制。
1.指导语
给受测者的指导语属于测验刺激的一部分，它的内容通常包括对测验目的说明和受测者应该如何作答的指示（包括如何选择反应、记录反应、以及时限等）。对于纸笔测验来说，这些指示一般印在测验的开始部分，也可以印在另外一张纸上。要求简单明确，不引起误解。如果题目形式对被试是生疏的，还应该有一些例题。
指导语会直接影响受测者的作答态度与方法。有人以不同的指导语对几组被试实施同一个能力测验，结果表明，将该测验说成“智力测验”的一组，成绩最高；将之说成“日常测验”的一组，成绩最纸。
为了保证测验情境的一致，还要有对主试者的指导语，主要是对测验细节作进一步解释，以及其它一些有关事项，包括测验房间场地的安排（照明、桌掎、隔音、温度等），测验材料的分发，如何计时、记分，对被试的各种提问如何回答，以及在测验中途发生意外情况(如停电，有人迟到，生病；作弊等应该如何处理。由于主试者的一言一行，甚至表情动作都会对受测者产生影响，所以主试者一定要严格遵守施测指导，不要任意发挥和解释。总的要求是，无论什么人、在什么时候、什么地点使用同一测验，都必须做同样的事，说同样的话。对主试者的指导语与测验是分开的。
2．时限
确定测验的时限，要考虑施测条件和实际情况的限制(如一节课时间的长度)，以及被试的特点（如对儿童、老人、病人施测时间不宜过长），不过更重要的是考虑测量目标的要求。
对于人格测验来说，反应速度是不重要的，可不必规定严格的时限，但是在测量能力和学绩成就时，速度是需要考虑的一个重要因素。依据速度在活动中所起的作用，可以把测验分成速度测验和难度测验。纯速度测验时间应当严格限制，使被试中没有人能在规定时间内做完全部题目。纯难度测验只考察被试解决难题的水平而不考虑完成时间。实际上，大多数能力和学绩测验介于上述二者之间，既考察反应的速度也考察解决难题的能力。通常所用的时限是使大约90％的受训者能在规定时间内完成全部测验，如果题目由易到难排列，应使大多人在规定对间内完成他会答的问题。
确定时限一般采用尝试法，即通过预测来决定。假设根据第一次试测的经验，我们估计大部分被试可以在25分钟内做完，在第二次试测时，可以先叫被试用黑铅笔做20分钟，然后换成红铅笔，再过5分钟换成蓝铅笔，这样便可了解被试在规定时间内完成题目的数量。另一种方法是在施测现场挂一只钟，每个被试做完后即将当时时间写在试卷末尾。试卷收齐之后再根据被试完成情况规定合适的时限。
(三)评分
标准化的第三个要素是客观评分。客观性意味着在两个或两个以上的受过训练的评分者之间有一致性。只有当评分是客观的时候才能够把分数的差异完全归诸受测者的差异。一般说来，自由反应的题目(如问答题、论文题等)评分者之间很难取得完全一致，而选择题的评分较为客观，因此有人将选择题组成的测验叫客观性测验。
无论哪种测验，为使评分尽可能客观，有三点要求：
1. 对反应的及时的和清楚的记录。特别是对口试和操作测验，此点尤为重要，必要时可以录音和录象。
2. 要有一张标准答案或正确反应的表格，即计分键。选择题测验的计分包括一系列正确的答案和容许的变化；论文题的计分键包含各种可能答案的要点；人格测验不可能有明确而统一的答案；计分键上指明的是具有或缺少某种人格特征者的典型反应。
3. 将受测者的反应和计分键比较，对反应进行分类。对于选择题来说，这个程序是很容易的，但是当评分者的判断可能是一个起作用的因素时（如问答题、论文题），就需要对评分规则作详细的说明，评分时将每一个人的反应和评分说明书上所提供的样例相比较，然后按最接近的答案样例给分。
无论采用何种评分方法，都必须符合客观、正确/经济/实用四项原则。
（四）常模
一个标准化测验，不但内容、施测和评分要标准化，对分数的解释也必须标准化，如果同一个分数可做出不同的推论，测量便失去了客观性。
多数测验用常模作解释分数的依据。测验分数必须与某种标准比较，方能显出它所代表的意义。例如。某学生成绩单上写着：物理——85分。我们仅从这个分数很难断定他学得如何，因为没有一个比较的标准。在传统心理测验中，是把个人所得的分数与代表一般人同类行为的分数相比较，以判别其所得分数的高低。此处所指的“代表一般人同类行为的分数”，即为“常模”。例如，以摄氏温度计，便可确诊为发烧，因为一般人的正常体温是37℃，这就是成人体温的常模。
建立常模的方法是，在将来要使用测验的全体对象中，选择有代表性的一部分人（称标准化样本），对此样本施测并将所得的分数加以统计整体，得出一个具有代表性的分数分布。标准化样本的平均数，即为该测验的常模。
常模可因标准化时选取样本的不同而有不同的类别。常见的有年龄常模、年级常模、性别常模、地域常模、民族常模、职业常模等。
七、对测验的鉴定
测验编好后，必须对其测量的可靠性和有效性进行考验，为此就要进行测量学方面的分析，搜集信度和效度资料。
(一)信度
信度指的是测量的可靠性或一致性。我们用钢片卷尺去量黑板的长度，所得的结果是可靠的，因为无论是由一个人量数次还是分别由几个人去量，所得的结果都是一致的。如果我们改用橡皮筋做的软尺去测量黑板的长度时，因为拉力大小不同，多次或多人测量所得的结果就难得一致。因此，用橡皮筋做的软尺测量长度是不可靠的，也就是说，这样的测量工具是缺乏信度的。
一个测验在标准化的时候，必须确定它的信度。确定信度多采用相关法。以相关系数的大小表示信度的高低。
(二)效度
效度指的是测量的有效性或正确性，这是测量工具的最基本的要求。衡量一个测量工具有没有效，就是看它所测量的是不是它所要测的东西。例如，以磅秤量体重是有效的，但如果用它量身高，虽然多次测量结果一致(信度高)，但所得的数量并不能代表个人的身高，因此对量身高来说，磅秤是个无效或效度极低的工具。
在编制心理测验时，如何提高效度，无疑是个首要的问题。效度的确定方法，视测量的性质和目的而定。一般将效度分为三大类：实证效度、内容效度、构想效度。关于信度和效度问题，本书后边有专章讨论。
八、编写测验说明书
为使测验能够合理地实施与应用，在正式测验编写完成后，还要编制一份说明书，就下列问题作出详尽而明确的说明：
(一)本测验的目的和功用。
（二)编制测验的理论背景以及选择题目的根据。
(三)测验的实施方法、时限及注意事项。
(四)测验的标准答案和评分方法。
(五)常模资料，包括常模表，常模适用的团体及对分数如何做解释。
(六)测验的信度效度资料，包括信度系数，效度系数以及这些数据是在什么情境下得到的。
经过以上八个步骤，一个测验便可正式交付使用了。

genggeng30 · 发表于 06-8-6 14:24:44

第二节测验题目的编制技术
编制测验的核心是命题。欲编制良好的测验，除必须遵循上一节所讲的程序外，还要掌握命题的方法与技巧。
—、命题的一般原则
试题的类型繁多，性质不同，功能各异，但在编制时还是有一般原则可循的。
(一)试题要符合测验的目的。
(二)内容取样要有代表性。
(三)题目格式不要使被试发生误解。
(四)文字要筒明扼要，即排除与解题无关的因素，又不可遗漏解题所依据的必要条件。要避免使用艰深的字词。
(五)应有不致引起争论的确定答案（创造力测验、人格测验除外）。
(六）各个试题必须彼此独立，不可互相牵连，不要使一个题目的回答影响另一个题目的回答。
(七)题目中不可含有暗示本题或其它题正确答案之线索。
(八)题目内容不要超出受测团体的知识和能力。
(九)所提问题应避免涉及社会禁忌与个人隐私。
（十）施测与评分省时
二、测题的种类及编制要领
在长期的测验实践中，发展出了多种多样的题目形式，根据应答方式，总的说来可以分成两大类，即自由应答型和固定应答型。自由应答型题目是让受测者用自己的语言或行动来对某一问题做出回答，包括填充题、简答题、应用题，论文题、联想题，操作题等。固定应答型题目又称客观性题目，是让受测者从测验编制者事先定好的答案中辨认出正确答案，包括多选题、是非题、匹配题等。这种题目因为评分客观，所以在标准化测验中用得较多。
各种类型的题目均有自己的特点和编制原则。现分别叙述如下：
(一)多选题
在标准化的学科测验，学习能力测验和团体智力测验中最常采用的是多选题。此种题目在结构上包含两部分，一为题干，由直接问句或不完全的陈述句构成；另一为选项，包含一个正确答案或正确答案的组合及若干个(一般3—4个)错误答案。多选题可适用于文字、数字和图形等不同性质的材料，可以考察记忆、分析，鉴别，推理、理解和应用知识的能力。下边是几种常见的变式。
1．简单计算
例题：小明给了弟弟2枝铅笔，自己还剩8枝，小明原来有几枝铅笔?
(A)4（B）6  (C)8  （D）10
2．类比推理：已知甲和乙的关系，推出丙和丁的关系。
例1：船——水，飞机——？
(A)大地  （B）白云  (C)天空 (D)海洋
例2：  对于①相当于口对于
3．找不同类：每一题内有几项属于同一类事物，只有一项不属于这一类，要找出。
例1：找出与其它几项不属于同类的一项：
(A)狗 (B)鸟 (C)树 (D)鱼
例2：找出与众不同的一个图形：
4．最好理由：几个备选答案都是对的，但其中有一个最好，要把它找出来。
例题：偷东西的人应该受惩罚，因为：
（A）惩罚可使他不敢再犯。
（B）偷窃为法律所不容。
(C)偷东西的人不是好人。
(D)偷窃扰乱社会治安。
多选题的优点是：①单位时间内可以施测很多项目(一般每题不超过一分钟)，从而能保证取样的广泛性，使测验更有效。②评分客观，：加上题目数量多，可以减少随机因素的影响，从而能保证测验的可靠性。③可以通过改变错误答案的迷惑性来调整题目的难度。④阅卷方便迅速，并可用机器评分，被试多时比较经济。⑤保密性好，好的题目可存入题库重复使用。
多选题的缺点是：①有固定答案，测不出组织材料的能力和创造力。②题量大，并要为每个题目考虑几个似是而非的答案，因而编写困难费时，需要一定技巧。
编拟多选题的要领及原则如下，
1．根据测验的目的和内容来选择最适当的题型。例如，要考虑辨别，比较和评价能力，宜用最好理由式，要考察推理能力宜用类比法。
2．备选答案要简短，必要的叙述或相同的修饰语应全部置于题干中。
例题：孔子最伟大的成就在于，
(A)学术教育方面 (B)国防军事方面
(C)艺术建筑方面 (D)内政外交方面
四个选项皆有“方面”两个字；可移置于题干中，将题目改为直接问句：“孔子最伟大的成就在哪一方面?”如此，可使选项更为简短。
3．每题只能环绕一个中心，并只有一个正确该答案在内容和形式上不可特别突出，但其正确性必须确凿无疑。
4．题干应当包括解题所必须的共同要素，并尽可能做到精炼、准确、清楚，不要把选项夹在题干中间。
例题：战国初期，魏继承
（A）秦 (B)燕  （C）齐  （D）晋
的旧业，最为富强。
此题的题千被选项分隔为二部分，增加作答困难。应改为：战国初期，魏国继承何国旧业而最为富强?
5．错误答案对被试具有迷惑性，不要错得太明显。这种答案可以是人们经常出现的错误，也可以是一般性的误解和似是而非的内容。
例题：美国的首都是：
(A)东京 (B)华盛顿 (C)太平洋 (D)1776
此题中选项(C)非地名，(D)为美国建国年代  ，(C)、(D)均与题干间缺乏逻辑联系  (A)错得过于明显。如改为（A）纽约 (B)华盛顿 (C)巴黎  （D）伦敦，则好些。
6．各个选项在形式上应该协调一致，或为数字，或为图形，或为人名，应取—律，文字长短也应大体相当，以免对正确回答提供线索。
7．选项之间不应相互重选，相互包括，相互依赖。
例题：9-3是多少?
(A)大于5 (B)6    (C)小于7    (D)12
选项中除(D)外，其余三者相互重选，均为正确答案，故应修改。
8．几个选项最好按逻辑顺序(如按量值大小。时间先后等)排列或随机排列，正确答案在每个位置上出现的次数要大致相等，且不要形成固定的格式。
9．所有选项在逻辑上和语法上都能与题干相接，否则本来正确的答案，会因为逻辑上或语法上与题干不一致而放弃。反之，如果干扰答案在逻辑上或语法上与题干不吻合，被试就会根据常识，发觉它们之间的矛盾而加以排除。
10．题干要尽量创设新的情境，文字要自己拟定，避免重复书本上的现成实例或措词。
(二)是非题
是非题又叫正误题，是指出一个论点要被试判断是否正确，或从是非两个答案中做出选择，因此可把是非题看作是两个备选答案的选择题。此种格式出题容易，回答方便，适于考查学生对简单观念或知识的了解。其缺点是易受猜测因素的影响，重要的材料有时不能用对与错简单回答；缺乏教育诊断作用，故应用不如多选题广泛，主要用于年幼儿童以及需要快速而粗略地做出判断的情况。
例题：鲸是哺乳动物，是口非口
编拟是非题应注意下面几点：
1．内容应以有意义的事实、概念或原理为基础，避免无关重要的问题或琐碎的细节。
2．每题应只包含一个观念，避免两个以上的观念在同一题中出现，而造成题目.似是而非”或“半对半错”。如“纽约是美国的首都和第一大城市”。此题后一半是正确的，前一半是错误的。
3．论点要简明扼要，意义明确，不要有艰深难懂的词句或含糊不确定的文字叙述。
4．对论点的陈述要重新组织，不要照搬教科书上的词句或仅仅加上否定词就构成错误项目。
5。避免使用具有暗示性的特殊字词，如“绝不”，“完全”等，通常带有“错”的暗示，而“有时”，“可能”等通常带有“对”的暗示。如：“所有智商高的学生学习成绩都很好。”受试者仅凭题中“所有……都”这种措词便可猜出此话是错的。
6．尽量采用正面肯定的叙述，避免反面陈述或双重否定的文句。如：“生物没有不是由细胞所构成的。”此题既难读又难理解，宜改为“生物是由细胞构成的。”
7．“是”与“非”的题数应大致相等，且随机排列。
8．题数不能太少。
(三)匹配题
此种试题包括并列的两行，—行为刺激项目，另一行为反应项目，被试的任务是由后者中选出与前者相适合的项目。可以是完全匹配(刺激项目与反应项目数量相等)，也可以是不完全匹配(反应项目多于刺激项目)；
例题：
指导语：从右边所列的人名中找出左边所列的每本书的作者，每个人名可以用一次，也可用多次或全然不用，
( )1、家       A、鲁迅
( )2、子夜    B、郭沫若
( )3、阿Q正传 C、矛盾
( )4、骆驼样子 D、老舍
E、巴金
匹配题是选择题的一种变式，一个匹配题实际上就是一套多选题，适用于测量概念或事实之间的关系。其优缺点与多选题相同。
编写匹配题的要领是，
1．一个题目的各个刺激项目及各个反应项目应在内容上同质，若涉及年代都为年代，涉及地点都为地点，涉及符号都为符号。
2．在指导语中要讲清匹配依据，告诉被试每个反应可用几次。
3。配对项目不可过多或过少，如在十对以下，最好应用不完全配合，使反应项目比刺激项目多出一两个，以增加其可靠性。
4．每个刺激项目应有一个而且只有一个反应项目相匹。
5．按一定逻辑次序(例如按字母顺序，数字大小，时间先后等)安排反应项目；同时要避免答案的固定格式。
6．同一组项目应印在同一页上，以免造成作答时的困难。其它原则与编多选题相同。
(四)填空题和简答题
上边几种形式均可归类为选择题，要求的是对正确答案的辨认。填空题与简答题要求的是对正确答案的回忆，即由被试自己写出答案。填空题是提出一个不完整的陈述，要求被试把缺少的字词填上，可以空一处，也可以空几处。
例题：第一个智力测验是由_____与_____编造的。
简答题是提出简单的问题，让被试回答，通常只要几个字或一两句话即可答完。
例题：一年有哪几个季节?
填空题、简答题与选择题适于同样类型的材料，但填空题和简答题比多选题容易编写写，而且被试无法猜，但评分不如选择题方便和客观。
填空题和简答题的编写原则如下，
1．填空题目所空出的应该是关键字句，并且要和上下文有密切联系，不要空出无关紧要的字词。
2．一句内不要有太多的空白，空白太多，不容易明了题意。
3．空白最好放在句子的尾部，免得空格数量为答案提供线索。
4．测题句子避免直接引用教科书的措词。
5．问题要具体，范围要确定，要使受测者知道答案的类型、长度和确切程度。
6．准备一个正确答案和可接受的变式的标准，如果部分正确也适当给分，则要做出更具体的规定。
(五)论文题．
简答题若流于空泛或对其范围不加限定就变为论文题。这两种题目的区别不仅在于长度，还在于它们所起的作用，简答题最适合于测验实际知识的记忆和理解，而论文题最适合测验组织能力、综合能力和文字表达能力，有时还可测量评价能力和创造能力。论文题目编写容易，不允许猜测和简单背诵，可以反映理解的深度。但题目少，取样缺乏代表性，特别是评分困难，即费时又易受无关因素(如文字风格、卷面整洁、个人成见等)的影响，从而使测验的可靠性和有效性降低。
编拟论文题目要注意以下几点，
1．要让被试知道答案的范围和方向，例如长度、举例的详细程度等，但不可规定得太具体，以免变成一系列简答题。
2.最好要求被试在新的情境下，应用知识去解决新伪问题。
3．题目不要过少或过大，数量要适当多些，内容要适当具体些。
4．要选用具有可接受的正确答案的题目 (并不是只有一个正确答案)，不用那些仅测量意见和态度的问题。
5．在测验前，对每一个题目编制几个“理想”的答案。对部分正确的回答如何评分做出尽可能具体的规定。
6．一般不要有任选题，因为两个论文题目很难做到等值。
(六)应用题
在数学和自然科学中，常常以应用题作为测验题目。这种题目是叙述一个具体的情境并提出一些有关的数据，让被试解决所提出的问题。
应用题适合测验计算技能、数学和科学推理，以及运用知识到新情境中的能力。如果只要求正确答案，评分可以很客观。但如果对最后结果错误而方法正确或部分操作程序正确的题目给予一定分数的话，评分就不容易做到客观。
编写应用题要遵循以下原则：
1．题目的陈述要使被试明白让他干什么，答案应以什么形式出现，以及对单位和精确度的要求等。
2．题目中应包括对解题所需要的一切数据和信息，也可包含一些无关数据和信息。
3．采用新的情境和例子，不要重复过去己用过的。
4．应向被试指明是否要求写出解答步骤，以及对各个步骤详细到什么程度等。
5．对一个问题的答案不论正确与否，都不要影响另一个问题的解答。
6．文字要通俗易懂，不要变成阅读理解测验。
(七)操作题
在测验中有些项目是让被试实际操作，如画图，走迷津、拼配物体等。
制定操作项目的主要原则是，使被试明确知道要他们干什么和在什么条件下干，如使用什么工具以及时间限制等。
有些操作项目可以根据完成的数量和错误次数客观记分，有些项目的评分则较为困难。在后一种情况下，事先要向被试说明评分标准，最好把整个操作分解成许多部分技能，并分别定出给分标准。
(八)联想题
联想题是让被试把与某个事物有关的事物写出来，例如，“说出所有圆形的东西”，“举出砖头所有可能的用途”等。此种题召能够考察发散思维能力，其缺点是评分不易有客观标准。
(九)排列题
依据时间，大小或其他原则，把测题中所列的项目重新排列一下顺序。此种题目评分较为客观，但应用范围有限。
(十)改错题
改正错误的字词，内容或逻辑错误等。
上述几种题目形式不是彼此对立，而是相互补充的，不同的内容可以采用同一种题目形式。同一个内容，根据需要也可以用不同形式的题目来表达。譬如对美国的首都这一内容就可以用下边几种形式来测量：
美国的首都在哪?  (简答题)
美国的首都是       。(填空题)
美国的首都是纽约。是口非口(是非题)
美国的首都是：  (A)纽约 (B)华盛顿 (C)伦敦 (D)巴黎  (多选题)。
还可以编成匹配题：
( )  1、美国 A、巴黎
( )  2、英国 B、纽约
( )  3、法国 C、柏林
( )  4、德国 D、伦敦
E、华盛顿
题目的种类远不止这些，根据测量的目的和内容还可以设计出各种形式的题目。
不同形式的题目各有利弊。迄今为止，还没有一种题目能全面考察能力，学绩和人格的所有方面，这就要设计者根据不同情况，将各种形式互相配合，灵活掌握。运用之妙，存乎一心。如果墨守成规，就要事倍功半。题目形式是人创造出来的，只有敢于创新，才能使科学不断发展。

genggeng30 · 发表于 06-8-6 14:25:17

第四章  心理测量的误差
前面我们已经讨论了什么是测验，以及如何编制测验，现在转入研究什么是一个好的测验。
无论何种测量工具，我们对它起码的要求是稳定，准确。用心理测量学的术语来说，就是要可信和有效。所谓可信是指多次测量的结果是一致的，所谓有效是指正确地测量了所要测的东西。信度是测量一致性程度的估计，效度是测量准确性程度的估计。
关于测量的信度和效度问题，下边有专章分别讨论。为了考察测量的信度和效度，首先要了解测量的误差。
第一节  什么是误差
一、误差的定义和种类
误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。
这个定义包含两层意思，1)误差是由与测量目的无关的变因引起的，2)误差是不准确或不一致的测量结果。
定义的后一部分又从准确性和一致性两方面对误差做了区分。准确性与一致性的关系可以用射击靶环来说明。假设有A、B、C三支枪，对准靶面中心固定位置后各放9枪，所得结果如图4—1。
A枪弹着点十分分散，说明准确性和一致性都不好，B枪弹着点虽然比较集中，但偏离靶心，说明一致性好，准确性差：枪弹着点全部集中在靶心，说明一致性和准确性都好。
图4—1的A和B显示了两种主要的误差形式。  一种是随机误差，又叫可变误差，这是由与测量目的无关的偶然因素引起而又不易控制的误差，它使多次测量产生了不一致的结果。此种误差的方向和大小的变化完全是随机的，无规律可循。例如几个人用同杆秤称同一件东西，由于秤杆高低掌握的不同，所产生的不一致即属随机误差。另一种是系统误差，又叫常定误差，这是由与测量目的无关的变因引起的一种恒定而有规律的效应，稳定地存在于每一次测量中，此时测值虽然一致，但不正确。如有的奸商在秤盘或秤砣上搞鬼，一斤多（或少）一两，二斤多(或少)二两，这就是系统误差。可见，系统误差只影响测值的准确性，而随机误差既影响准确性又影响一致性。这就是说，系统误差只与效度有关，而随机误差与效度、信度都有关。
二、真分数
在测量理论中，真分数是个重要概念。所谓真分数就是一个测量工具在测量没有误差时，  所得到的纯正值。这实际上是个循环定义，因为一个量具若测得真值，便没有误差。真分数的操作定义是，经过无数次测量所得的平均值。可见，真分数是一个在理论上构想出来的概念，在实际测量中是得不到的，因为一个测量工具无论多么精确，也会有误差，我们只能通过改进量具来接近真值，而不能完全得到它。
真分数的定义表明，一个人在一个测验上所得的分数，既是他的真分数的函数，也是测量误差的函数，用公式表示如下：X=T+E （4.1)
这里X为实得分数或观测分数，T是假设的真分数，E是测量误差。
需要说明的是，这里的测量误差（E）指的是引起测量不一致性的变因产生的效应，即指随机误差，不包括系统误差，后者不引起分数的改变，因而包含在真值中。
在公式4.1中，E可能是正的，也可能是负的。这就是说，一个人的实得分数可能大于真实量，也可能小于真实量，总是围绕着真值上下波动。
关于测量误差(E)有以下假设：
1)如果对一个人测量无数次，其平均误差为0，即 =0
2)真分数和测量误差是相互独立的，即rTE=0
3)误差分数和实得分数的相关为0，即rEX=0
公式4.1只表明了在一个特定人身上实得分数、真分数和测量误差之间的关系。在一个团体中，由于每个人的误差都是随机的，方向不同，只要团体足够大，其误差便会互相抵消。因此，一个团体的平均真分数T等于该团体中所有被试实得分数的平均值X。证明如下：
               （T=X—E）                （ΣE=）0
对于一个团体来说，实得分数，真分数和测量误差之间有如下关系：
即实得分数的变异数：真分数的变异数加上误差变异数。
公式4.2并不难证明：
以上推导过程。可参看统计学中求和方差的公式。当X=Xl+X 2时，如果Xl 和X 2均为正态分布，则和数的方差为公式。
公式4.2只涉及到随机误差的变异，系统误差的变异包含在真分数的变异中。这就是说，真变异数还可以分成两个部分，与测量目的有关的变异和与测量目的无关的变异，即
                           （4.3）
式中的是与测量目的有关的(亦即有效的)变异数，是与测量目的无关但却是稳定的变异数。是由所要测量的变因引起的，是由其它变因引起的。将公式(4．3)代入公式•(4．2)得到如下公式：
                        （4.4）
这就是说，一组测验分数之间的变异性是由与测量目的有关的变异数、稳定的但出自无关来源的变异数和潞盛误鏊盛异数所决定的。

genggeng30 · 发表于 06-8-6 14:26:06

第二节  误差的来源
一个测验要准确可靠，必须控制各种误差，为此首先要了解误差的来源。
根据误差定义，任何变因只要与测量目的无关，并使得结果不准确、不一致，便可认为是一种误差因素。在心理测量中，
常见的误差来源于三个方面：测验内部，施测过程，受测者本身。
一、测验内部引起的误差
测验内部的误差主要来源于题目取样：当测验题目较少或取样缺乏代表性时，被试的反应受机遇影响较大，(譬如一次考试碰巧准备到或没准备到某题)，当几个测验复本不等值时，接受不同的题目，就会获得不同的分数。
除题目取样不当可引起误差外，其它一些因素，如题目用词的模棱两可，对反应步骤说得不清，题目过难引起猜测，时限短使被试仓促作答等，也都可能成为误差的来源。
二、由施测过程引起的误差
在三种误差来源中，与施测过程有关的误差可能是最容易控制和检验的。通过长期实践，测验的标准化水平越来越高，大部分施测条件能够得到控制。但由于心理现象的复杂性，许多意想不到的偶然因素仍可能影响测验分数，使人防不胜防。
(一)物理环境
施测现场的温度。光线，声音、桌面好坏，空间阔窄等皆具有影响。
(二)主试者方面：
主试者的年龄、性别、外表，施测时的言谈举止、表情动作等均能影响测验结果。倘若不按照规定实施测验，如制造紧张气氛，给予特别协助或暗示，以及计时错误等，都会带来较大误差，特别是当测验具有复杂步骤和说明，或测验题本身是模糊不确定的形式时，当主试者在安排测验条件上有较多余地(例如个别施测)时，当测验是对幼儿，有情绪困扰者以及对测验程序不熟悉的人施测时，主试者的影响更大。
(三)意外干扰：
在测验环境复杂，特别是当受试人数较多时，容易发生出乎预料的干扰或分心事件。例如：停电、有人生病，有人作弊，计价表停了、临时发现题目或作答纸印刷不清或装订错误等，无论哪种情况都会引起不安和扰乱，导致成绩不准确、不一致。
(四)评分计分，
评分不客观以及计算登记分数出错等也是常见的误差。一般选择题的评分较为客观。而问答题、论文题等自由反应型的题目，评分标准很难掌握，加之阅卷者的偏好各不相同，因而难以保证分数的一致性．
早在几十年前，国外就有人对旧法考试的评分误差做过研究。斯达奇(D•storch)和埃立奥特(E•C•Elliott)将一份英文考卷请142位英文教员评阅，所得分数从50分到98分应有尽有。某国教育界还有一件引为笑谈的事，1920年夏季，许多大学教授在评阅历史试卷时，有一位教授为评分便利起见，自己写了一份标准答案，不料和其它考卷混在一起，经另一位教授评阅竟然不及格。为慎重起见，由其它教授重复评定，结果所得分数以10分到90分不等。1961年美国教育测验中心由53个评判员组成专门小组。对大学一年级学生写的200篇作文按九个等级评分，结果有1／3的文章得到了九个等级，有60％的文章得到了七个或八个等级，没有一篇文章少于五个等级。一般理科评分要比文科客观些，但也不尽然。罗雪（Ruch）将—道地理题的解答请91位教员评阅，满分为20分，结果给17种分数，全距为2—20，给各种分数的人次见表4—1，斯达奇和埃立奥特将一份几何考卷请115位中学教员评立，所得分数为28—92分，全距60多分。我国1979年高考数学试卷第四题叙述并证明勾股定理，对于
表4—1  91位教师对于一个地理题的回答所给分数的分布
分数       0       1       2       3       4       5       6       7       8       9       10       11       12       13       14       15       16       17       18       19       20
人次       0       0       1       2       0       1       4       3       7       5       24       5       14       8       2       10       2       1       1       0       1
用余弦定理进行循环论证的答卷，有的阅卷教师不给分，有的却给满分(6分)。不仅各教师间有此差异，即使同一教师一次评许多卷，受情绪，疲劳，外界干扰；卷面整洁、试卷前后位置引起的对比效应以及对学生成见的影响，标准也可能不统一，甚至同一张试卷隔一段时间再评，前后给分也可能不一致。至于学校之间，地区之间的差别就更大了。1980年，清华大学受教育部委托对新生进行数学复试，并与高考数学成绩对照。将各省市学生按两次考试的平均成绩分别排队。G省学生的高考平均成绩居第11名，而复试成绩降到第28名，T市学生成绩次序由第8名降到第23名。相反H省和S省考生的名次由第15名和第18名分别升至第3名和第7名，产生这种变化的原因很多，其中很重要的一条是各省评分标准掌握不同，宽严不一。这就使得学生分散的差异在一定程度上反映的是评分者的差异，而不完全是学生水平的差异。
对于论文题、问答题要多少人评分，平均分数才能相对稳定和客观呢?国外有人对此做了研究，结果如下：哲学论文127人，作文78人，物理16人，数学13人。
为了控制与施测过程有关的误差，主试者必须严格遵循标准化程序施测和评分，不得任意改动和发挥，同时要机智地处理各种意外情况。
三、由受测者本身引起的误差既使一个测验经过精心编制，题目取样具有代表性，又有标准化的施测和记分程序，由于受测者本身的变化，仍然会给测验分数带来误差，这种误差是最难控制的。
来自受测者的误差因素，有些是属于个人的长期的一般的变化，有些是与特定测验内容和形式以及特定施测条件相联系的暂时的特殊变化。
(一)应试动机
受测者对测验的动机不同，会影响其作答态度，注意力、持久性、反应速度等，从而影响测验成绩；例如，在西方国家，大多数人具有较强的竞争观念，因而在参加能力和学业等要求最高行为的测验时，能尽力做出最好的回答，而在一些少数民族和社经地位较低的团体中，则不大强调竞争，测验的内躯力不强，往往随随便便做出回答。因此，黑人儿童和白人儿童在测验分数上的差异反映的就不完全是能力的高低，其中还掺杂有动机效应。
动机效应在人格测验中也有表现。譬如，当个性调查表用于选人时，雇主感兴趣的是申请者的典型行为，但有的申请者，为了给人留下一个好印象，在回答时可能考虑雇主的期望或社会道德等因素，而不按自己的真实情况作答，从而给分数带来误差。
应试动机对测验成绩的影响表现在各方面，如果动机效应使一个人在反复测量中以一种恒定的方式进行活动，这便导致系统误差，使测量的有效性降低，如果受测者的动机引起了偶然性的不稳定的反应，这是一种随机误差，测量的有效性，可信性便都会降低。
(二)测验焦虑
测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。和一切情绪反应一样，焦虑的产生既有认知因素的作用，也有生理因素的作用。
对测验的焦虑会影响被试的成绩。一般说来，适度的焦虑会使人的兴奋性提高，注意力增强，提高反应速度，从而对测验成绩产生积极影响．过高的焦虑却会使工作能力降低，注意分散，思维变得狭窄，刻板，记忆中储存的东西提取不出来。但一点焦虑没有，也不是好事，内驱力过小的受测者往往采取满不在乎的态度，因而成绩大多较低。焦虑对测验成绩的影响可用图4—2的倒U型曲线来表示。

图4—2  焦虑对测验成绩的影响
研究表明，测验焦虑受主客观两方面因素影响：
l．能力和测验焦虑成负相关。能力高的人，测验焦虑一般较低，两对自已的能力没有把握的人，测验焦虑较高。
2．抱负水准与焦虑成正相关，抱负水准过高，求胜心切的人，测验焦虑较高。
3．患得患失、缺乏自信、情绪不稳、顺应不良的人产生测验焦虑。
4．经常接受测验的人焦虑较低，而对测验程序不熟悉的人焦虑较高。
5．测验成绩对被试关系重大，后果严重，或被试受的压力很大时易产生焦虑．
6．被试不了解测验的目的，测验的指导语不清，采用了新的题目形式或施测程序，以及有严格时间限制等测验方面的因素，也会增加被试的焦虑。
(三)学习，发展与教育
由一般学习经验或发展变化所引起的测验分数上的差异，在大多数情况下，只构成恒定误差。但有时，大多数人对于某个测验没有准备，只有个别人获得了特殊训练，或者在两次测验的间隔期中，有的人获得了特殊的教育和训练，而其他人没有，在这种情况下，第二次测验所得到的分数，既反映了第一次施测时所测量的东西，也反映了在两次施测之间所学到的东西。由于受测者所受的训练量不同，他们的分数就会受到不同的影响，而表现出随机误差。
(四)测验经验
受测者对测验的经验也会影响成绩，对测验的程序和技能熟悉程度不同，所得分数便不能直接比较。
任何时候只要引入一种新的题目形式或一种新的反应程序，就有可能造成理解上的错误并最终在测验中带来误差。因此，当使用一种新的、不寻常的测验形式或反应方式时，需要提供练习题和演示。在大多数情况下，少量的练习就足够了，但对于很少接触测验的人，练习应稍多一些。总之，在测验前，应尽可能使每个被试都对测验程序有所了解。
也有另外一种情况，有些人经历过多次测验，发展了测验技能，成为“测验油子”。他们在觉察正确答案与错误答案的细微差别，合理分配时间，以及适应新的测验形式等方面具有丰富的经验，因此常比那些能力相差不多、但缺乏测验经验和技巧的人获得更多的分数。
（五）练习效应
任何一个测验在第二次应用时，都会有练习效应而使成绩提高。
在能力测验方面，练习效果的研究大体获得下列结论：
1．练习对于智力较高者，效果较为显著。
2．着重速度的测验，练习效果较明显。
3．再作同—个测验比作复本的练习效果显著．
4.两次测验之间的时距愈大，练习效果愈小，相距三个月以上，练习效果可忽略不计。
5.一般的平均练习效果，约在1／5个标准差以下，但第二次再测后，练习效果即接近于零。
以上结论只是某些人使用某些测验的研究结果，不一定具普遍意义。
  (六）反应方式
反应方式是指独立于测验内容的反应倾向。例如，在速度性测验中，有的人“快而不准”，有的人却“宁慢勿错”；在是非题中，有的人有—种“默认反应方式”，即不管内容如何都答“是”，有时甚至会自相矛盾。为了纠正此种误差，应使“是”“非”答案大体相等。
(七)生理变因
不但心理因素会影响测验成绩，生病，疲劳、失眠等生理因素也会影响测验成绩而带来误差。能影响测验分数的变因还有许多，实际上任何与测量目的无关的变因都可能引起误差，这里介绍的只是几种主要的，这些变因既能引起随机误差，也能产生系统误差。
某些情况如计时错误或指导语不当，很明显会产生可变误  差。其它变因，如个人在有关内容方面的知识或技能，通常产生恒定的效果。然而，当两测验施测时距长，在两次测验当中可能产生不同的学习或遗忘效果，这不仅会使分数不稳定，而且还可能是个人的永久改变。测验的标准化就是为了控制这些因素，以减少误差，使测验分数更可信，更有效。

genggeng30 · 发表于 06-8-6 14:26:35

第五章  测量的信度
第一节  什么是信度
一、信度的定义
信度又叫可靠性，指的是测量的一致性程度。一个好的测量工具必须稳定可靠，即多次测量的结果要保持一致，否则便不可信。信度只受随机误差影响。随机误差越大，信度越低。因此，信度亦可视为测量结果受机遇影响的程度。系统误差产生恒定效应，不影响信度。
在测量理论中，信度被定义为：一组测量分数的真变异数与总变异数(实得变异数)的比率。即，

                                                   (5.1)
式中rxx代表测量的信度，S  代表真分数的变异数，代表实得分数的变异数，即总变异数。
根据公式(4．3)，信度还可表示为
                                    （5.2）
该定义有两点要注意:  1)信度指的是一组测验分数或一列测量的特性，而不是个人分数的特性。2)真分数的变异数是不能直接测量的，因此信度是一个理论上构想的概念，只能根据一组实得分数作出估计。
任何测验只能包含特定样本的题目，由特定的施测者，对特定的被式，在特定的时间、地点施测，情况不同便会得到不同的分数。信度涉及的主要问题是对测验分数的意义的概化能力，即从一次测量来推论总体(真实分数)能达到何种正确程度。
根据现代信息论，每组信息可包括一些真正信息(信号)和一些错误的信息(噪音)。为了提供有用的数据，任何测量必须有高的信号噪音比率——即提供更多真正的信息。信号可由真实分数的变异数表示，噪音可由误差分数的变异数表示。
信噪比与信度有如下关系：
信号／噪音=                                  （5.3）
公式(5．3)并不难证明，将代入上式的右端可得：
=信号／噪音
假如一个测验的信度为0.90，则信噪比为0.90／(1—0.90)=9.0即真正变异数对误差变异数的比率为9：1。
一个测验的信度只要稍微增加一点就会使信噪比大大改变。例如，信度从0.90增为0.91，可使信噪比从9：1,变为10.1:1。因此，即使一个相当可靠的测验也应努力改善其信度。
二、信度系数
大部分的信度指标都以相关系数表示，即用同一被试样本所得的两组资料的相关作为测量一致性的指标，称作信度系数。
与信度系数有关的一个概念叫信度指数，是实得分数与真分数的相关，这是部分与整体的相关，可用下式表示：
信度指数的平方就是信度系数，可用下列公式表示，
                                             （5.4）
换言之，信度系数是实得分数与真正分数相关的平方。相关系数的平方表示两个变量间共有的变异数比例。因此，信度系数实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。例如，当rxx =0．90时，我们可以说实得分数中有90％的变异数是来自真正分数的差别，仅有10％是来自测量误差，在极端例子中，如rxx=1．00，则无测量误差，所有的变异都来自真分数，若rxx=0，则所有的变异均反映了测量误差。
对信度系数也要注意三点，1)在不同情况下，对不同样本，采用不同方法会得到不同的信度系数，因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计，并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的，它只是迈向目标的一步，是使测验有效的一个必要条件。
信度系数达到多高才可以接受呢?最理想的情况是 rxx=1．00m，但这是办不到的。不过我们可用已有的同类测验作为比较的基准。一般能力与学绩测验的信度系数在0.90以上，有的可以达0.95，至于性格、兴趣、价值观等人格测验的信度系数，通常在0.80到0.85或更高些。当 rxx<0.70时，不能用测验来对个人作评价，也不能在团体间作比较，当 rxx>0.70时，可用于团体间比较;当 rxx>0.85时，可用于鉴别个人。
由于信度系数总是在特定情况下获得的，因此只有当一个测验在很多情况下都被证实具有较高的信度时，才可以说它是比较可靠的测验。
三、信度与测验分数的解释
信度系数有两个实际用处：一是用来解释个人分数的意义，二是用来比较不同测验分数的差异．
(一)个人测验分数的误差
信度仅表明一组测量的实得分数与真分数的符合程度，但并没直接指出个人测验分数的变异量。由于存在测量误差，一个人所得分数有时比真分数高，有时比真分数低，有时二者相等。理论上我们可对一个人施测无限多次，然后求所得分数的平均数与标准差。在这个假设的分布里，平均数就是这个人的真分数，而标准差则为测量误差大小的指标。这在实际上是行不通的。然而，我们可以用一组被试(人数足够多)两次施测的结果来代替对同一个人反复施测，、以估计测量误差的变异数。此时，个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差就是测量的标准误，是表示测量误差大小的指标。
测量的标准误可用下式求出：
SE=S
这里SE为测量的标准误，  为所的分数的标准差，为测量信度。从式中可以看出，测量的标准差与信度之间有互为消长的关系：信度越高，标准误越小；信度越低，标准误越大。
测量的标准误实际上是在一组测量分数中误差分布的标准差，可以象其它标准差一样地解释。因此，个人每次测量所得分数(X)有68％的可能性落在真分数(T)加减一个单位标准误(SE)的范围内，有95％的机会落在真分数加减1.96个标准误的范围内。图5—1表明实得分数在真实分数上的回归，以及距回归线一个标准误的平行线。
根据公式(5.6)，知道了一组测量的标准差和信度系数就可以求出测量的标准误。进一步我们就可以从每个人的实得分数估计出真分数的可能范围，即确定出在不同或然率水准上真分数的置信区间。人们一般采用95％的或然率水准，其置信区间为：
(X-1.96SE)≤T≤(X+1.96SE)                         （5.7）
这就是说，大约有5％的可能性真正分数落在所得分数±1．96SE的范围内，或有5％的可能性落在这范围之外。这实际上也表明了再测时分数改变的可能范围。
例如：在一次测验中有些学生得80分，这是否反映了他们的真实水平?如果再测一次他们的分数将改变多少?已知该次测验的标准差为5，信度系数为0.84，将适当的数值代入公式5．6与5.7，并解之：
SE=5× =2
T=80±1.96*2=80±3.92=76.08~83.92
我们可说这些学生的真正分数有95％的可能性落在76与84分之间。即若再测一次，他们的分数低于76、高于84的可能性不超过5％。
(二)两种测验分数的比较
来自不同测验的原始分数是无法直接比较的，只有参照同一个团体的平均分数，将它们转换成相同尺度的标准分数，才能进行比较。
譬如某班期末考试，张生语文数学的成绩转换成T分数(平均数为50、标准差为10)分别为65和70，由此我们可以知道张生的数学比语文考得稍好些，但二者差异是否有意义，仍不清楚。为了说明个人在两种测验上表现的优劣，我们可用“差异的标准误”来检验其差异的显著性，常用的公式如下：
SEd=                                              (5．8)
式中SEd为差异的标准误，SE1、SE2分别是两组测验分数的标准误，用SE1= 和SE2=  代入公式5.8可得：
SEd=                                              (5.9)
这里S表示相同尺度的标准分数之标准差，Txx表示第一种测验的信度系数，ryy表示第二种测验的信度系数。
在上例中，假定此次语文，数学考试的信度系数分别为0．84和0．91，张生的两个分数转化成T 分数后，其差异的标准误为:SEd= 5
采取95％的置信区间(即．05显著水平)，，则张生在这两门课上了分数的差异必须达到或超过1.96SEd=1.96×5=9.8，始能认为二者真有差异。因为数学的T分数只比语文高5分，所以差异并不显著。
用SE估计个人分数的误差要注意三点:1)一个测验有很多可能的信度估计，因而也有同样多的标准误估计，为此，我们要选择最适合某一特殊情况的信度估计来解决问题。例如倘若我们对半年内的分数稳定性感兴趣,我们就以六个月为时距施测两次的相关系数作为信度估计，依据此信度系数求出标准误，再用来估计在六个月内分数可能改变多少。2)这个估计假定SE在所有分数水平都一样，但有时高分段与低分段其标准误并不相同。上面所计算的SE实际是整个分数范围的平均测量误差指标。如果分数的分布近似正态，而且实得的分数不超过可能的全距，则测量的标准误差在所有分数水平上近似一致。3)测验上所得分数是一个人真正分数的最佳现成估计，但是，由于存在测量误差，所以它并不是个确切的指标。所得分数对真分数估计得如何精确，可以由SE的大小或间接地由测验的信度显示出来。因为在一般情况下，rxx<1.00,SE>0，所以我们必须将测验分数看成范围或带状，而不要看成确切的点。这条带子有多宽将取决于测量标准误的大小，最终取决于信度系数。rxx越小，SE越大，这个范围便越广。若经常将分数想成是一个范围，我们在比较不同被试的分数，或同一个被试在不同测验上的分数时，就可以克服对分数间的微小判别作出过分解释的习惯。4）测量标准误是对测量误差的描绘，用它能对个人真正分数的置信区间作出估计，但用它来估计个人真正能力则可能导致严重错误，因为它没有考虑到系统误差的影响，真分数与真正能力是两个不同的概念。

zyywan · 发表于 06-8-6 17:02:22

谢谢楼主!

henry7102 · 发表于 06-8-6 20:56:33

万分感谢！！

		自动登录	找回密码
密码			注册

[考研笔记] 郑日昌《心理测量学》笔记（转载）

回复 #8 genggeng30 的帖子