北大心理测量串讲笔记

徐静蕾 · 发表于 06-2-24 22:21:28

第1章概论

1、中国古代心理测量简述：

（1）公元六世纪初，南朝人刘勰的著作《新论·专学》中提到了类似现代“分心测验”的思想。

（2）在中国古代，“七巧板”是很常见的一种儿童玩具，其实它可以作为创造力测量的工具。

（3）中国古代心理测量的思想中包含着典型的东方文化特点：定性描述及带有道德判断色彩。

2、中国近代心理测量的出现：

（1） 1916年，樊炳清先生首先介绍了比内-西蒙智力量表。

（2） 1920年，北京高等师范学校和南京师范学校建立了我国最早的两个心理学实验室，廖世承和陈鹤琴先生在南京高等师范学校开设心理测验课。1921年，他俩正式出版《心理测验法》一书。

（3）1922年夏天，中华教育改进社聘请美国教育心理测验专家麦考尔来华讲学。

（4）1924年，陆志韦先生发表了《订正比内西蒙智力测验说明书》，30年代又与吴天敏再次做了修订。

（5）1931年由艾伟、陆志韦、陈鹤琴、萧孝嵘等倡议，组织并成立了中国测验学会。

（6）1932年《测验》杂志创刊。

（7）至抗战前夕，由我国心理学工作者制定或编制出的合乎标准的智力测验和人格测验约20种，教育测验50多种。

3、中国现代心理测量的发展：

（1） 1936年，苏联在批判“儿童学”时扩大化，心理测验也被一概禁止。

（2）从1978年北京大学首建心理系开始，心理测验才重新得到恢复。

（3） 1979年，林传鼎、张厚等以国外资料为参考，编制了少年儿童学习能力测验。

（4）1980年初，北师大心理系开设了心理测量课。1984年，在北京召开的第五届全国心理学年会上，成立了心理测验工作委员会，加强了测验工作的指导和监督。

4、科学心理测验的产生：心理测验的产生，是出于实际需要。最初，人们用测验，是因为要治疗智力落后者和精神病病人。

（1）法国的医生艾斯奎罗第一个把智力落后与精神病分开。他认为，精神病以情绪障碍为标志，不一定伴随智力落后，而智力落后则是以出生时或婴儿期表现出来的智力缺陷为主要标志。

（2） 50多年后，法国的心理学家比内提出应该从正常学校学习的儿童中筛选出不适应的儿童，安排在特殊的班级里学习和教育。此举动导致了心理测验史上重大事件的发生--第一个智力测验的诞生。

（3）实验心理学的诞生是心理测验产生的另一个重要原因。实验心理学的诞生和发展，还给心理测量带来了另一个副产品：严格的标准化程序。标准化是现代心理测验的重要评价指标。

5、西方早期的心理测验尝试：

（1）弗兰西斯·高尔顿是第一个倡导心理测验的人。他于1884年在伦敦国际博览会上专门设立了一个“人类测量实验室”。他的这一举动是心理测验史上第一个大规模系统地测量个体差异的尝试。

（2）高尔顿还是使用评定量表和问卷法的先驱。并且他发展了分析个体差异资料的统计方法，不仅扩充了古特列特的百分位法，而且创造了粗浅的相关计算法。

（3）美国心理学家卡特尔1980年发表《心理测验与测量》一文于《心理》杂志上，这是在心理学文献中首次出现“心理测验”一词。

6、比内-西蒙量表的诞生及心理测验的发展：

（1） 1904年比内为了鉴别弱智儿童，他与西蒙合作编制成了世界上第一个科学的智力测验--比内-西蒙量表。1905年，他在《心理学年报》上发表了文章《诊断异常儿童的新方法》，介绍了该量表，历史上称为“1905量表”。从此，比内-西蒙量表宣告诞生。

（2）比内-西蒙量表自1905年发表后，比内和西蒙亲自主持过两次修订，一次在1908年，一次在1911年，此时比内已不幸去世。

（3）1905年量表主要强调的是判断、理解和推理能力，也就是比内认为的智力的基本组成成分。1908年版的量表删掉了1905年版中不合适的题目，增加了新题目，题目总数大59个。所有测验题目按年龄分组，从3 ~ 13岁。测验的结果用“智力水平”来表示。人们常叫它为“智力年龄” 。它表示一个儿童能完成何种年龄水平的儿童所能完成的测验。

（4）最有名的是1918年出版的美国斯坦福大学的推孟教授修订的“斯坦福-比内量表”这一量表首次使用了“智力商数”的概念，简称为IQ，是心理年龄和实际年龄的比值。

（5）比较有名的几个测验。

1 智力测验：推孟的研究生欧提斯编制的团体智力测验，2 后在次基础上发展出美国陆军用甲、乙两种测验。有基于因素分析理论编制的测量多项能力的韦克斯勒的儿童智力量表。还有桑代克编制的标准化教育测验。

2 人格测验：1917年武德沃斯设计的“个人资料调查表”。1912年问世的罗夏克墨迹图测验（RIT）和于1943年首次出版，由哈撒韦和麦金利编制的目前影响最大的MMPI-明尼苏达多相人格调查表。

7、测量是：就是根据一定的法则用数字对事物加以确定。测量就是确定一个事物的属性的量多少。因此，我们所指的测量，就是根据一定的法则，采用一定的操作程序，给事物确定出一种数量化的价值。

8、测量的要素是：参照点和单位。

参照点：它可以分为两种，一是绝对的零点；二是相对参照点。最理想的参照点是绝对零。心理测量中所用的参照点都是人为的，因而测量的结果常常不能以“倍数”来解释。如IQ = 100的人IQ = 50的人的智力的两倍。

9、量表是：就是有参照点和单位的连续体。

10、量表的种类有：量表是由人来制订的，依单位和参照点的不同，量表的种类也不一样。根据测量精度高低，斯蒂文斯将量表分为四个水平，由低到高分别为：命名量表、顺序量表、等距量表和等比量表。

种类定义特点备注

命名量表只是用数字来代表事物或对事物进行分类。命名量表中的数字没有任何数值意义，不能作量化分析。无大小意义，只表明类别。无参照点和单位。无法比较大小或进行任何数学方法运算。

顺序量表表明类别的大小或某种属性的多少。主要用于分等论级和分类。数字仅表示等级并不表示某种属性的真正量或绝对值。无参照点（没有绝对零度）和单位。无法进行数学方法运算。

等距量表存在大小关系。无绝对零度，但存在相对零点。可以进行数学运算，有相等单位。

等比量表是最精确的测量。大多是物理量表。而心理量表只能达到等距量表水平。可以知道事物之间的某种特点上相差多少及它们之间的倍数关系。有相等单位和绝对零点。可以进行数学运算。

11、心理测量是：就是通过观察人的少数有代表性的行为，对反映在人的行为活动中的心理特征，依确定的原则进行推论和量化分析的一种科学手段。

12、著名的心理测验学家安娜斯泰西认为：心理测验实质上是行为样本的客观和标准化的测量”。

这一定义包含有至少三个基本要素：行为样本、客观测量和标准化。心理测验要测量的是心理特征，但它要通过测量人的行为来实现，从行为测量中来推知心理特征。这就要找有代表性的少数行为作为全部行为的样本。

徐静蕾 · 发表于 06-2-24 22:21:38

13、关于心理测量中的标准化：心理测量要做到客观必须在测验编制、实施、评分、解释过程中减少主试和被试的随意性程度。标准化的测量是测量客观性的根本保证。

14、心理测验的性质：间接性、相对性、客观性。

15、心理测验的种类：

（1）按测验的内容分：能力测验（智力测验、反应能力测验）；学绩测验，如成套的成就测验；人格测验如EPQ、MMPI等。

（2）按测验的对象特点分：个别测验和团体测验。

（3）按测验表现形式分：文字测验（纸笔测验）和非文字测验。

（4）按测验的目的分：描述性测验、诊断性测验、预测性测验。

（5）按测验的时间分：速度测验和难度测验。

（6）按测验要求分：有最高作为测验和典型行为测验。前者要求被试尽可能作出最好的回答，而且有正确的答案。能力测验、学绩测验均属此类。后者要求被试按照日常习惯回答，无正确答案，所有人格测验均可称为典型行为测验。

16、心理测验的功能：

（1）从实际应用角度看：选拔人才、岗位安置、诊断、评价、辅助咨询。

（2）从理论研究角度看：搜集资料、提出和验证假设、实验分组。

17、正确的测验观：

（1）测验是重要的心理学研究方法之一，是决策的辅助工具。

（2）心理测验作为研究方法和测量工具尚不完善。心理测验的最大问题是理论基础不够坚实。

（3）科学地看待测验，防止乱编滥用。

18、错误的测验观：测验万能论、测验无用论、文化公平测验（只有相对的文化公平，没有绝对的文化公平）、心理测验即智力测验。

第2章心理测验的编制

1、心理测验的目的是指：我们编测验干什么用。

2、测验目的种类：

（1）显示性测验是指：测验题目和要测量的特征相似的测验，比如成就测验。

（2）预测性测验是：为了预测一些没被测量的行为的测验。

3、心理测验的目标是指：编制的测验是测什么的，即测什么样的心理特征或人格特点。

4、目标分析依测验不同可分为：

（1）工作分析：对于预测或选拔用的测验，主要任务就是对所预测行为活动做具体分析，即任务分析或工作分析。

（2）对特定概念下定义：

（3）确定测验的具体内容。

5、命题的基本原则：

（1）试题要符合测验的目的。

（2）内容取样要有代表性。

（3）题目格式要不被人误解。

（4）语句要简明扼要。既排除与答题无关的因素，又不能遗漏答题所依据的必要条件。避免使用生僻的字句或词汇。

（5）答案确定，不应引起争议。（创造力测验和人格测验除外）。

（6）题目间内容相互独立、互不牵连，对不同题目的回答不致相互影响。

（7）题目不能含有答题倾向的线索。

（8）题目内容不超出受测团体的知识水平和理解能力。

（9）比开社会敏感性问题，如涉及社会禁忌或个人隐私的题目不应使用。

（10）便于施测，评分简捷。

6、如测验涉及社会敏感性问题时的策略：

（1）命题时假定被试具有某种行为，使他不得不在确实没有该行为时才否定，可避免否定答案过多的倾向。

（2）假定规范不一致。

（3）指出该行为是常见的，虽然是违规的。

7、测验题目的来源：已出版的标准测验、理论和专家的经验、临床观察和记录。

8、心理测验题目的类型：根据对被试的要求不同来分，可有两大类：提供型和选择型的题目。前者求被试给出答案内容，如论文题、简答题、填充题；选择型题目要求被试在几个有限的答案中选择正确的答案，如是非题、匹配题（选择题，由题干和选项构成）、填充题等。

9、测验题目在编排时所遵循的普遍原则是：测试同一因素的题目放在一起、同类型的测试题尽可能组合在一起、题目的难度排列宜逐步上升。

10、测题的常见编排方式：并列-直进式、混合螺旋式。

第3章测验的实施、计分和误差

1、标准化是：测验编制中遵循科学的理论和技术，测验实施中要统一步骤和标准，结果解释时也要统一标准。换句话说，不仅编制测验时要严格选题、预试取样、施测、建立常模、确定记分标准和解释系统、有信度和效度验证，而且测验在实施测量时也要统一准和步骤，以控制无关因素对测验目的和结果的影响。

2、心理测验的实施程序：预告测验、准备测验环境、准备测验材料、熟悉测验的具体步骤、熟悉测验的指导语、具体实施。

3、实施心理测验的过程中的要素：主试（包括助手）、被试、测试工具、环境。

4、主试误差是：由于主试实施测验必然伴随的影响因素造成的误差。

5、主试误差包括：主试者的生理物理因素、主试在施测时偏离规定程序。

6、有几种情况主试能发生较大影响：

（1）测验步骤复杂，指导语冗长、繁琐。

（2）测验题目本身模糊不定，形式多变。

（3）安排的测验条件宽裕，有较多灵活机动的余地。

（4）被试属幼儿或有情绪捆扰者。

7、控制误差的方法：

（1）严格遵从指导语，不带任何暗示，被试提问时，尽量按中性方式回答。

（2）测验前不讲太多无关的话，以免引起被试的烦躁情绪和反感。

（3）对特殊问题有心理准备。

8、被试误差可分为：应试技巧与练习、动机和焦虑、反应定势。

（1）应试技巧与练习：速度测验比难度测验更易受练习因素的影响。

（2）动机和焦虑：对智力测验、成就测验和能力倾向测验来说，被试动机强才能有好成绩。

一般来说，适度的测验焦虑会使人提高兴奋水平，促进注意力增强，反应速度加快，有利于智力测验、成就测验和能力倾向类测验的成绩。但是焦虑水平过高或过低都不利于测验。

（3）反应定势：也叫反应风格。是被试的一种反应倾向，与测验内容无关。简言之即被试的答题习惯。

定势的种类：求“快”定势、求“精确” 定势、喜好正面叙述的定势、位置定势、长选项定势、猜测定势。

9、主试的心理因素：主试的态度对智力测验的成绩有影响。主试的动机也会影响测验。主试的期望对测验结果的影响最典型的范例是“罗森塔儿效应”。

10、被试对主试的五种需要：现实需要、受人尊重的需要、自我表现的需要、对主试权威性的需要、特殊需要。

11、如何控制主、被试交互作用引起的误差：可建立良好的主、被试协调关系。

协调关系是指：主、被试之间产生的一种友好、合作、能促使被试最大限度地作好测验的关系。

12、计分标准化的含义：

（1）对测验编制者而言，在编制测验时就要根据测验的目的、性质及题型确定一个适当的计分程序。

（2）对施测者而言，在测验完成以后要按测验操作手册上的规定要严格进行计分。

13、计分的一般程序：记录被试反应、参考标准答案、计算最后得分。

14、常见的猜测修正方法：S=R－32、 W/n－33、 1 S是真正分数、R是被试答对的题目数，W是被试答错的题目数，n为选择项数目。

第4章测验的常模和分数的解释

1、导出分数：原始分数的意义需有参照意义标2、准才能体现出来，在心理测验中，这种标准是由原始分数构成的分布转换而来的分数，就叫导出分数。导出分数具有一定的参照点和单位。

2、常见的导出分数分：常模参照分数、内容参照分数、结果参照分数。

3、常模团体：做心理测验，得到的测验分数需要做出有意义的解释，因而参考标准不可缺少。导出分数是由原始分数转换而来，而原始分数由被试完成测验后得到，因此，许多被试构成的人群就是构成参照标准的被试团体，也叫参照团体，或叫常模团体。

常模团体是由具有某些共同特征的人所组成的一个群体，或者是该群体的一个样本。

4、常模样本：找一个有代表性的样本来代表目标总体，也代表常模总体。这个用来代表常模总体的样本，就是常模样本。常模样本必须具备常模总体的基本特征。

5、常模样本的容量：总体的数目。一般情况，最小样本为30 ~ 100个。要是全国性的常模，一般地要求有2000 ~ 3000人为宜。

6、取样就是：从目标总体中选择有代表性的样本。一般地有两类取样方法：随机抽样和非随机抽样。具体说有：简单随机抽样、系统抽样、分组抽样、分层抽样。

7、常模分数：就是施测常模样本被试后，将被试的原始分数按一定规则转换出来的导出分数。

8、常模分数构成的分布是：通常所说的常模。它是解释心理测验分数的基础。

人们常常会忽略常模的时间性。常模分数和常模均会随时间的变化而改变，因此常模必须经常修订。

9、常模的表示方法：表格法和图示法。

（1）表格法就是转换表法。这种表示常模分数分布的方法是最常见的。它有三个要素：原始分数、导出分数、常模样本的特征描述。

（2）图示法就是剖面图法。

10、参照常模的解释分数是：将被试的分数直接或间接地以常模样本中的相对等级或相对位置来表示。另一种常见法是以常模性质分，可分为：发展常模（反映心理发展程）、百分位常模和标准分常模。

11、发展常模：按发展常模来解释测验分数，某一测验分数就表示个人在以正常途径发展的心理特征方面处于一个什么样的发展水平。这些平均表现构成的量表就是发展常模，象智力年龄、年级当量、发展顺序量表等均为发展常模。

（1）发展顺序量表：是直观的发展常模，因为它告诉人们多大的儿童具备什么能力或行为就表明其发育正常。

（2）智力年龄：在比内-西蒙智力量表中首先使用了智力年龄的概念。智力年龄实际上是一种年龄量表。也是用年龄来表示测验分数。

以智力年龄为典型代表的年龄常模在做解释时确实非常简捷明了，但是智力年龄并不是单位恒定相等的，而是随年龄的增长而增大。另外，智力年龄的概念显然不适用于成人，成人到一定阶段后智力发展相对稳定，表现不出一年与一年之间的差别。

（3）年级当量：它实际上就是年级量表，测验结果说明属哪一年级的水平，在教育成就测验中最常用。

12、百分位常模是：把一个量表分成一百个位置，对不同的得分给予相应的等级评价，依据不同的等级对结果作出解释。

13、百分位常模可分两类：百分等级和百分点。

（1）百分等级：一个测验分数的百分等级式是指在常模样本中低于该分数人数的百分比。百分等级是应用最广的测验分数表示方法。

（2）百分点：又叫百分位数，百分点或百分位数于百分等级的计算方法正好相反。百分等级是计算低于某测验分数的人数百分化，而百分位数是计算处于某一百分比例的人对应的测验分数是多少。

（3）还有两种常见的变式：四分位数和十分位数。两者含义相似。

14、百分位常模的优点与缺点：易于计算、解释、实用；不受原始得分的分数分布形态的影响。缺点是：单位不相等，特别是分数的两端；百分位无法说明被试间差异的原始分数量大小。

15、标准分常模：标准分数最常见的是z分数。标准分数是等距量表，它可以做加、减、乘、除运算。

常见的标准分常模：z分数、Z分数、T分数、标准九分数、离差智商（IQ）等。

标准分由原始分转换而来，这种转换又可分成：线性转换、非线性转换。

16、线性转换的标准分 - z分数（最典型的线性转换的标准分）。

（1）公式：z = X－（2） X/SD

X为原始分, X为样本平均数，SD为样本标准差。从公式看，z的含义是：它表示某一分数与平均数之差是标准差的几倍。

（3） z的性质：

1 平均数为0，标准差为1。

2 z分数有正、负，其绝对值表示原始分与平均数间的距离正值表示原始分大于平均数，负值则相反。

3 z分数的分布形态与原始分分布一致

徐静蕾 · 发表于 06-2-24 22:21:49

17、非线性转换的标准分：

（1） T分数是：平均数为50，标准差为10的分数。即

这一词最早由麦柯尔于1939年提出，是为了纪念推孟和桑代克对智力测验，尤其是提出智商这一概念所作出的巨大贡献。

（2）标准九：是标准化九分制的简称。它是以5为平均数，以2为标准差的一个分数量表，最早时被广泛应用于美国空军的心理测验中。

标准九分数也是一种标准分，它将原始分划分为9部分，最高是9分，最低1分。除1和9的范围略大以外，其余均是以5为中心向两边各包含0.5个标准差的分数段。

18、标准分常模小结：

（1）标准分常模分数均是等距分数，虽然不同类型的常模其平均数和标准差不同，但均可用离均值来表示。

（2）标准分常模的局限性：标准化常模表示的是存在状态之间的横向比较，离开原常模样本，不同常模样本之间的比较就没有意义。

名称 z分数和z’分数 T分数标准九标准十标准二十

平均数 0 50 5 5 10

标准差 1 10 2 1.5 3

19、离差智商及其意义（传统比率智商的缺点）：

（1）心理年龄与生理年龄呈线性关系。用传统的比率智商，不同年龄组的标准差不相等，从10 ~ 20都有，因此智龄与年龄的发展并不是呈线性关系。

（2）智力增长到何时达终点仍在争论。

1 离差智商：通过与同2 年龄的代表性样本的平均数相比较来确定智商的高低。

离差智商是一种常态化标准分数，因而其计算方法与其他标准分数一样，公式为：IQ = 100 + 15z’。由于离差智商的提出，过去使用比率智商的测验都改用离差智商，其公式为：IQ = 100 + 16z’。两者唯一的区别是标准差：一个是15，一个是16。

2 由于标准差不同，离差智商间就不能直接比较，因为单位不等，相同的IQ值表示的智力水平也不一样。

3 常态化使得IQ的评定对智力较低者打分偏高，对智力较高者打分又偏低，而对中等智力者打分最准确。

20、效标参照测验是：格拉塞于1963年首先提出的。它是直接向人们报告被试完成什么测验题，能拼多少单词，能做什么样的逻辑推理题等。

21、效标参照测验的优点：

（1）效标参照测验巧妙地避开了对得分、名次的过细纠缠，使个人都能有自己大致的奋斗目标和希望。

（2）效标参照测验能发现个人特有的长处，也会找到问题症结所在。

（3）常模参照测验的得分不能告诉我们评价被试的外在效标是什么，而指标参照测验的结果本身可能就是效标。

22、对效标参照测验的解释的方法：内容参照分数、结果参照分数。

23、内容参照分数与常模参照分数的本质区别：用内容参照分数来解释测验结果，很象我们平时所说的课程考查，只有“通过”与“不通过”，或“及格”与“不及格”之分，没有100分与60分之分。就是说，它依据被试对某个确定的材料或技能的掌握程度和熟悉程度来表示测验的结果。所以它比较的对象是测验的内容，而非完成测验的其他人。

24、对内容参照测验的解释有两种内容参照分数可供选择：掌握分数和正确百分数。

（1）掌握分数：按效标参照的思想，最简便的做法就是确定一个评判标准，一判断被试是否通过或达到掌握的水平。

（2）正确百分数是指被试在测验中答对题目的百分比例。

第5章信度

1、信度是指：测量结果的可靠性和一致性。因为心理测验通常测量人的行为，行为会由于各种各样的原因，因时、因事、因地而产生变动，这些因素有些是偶然的，有些是固有的，人在完成心理测验时的行为也会受上述因素的影响，从而使测验结果与真实结果不完全一致，所以我们要用信度来衡量测验的可靠性和一致性。

2、信度的操作化定义：

（1）误差理论认为：一个人的测验分数X是由真实分数（T）和误差（E）两部分构成的，公式是X = T + E。

（2）因此信度就被定义为：一组测量分数的真实方差与实得方差的比，或者是指真实方差占总方差的百分比。公式为：rxx = 1－SE 2／SX 2

（3）根据统计学理论，真实方差与实得方差的比是一个相关系数的平方，所以我们把这种相关系数的平方叫做信度系数。

（4）计算公式为：rxx = ST2／SX2

3、由于误差的来源信度的可分为：这种分类是基于信度的传统定义-真分数理论。

（1）重测信度：考虑的误差来源是时间取样。

（2）复本信度：考虑的误差来源是内容取样。

（3）分半信度：它考虑的误差来源也是内容取样，它与复本信度的差别是：分半信度考查一个测验内容的两半题目测量的是否是同一个心理特点行为。

（4）同质性信度（内部一致性系数）：考虑的是测验内容是否异质。

（5）评分者信度：考虑的误差来源是评分者间的差别。

4、信度的表示方法：

（1）信度系数和信度指数：

1 信度系数：rxx = rx2T = S2T／S2

2 信度指数：rXT = ST／SX

（2）测量标准误：SE = SX 1－rxx

5、信度的意义：

（1）信度系数可以解释为样本测验分数的总方差中有多少比例是真分数方差，也就是测验的总变异中真分数造成的变异占百分之几。它直接告诉我们测量的误差有多大。

（2）测量的标准误可以告诉我们有多大可能性真实分数在某一分数范围内，并且可以预测实得分数再测时可能的变化情况。

6、信度的作用：

（1）解释预测个人分数的意义。

（2）解释真实分数与实得分数间的关系，明确告诉我们测验误差大小。

（3）新编的测验信度应高于原有的同类测验或相似测验。

（4）下结论说某测验比较可靠，必须是依据情境的，经多次证实的。

（5）它是确定测验好坏的一个指标。一般的原则是：

1 当rxx＜ 0.70时，测验不能用于对个人作出评价或预测，而且不能做团体间比较。

2 当0.70≤rxx＜0.85时，可用于团体比较。

3 当rxx ≥0.85时，才可以用来鉴别或预测个人成绩或作用

7、重测信度：有时也叫稳定性，主要针对时间变量。

（1）重测信度采集数据得方法是：对同一组被试间隔一定的时间重复测试一次。

（4）重测信度的计算方法是积差相关法，因而rxx就是皮尔逊的积差相关系数。

（7）重测信度的时间间隔选择依测验性质和目的而定，如果测验是用于长期预测，则测量间隔长一些。对儿童的智力测验一般是两周到四周为宜。对成年人，间隔可到半年，很少超过6个月。

（13）使用重测信度应注意：不是所有测验都可以计算重测信度。并且重测信度只是反映了随机误差的影响，而不是反映被试心理特点的长期变化。

8、复本信度：又叫等值性系数。

（1）数据采集方法是：给被试施测两个内容等值但题目不同的测验，求两组数值的相关。计算方法常见的也是积差相关法。

（2）复本信度的高低反映了两个互为复本的测验等价的程度，而不是反映一个测验本身受随机误差影响的大小。复本信度的高低关键取决于复本测验的选择，因而施题目取样问题，或者说是测验的内容取样问题。

（3）复本信度优于重测信度的地方是：避免了重测带来的记忆效应和练习效应；可用于长期追踪研究前后测量；减少了作弊的可能性。

（4）复本信度的缺点：有些测验的复本很难找到；有些测验因正迁移效应使测验性质改变；如测量的内容很容易受练习的影响，复本信度也无法清除这种练习效应。

（5）重测复本信度，即再不同的时间里施测两个等值的测验（复本），得到的相关就是重测复本信度，也叫稳定等值系数。它比单一的重测信度或复本信度都要严格、全面一些。

9、斯皮尔曼-布朗公式：rnn = nrtt／1 +（n－13、 1）rtt，14、 rnn是校正以后的相关系数，15、 rtt是实得的相关系数，16、 n为rnn对应的测验长度与rtt 对应的测验长度之比。分半时，17、 n = N／（N／2）= 2（N为测验全长），18、所以分半法信度的校正公式是：rxx = 2 rnn／1 + rhh 其中rhh为两半测验的相关系数。

（1）卢伦公式：rxx = 1－Sd2／Sx2 其中Sd2是两半测验分数之差的方差，Sx2为总方差。

（2）从理论上分析，分半信度反映的实际上是两半测验能够测量相同内容或心理特点的程度。

10、内部一致性信度（同质性信度）：同质性是指测验的所有题目间性质的一致性，即测的是同一种心理特质或行为。同质性是测量单一特质的必要条件。这里讲的同质性是指测验题目得分反映的心理特质一致，同质性的判别标准是：题目间呈高正相关，如果相关很低或是呈负相关，则题目为异质。

（1）库德和里查德森提出的K-R20公式只适合预测题目是二分法计分的。克伦巴赫α系数适合于非二分法计分的测验的内部一致性信度估计法。

（2）从同质性信度的含义我们不难看出，分半信度是求测验两半之间的一致性或同质性，而同质性是求所有题目间的一致性。因此分半信度实际上是同质性信度的一种，可以作为测验同质性评价的粗略估计指标。因为可以根据测验得分来推论或验证某种概念或理论构思，因此同质性信度也是一种构思效度，或叫结构效度，它实际上介于信度与效度之间。

11、评分者信度：有些心理测验的得分不是根据客观的计分系统计分的，是由评分者来给被试打分，因此，这样的测验的可靠性如何取决于评分者评分的一致性和稳定性如何。

评分者信度因评分者人数不同而估计方法不一样。如果是两个评分者，独立对被试的反应评分，则可以用积差相关来计算，或用斯皮尔曼等级相关法计算。如果评分者在三人以上，而且是等级评分，则可以用“肯德尔和谐系数”（W）来求评分者信度。

12、以测量标准误表示信度的好处是：

（1）信度的单位与测验分数的单位相同，因此解释个人分数时非常直接，能直接指出允许测验分数变化的范围。

（2）测验同质与否并不影响测量标准误的大小。测量标准误的不足之处时：无法比较不同测验间的信度高低。比较不同测验的信度用信度系数（rxx）解释个人分数时用测量标准误（SE）。

13、常见的影响信度的因素有：样本特征、测验的长度、测验的难度、测量的时间间隔等。

14、我们做信度考验时，常常选取一个与常模样本性质相同的样本施测，根据被试得分求出信度系数。

（1）样本团体得分分布的影响：求信度的样本团体得分分布如果比较窄小的话信度就低。

（2）样本团体异质性的影响：样本团体异质的话，测验分数的分布就比同质样本的要广，分数的离差就大，样本的方差就大，信度就高。实际上，高信度可能是假性高信度，是由样本团体的异质造成的。但如果常模总体要求各种各样的人，则异质的信度样本求得的信度就是真信度。这时，相反的情况就需要校正信度。

（3）样本团体平均能力水平的影响。由于信度也会因样本间团体平均能力水平的不同而不同，因此在求信度时，一定要注意信度样本与常模总体间是否一致。

15、测验的长度：在其他条件均等的情况下，测验越长，信度越高。原因在于：

（1）测验越长，即题目越多，测验的内容取样就越有可能有代表性。

（2）测验越长，被试的猜测因素影响就越小。

16、测验的难度：难度对信度的影响之存在于某些测验中，如智力测验、成就测验、能力倾向测验、教育测验等。测验的难度对信度有间接影响，因为如果测验过难，被试的得分会集中在低分区。过于容易，分数则集中在高分区。两种情况都使信度样本的得分范围变窄，变异量降低，从而低估测验信度。

17、测验的时间间隔：这一因素之对重测信度和不同时测量时的复本信度有影响，对其余的信度来说不存在时间间隔问题。

徐静蕾 · 发表于 06-2-24 22:22:00

第6章效度

1、效度是指：测验能测量到所要测量的对象的程度。这一定义包含着两层含义：测验测量什么？测验对测量目标的测量精确度和真实性是多少？

2、效度的公式为：rxy = SV2／SX2它是与测量目标有关的真实分数方差与总方差的比率。其中rxy是常用的效度表示法；SV2是“有关的真实方差”，也就是由测验所要测量的心理变量引起的方差，也叫有效方差；SX2是总方差。

3、信度和效度的差别是：两者所涉及的误差不同：信度仅考虑偶然的随机误差占测验总变异的比例，效度则还包括与测验无关的但稳定的测量误差。

（1）信度是效度的必要而非充分条件。

（2）效度是受信度制约的。

4、效度的性质：效度的真实含义是指测验结果的效度，也就是测验结果的准确程度。

（1）效度具有相对性。

（2）效度具有连续性。测验的有效性只有程度上的差别。

（3）效度也不是直接就可以测量到的，它是从已有的证据推理而来的。

5、效度的种类：内容效度、构思效度和效标关联效度。

6、效标关联效度是指：测验总分数与外在标20、准（效标）之间的相关程度，反映的是用测验预测个体在某种情境下行为的表现如何的有效性程度。由于外在标准成了考察测验有效性的参照标准，因此简称为效标。

7、阿斯丁把效标分为两个层次：一是理论描述水平的“观念效标”，二是操作定义水平的“效标测量”。

（1）观念效标是效标的理论定义，效标测量是效标的操作定义，效标测量必须能真正反映观念效标。

（2）效标测量的一个重要特征是客观性。为此因做到：

1 避免偏见影响效标测量，特别是以等级评定为效标4 测量时，评分者的主观偏见会有很大影响。

2 防止效标污染，即指个人的效标因评定者知道个体的测验分数（也叫预测源分数）而受到影响。

8、常用的效标：学业成就、临床诊断、实际工作表现、特殊训练成绩、效标团体比较、先前有效的测验、等级评定。

9、同时效度：它的效标资料是和测验分数差不多同时搜集的。一般情况下，它可以代替预测效度。

10、预测效度的效标是经过一段时间以后才获得的，预测效度反映的是从测验分数预测任何效标情境或一段时间后被试的行为表现的程度。

11、构思效度就是：心理测验对某一理论概念或特质测量的程度。因此，研究构思效度就是要搞清楚：测验测量的是什么构思（概念或特质）？测验分数的变异中有多少来自于测验的理论构思？构思效度是没有单一指标的，它是由各方面证据累积起来作出评价的。

12、确定构思效度的基本步骤：建立理论框架、根据理论框架推演出有关测验成绩的假设、用逻辑或实证的方法来证明假设。

13、确定构思效度的方法：测验内部的方法、测验间的方法、效标效度的研究、实验和观察法验证。

（1）测验内方法：这类方法是通过研究测验内部结构来界定理论构思，从而为构思效度提供证据。

（2）确定方法是：分析测验的内容效度和测验的内部一致性分析。测验的内部一致性可以由分半信度、α系数、KR20或KR21等指标来衡量，它们考察的是测验题目是否同质，分测验与总测验是否一致或同质，这些都可以证明测验所测量的构思是否合理，因而构成了证实构思效度高低的证据。

（3）有时分析被试对题目的反应特点也可以作为构思效度的证据。

（4）测验间的方法：通过分析几个测验间的相关关系，找出其共同之处，进行推断这些测验测量的特质是什么，也可以确定这些测验构思效度如何。最简单的方法是计算两种测验之间得分的相关。区分效度是构思效度的又一个证据。因素分析法也是建立构思效度的常用方法。

（5）实验法和观察法证实：观察实验前和实验后分数的差异也是验证构思效度的方法之一。

14、内容效度是指：测验题目对有关内容或行为总体取样的适当性程度。因为这种效度主要是考察测验的内容，因此叫内容效度。

（1）要想使测验的内容效度高，必须又两个条件：内容的范围或行为总体必须界定名确；测验题目应该是所界定的内容范围的代表性样本。

（2）内容效度的确定方法：专家判断、经验判断、统计分析法。

15、表面效度是指：一个测验看起来好象是测量所要测的东西的程度。换句话说，当那些未经过训练的被试或测验应用者认为某测验是有效的测验时，该测验就有表面效度。

16、效度的指标是指：效标关联效度和构思效度的的指标。效度指标一般有：效度系数、统计推断参数、预期表等。

17、效度系数：它是最常用的效度指标，尤其是效标关联效度。它是以皮尔逊积差相关系数来表示的。效度系数的实际意义常以决定性系数来表示，表达式是rx2y，效度系数的平方就是决定性系数，测验正确预测或解释的效标的方差占总方差的比例。

18、效度的其他指标：一些描述不同团体的差异的统计指标（参数）也可以作为效度的指标，比如：t考验、F考验、重叠百分比等。

19、效度的影响因素：测验本身的因素、测验施测的样本的性质、效标的性质等。

（1）对于测验本身因素又可分为：测验题目的质量、测验的长度、测验实施中的干扰、被试的因素等。

（2）样本的性质：

1 影响之一是：不同的团体对同一测验的反应可能会不一样，因被试的背景不同，对测验的题目可能采取完全不同的方法来回答。

2、响之二是：同一个测验，效度团体的性质不同，效度也会有很大差别。效度团体的性质包括年龄、性别、教育程度、智力水平、动机、职业等有关的特点，1这些性质特点使测验对不同的团体具有不同的预测能力。故称为干涉变量。

3 影响之三是：样本团体的异质性。其他条件相同的时候，样本同质性越高，效度越低。

第7章项目分析

1、项目分析是指：一组分析被试对测验项目的反应的统计方法，而广义的项目分析则还包括内容效度分析和项目编写的分析。

2 最简便的难度指标通过率：所谓通过率就是在回答某个项目的样本中，正确回答该项目的人数的百分比。

3 项目难度与测验难度的确定：

（1）对题目难度来说，如果项目过难或过易，就会造成被试基本上都答错或基本上都答对了，也就是P值接近0或1，这样也就不能区分被试能力的差异。大体而言，项目难度为.50时最理想，此时项目具有最大鉴别力。

（2）在实际操作时，一般只需使项目的平均难度接近.50而各个项目的难度在.50±.20之间变化。如果测验是用于选拔或诊断，则最好多选一些难度与录取线接近的项目。在项目选择上还有一个要注意的问题是：当项目形式是选择题时，要考虑到让P值大于概率水平，否则项目是无效的。

4 鉴别力分析的设想基础：如果单个项目与测验测的是同11、一特性，那么我们可以预期在测验上得高分的人正确回答这一问题的概率大，而在测验上得低分的人正确回答这一问题的概率低。鉴别力分析就是在这一设想的基础上进行的。项目的鉴别力就是其对于所测量的心理特性的区分能力。

5、鉴别力分析的一般方法：鉴别力指数、项目-总分相关、项目间相关。

6 鉴别力指数是：运用极端组计算项目鉴别力的一种简单方法。公式为：D = PH－PL是高分组在项目上的通过率，而是低分组在项目上的通过率。

当D＜.19是，项目差，必须淘汰；但D在.20 ~ .29之间时，项目尚可，但必须修改；当D在.30 ~ .39之间时，项目良好，但还是最好稍做修改；而当D.＞40时，项目完全可以被接受，但一般测验，D＞.30项目就可以接受了。

7 项目总分相关是：被试在项目上的得分与其总测验分的简单相关。

8 难度水平与鉴别力：难度水平直接限制了一个项目的鉴别力。如果当P值接近.50，项目最可能具有高的鉴别力。但是，P值接近.50并不能保证项目有高的鉴别力，只能说在统计上已经没有限制了。

9 项目特征曲线：运用图象直观地显示了随着测验者某种心理特征水平的变化，正确回答某个项目的概率是如何变化的。项目特征曲线是现代心理测量学最有影响的理论之一-项目反应理论或称潜特征理论的基础。ICC归纳了项目分析的信息，显示了心理能力水平与项目反应之间的关系。

当项目-总体相关为正时，ICC的斜率也是正的；当相关接近0时，ICC斜率也接近于0；当相关为负时，ICC斜率为负。

10、剪裁测验：如果能使测验适合于每个测验者的水平，那么就不用对每个人施测长长的每个能力水平上均有项目的测验。这种测验就称为剪裁测验，又称计算机化的适应测验。

第8章智力测验

1、关于智力的定义：

（1）斯皮尔曼（Spearman）认为：智力是一种普遍的能力，它主要涉及联系的引出和相关的引出。

（2 比内和西蒙（Binet & Simon）认为：智力是正确地进行理解、判断和推理的能力。

（3 韦克斯勒（Wechsler）认为：智力是个体有目的地行动，理性地思考以及有效地应付环境的总体能力。

2、智力是：通过经验进行学习的能力；适应环境的能力。

3、智力的理论-Spearman和g 因素：

（1）在对各种智力和感觉能力的相关模式进行广泛研究之后，提出智力由两种因素组成：一个一般因素g、若干个特殊因素S。

（2 它认为g因子是整个大脑皮层共有的能力或能量，而S因子只是代表了大脑中某些神经元的生理功能。

4、智力的理论-Thurstone与基本心理能力：Thrustone总结出了七种基本心理能力：语词理解、数字、空间、知觉速度、语词流畅性、联想记忆、归纳推理。

5、智力的理论-Cattell与流体智力-晶体智力：Cattell确定了两大因素：流体智力、晶体智力。

（1）流体智力：基本上是非语言、相对不受文化因素影响的心理功能。它与个体通过遗传获得的学习和解决问题的能力有联系。

（2 晶体智力高度依赖于文化，是个体完成那些需要习得性或习惯性反应任务的能力。晶体智力是流体智力运用在不同文化环境中的产物。

6、智力的理论-Piaget的认知发展理论：主要观点：

（1）儿童的思维与成人的思维存在质的差别。守恒是指：在物体表面看来发生变化时，能意识到物体的实质没有变化。

（2 认知发展可分为四个阶段：感觉运动阶段、前运算阶段、具体运算阶段、形式运算阶段。

（3 图式是知识获得的基础。图式是经过组织的行为模式或定义明确的心理结构。

7、 Guilford与智力结构模型：Guilford在1967年提出了一个智力结构模型。这一模型为三维立方体，每一维代表一个变量。它包括：

（1）自变量：代表思维的内容。

（2）中间变量：代表思维的操作。

（3）因变量：代表思维的产物。

8 Sternberg与智力的三主理论：该理论包括三方面：成分智力、经验智力、情境智力。

9 韦克斯勒智力测验：

（1）韦克斯勒是从1932年开始他的测验编制的.目的是为了设计一个适合于测量精神病人的智力测验。第一个韦氏测验出版在1938年。他将量表分为言语、操作两大部分。这一区分使我们可以比较测验者使用词语和符号的能力和操作实物、感知视觉模式的能力。

（2) 韦氏验的一般特点：

1 几个重要的韦氏测验：1939年韦克斯勒-贝利弗测验；1949年韦克斯勒儿童智力量表（WISC）；1974年韦克斯勒儿童智力量表修订版（WISC-R）；1991年韦克斯勒儿童智力量表第三版（WISC-Ⅲ）。

2 各个韦氏测验的特点：

A. 10 ~ 12个分测验：多个分测验使我们不B. 仅得到总IQ，C. 而D. 且可以分析个体智力上的强点和弱点。

E. 言语量表和操作量表各由5 ~ 6各分测验组成。这体现了左右脑功能的整合。

F. 共同G. 的IQ计分系统。这使我们可以比较被试的分测验分数，H. 了解其相对强弱。

I. 不J. 同K. 年龄组由相同L. 的分测验有助于测验间的相互比较。

3 韦克斯勒测验的分测验：常识、数字广度、词汇、算术、领悟、相似性、填图、图片排列、积木图案、物体拼凑、译码或数字符号、迷津、句子、几何图形、动物房。

A. 常识是：一般知识性知识问题，B. 要求被试用几句话或几个数字回答，C. 问题从易到难排列。缺点是容易受到文化背景和被试熟悉程度的影响。

D. 数字广度：由顺背和倒背两部分组成。

（4）韦氏成人智力量表修订版：WAIS-R共有11个分测验，其中包括六个言语量表：常识、数字广度、词汇、算术、领悟、相似性；五个操作量表：填图、图片排列、积木图案、物体拼凑、数字符号。所有11个分测验分数合并成全量表分数，并可以分别求得三个智力商数：言语智商（VIQ）、操作智商（PIQ）、总智商（FIQ）。

WAIS-R的标准化，被试年龄从16 ~ 74岁。

（5）韦氏儿童智力测验修订版（WISC-R）适用于6 ~ 16岁儿童。它由五个言语分测验和五个操作分测验组成。此外还有2个补充分测验。

（6）韦氏学前和小学儿童智力测验修订版（WPPSI-R）该测验与WPPSI极为相似，只是年龄范围从原来的4 ~ 6.5岁儿童扩展到3 ~ 7岁3个月儿童。

（7）韦氏智力量表中国修订版：从1979年起中国韦氏测验的修订工作由湖南医学院龚耀先教授主持进行，于1982年出版了WAIS的中国修订版，WAIS-RC。

10 个体智力测验：

（1）斯坦福-比内智力量表：

1 1916年量表：首先采用了智商这一概念。

2 1937年量表：年龄范围从1916年量表的3 ~ 13岁扩展为2 ~ 18岁，并且编制了测验复本，分别为L型和M型。

3 1960年量表：该量表采用离差智商。

4 斯坦福-比内第四版（SB：FE）：该版的最大改变在于采用智力层次模型来划分和构建分测验。

SB：FE的智力模型：SB：FE的编制者用一个三层次的认知能力结构模型作为编制量表的框架。这一模型的最高层是一般智力g因子；第二层分成晶体智力和流体智力，此外又增加了短时记忆能力。短时记忆能力包括珠子记忆、句子记忆、数字记忆和物体记忆四个分测验。

（2）考夫曼儿童成套评估测验（K-ABC）是智力和成就的综合测量。K-ABC是以神经心理学和认知心理学研究为基础，以“个体问题解决和信息加工模式”定义智力。

K-ABC提供四个方面的分数：系列加工、同时加工、综合心理加工、成就测验。

（3）能力区分量表（DAS）：适用于2岁6个月到17岁11个月的儿童。

徐静蕾 · 发表于 06-2-24 22:22:12

11 团体测验于个体测验的差异：

团体测验采用多项选择，而个体测验多采用开放式问题。

团体测验多采用客观的计算机评分，而个体测验一般为施测者评分。

团体测验为团体施测，个体测验为个体施测。

团体测验多用于筛选，而个体测验多用于诊断及弥补工作。

团体测验标准化样本极大，而个体测验一般只用几千名精心挑选的被试。

12 团体智力测验：

（1）文化公平智力测验（CFIT）是：一个非言语流体智力测量，最早由R.B.Cattell发表在《教育心理学》期刊上，它的目标是测量流体智力，避免文化因素的干扰。

（2）瑞文渐进测验（RPM）：该测验既可以个体施测，但更多作为团体施测。

该测验实际上是三个不同的测验：瑞文儿童彩色渐进测验、瑞文标准渐进测验、瑞文高级渐进测验。

我国由北京师范大学张厚桀教授主持，从1985年起对瑞文测验进行修订。

13 图书群体测验的类型：非言语测验（古德依纳芙-哈里斯绘人测验）、非阅读性测验、婴儿智力测验、发展程序表。

14 非阅读和非动作测验-皮波迪图画词汇测验修订本（PPVT-R）是：由L.M.Dunn编制，1981年修订的测验。测验由175张图片组成，每张图片上有4个图形。PPVT-R适用于2岁半到成人，测验需用时10 ~ 20分钟。由于不需要语言反应，所以常用于言语障碍、大脑麻痹、阅读困难和智力落后的被试及孤僻、注意不集中的儿童。

15、婴儿智力量表：

（1）葛塞尔发展程序表：该量表是最早编制于1925年的第一个婴儿智力量表。测量包括五个领域：大运动、精细运动、语言发展、适应行为、个体-社会行为。这一量表主要用于临床筛查和诊断。

（2）丹佛发展筛查测验（DDST）：主要用于筛查智力发展的大致范围，它评定了四个行为领域：个人-社会行为、精细动作适应行为、语言、大运动。

16、遗传和环境对智力的影响：遗传对智力的影响在研究中一般用遗传指数来表示。遗传指数为0意味着遗传在某种特质上不起作用；遗传指数为1意味着遗传完全决定了特质。当然，遗传对大多数特质的影响介于0 ~ 1之间。

第9章能力倾向测验

1、能力倾向测验一般指：测量从事某种职业或活动的潜在能力的评估工具。

2、能力倾向测验可分成：一般能力倾向测验、特殊能力倾向测验和多因素能力倾向测验。其中一般能力倾向测验现在就是指4、智力测验。而5、狭义的能力倾向测验专指6、后两者。

3、能力倾向测验与智力测验的关系：

（1）智力测验一般得到的是对个体总智能的评估分数，而能力倾向测验则测量的是某种特定的或多因素的组合。

（2）智力测验与能力倾向测验的另一个区别就是：克伦巴赫提出的带宽和精确度。带宽是指测验可预测的效标全距，测验能预测的效标总数越大，则这个测验的带宽越大，智力测验比能力倾向测验的带宽普遍要大。精确度是指测验可在多大程度上预测效标，一般而言能力倾向测验的精确读为更大一些。

4、能力倾向测验发展主要的原因：

（1）智力测验的局限：早期智力测验的编制者，希望通过广泛地测量心理功能，从而估计个体的总体智力水平。但是所谓的智力测验只是涉及到智力的某些方面而已。

（2）体能力倾向的差异：个体在某一测验的各部分上的作业，常常表现出显著的差异。这种个体内变异在智力测验上表现为分测验得分的差异。智力测验往往不足以作出这种个体能力倾向差异的分析。

（3）素分析技术的发展：因素分析使我们能够编制多重能力倾向测验，从而为个体各种能力倾向的强弱提供比较。来自实际的需要。

5、能力倾向测验的特点：能力倾向测验预测失败比预测成功更为正确；必须审慎解释各种特殊能力分数间的差异；能力倾向测验在训练计划中应审慎运用。

6、多因素能力倾向测验：该测验被用来测量个体在不同领域内的技能和知识，从而为职业咨询、分类和人员安置提供最有效的信息。这种测验的结果不是一个总分或IQ，而是一组不同能力倾向的分数，它们提供了一种智能剖面图，显示出个体的强点和弱点。

7、多因素能力倾向测验发展的原因：对个体内在差异的认识、对一般智力测验特征性的认识、职业咨询和分类的需要。统计学发展的影响。

8、工业能力倾向成套测验：多用于工商业的人员选择与安置。它包含了测验有一般智力测验及数学、知觉、机械和心理运动能力测验。它还建立了一组职业能力模式。

9、一般能力倾向测验（GATB）：由美国就业服务社编制。研究者们在工作分析和对59各测验因素分析的基础上，设计了GATB，主要用于职业咨询。它共有12个分测验，8个纸笔测验和4个仪器测验。适用于高中至成人。

第10章成就测验

1、成就测验的历史发展：

（1）最迟在汉朝，中国便已经有了非正式的考试制度。公元1370年（明朝初期）笔试成为科举取士的一部分，这可视为成就测验的正式开始。

（2）今天在世界各地广泛应用的标准化成就测验发源于美国，始创者是赖斯。另外一个早期的奠基人是桑代克。并且桑代克被公认为是教育测验的鼻祖。

2、成就测验和智力测验、能力倾向测验的区别：成就测验和智力测验、能力倾向测验的测量对象都是认知性特质。这三种测验都是测量个体从与环境的相互作用经验中发展出来的能力。所以在本质上，它们有相同之处。能力倾向、智力测验所测量的也可以看作一种“成就”。不过，如果从测验的目的、性质及所含盖的经验范围来看，这三种测验仍有某些不同之处，不能相互取代。

就测验的对象而言，三者本质上有重叠之处，无法加以截然区分。大多学者认为成就测验测量的是一些特定的、限定于某一范围的能力和知识，而另两者所测验的则为一般性的、较为广泛的能力。

从功能上看，成就测验也不同于智力、能力倾向测验。后两者的主要功能是预测一个人在未来的教育、训练或工作经验中可能的表现，它们的使用是在教育或训练程序以前，用以反映被试是否有接受某种课程或专业技能训练的能力。成就测验则是评估被试在接受一些教育或训练程序后所获得的学习成果，它的实施发生在教育、训练过程后。在测验的技术品质上，成就测验要注重内容效度，而能力倾向、智力测验则必须有较高的预测效度，否则就失去其基本价值。

3 成就测验的功能：考查和报告学习成就、筛选和安置、诊断、评估教育计划或教育质量。成就测验可以用于评估某种教学法和教学程序的功效，以作为改进教材和教法的参考。

4、成就测验的分类：成就测验可从其内容、用途、编制方法和原理等四个方面进行分类，具体可分为：单科测验与成套测验、评估性测验和诊断性测验、标准化测验和教师自编测验、常模参照测验和效标参照测验。

5 低成就与学习障碍的评估：

（1）低成就是指：学生在学业上的成就低于其所具有的学习能力。

（2）学习障碍可视为低成就中的一类。有关学习障碍的定义，使用最广的是美国联邦法的规定：“学习障碍是指和口头或书面语言的理解和应用有关的一种或多种基本心理过程有障碍，这种障碍可表现在听、想、说、读、写或数学运算的能力不足。”

（3）学习障碍的特点：

1 学习成就和一般智力之间不一致。

2 习障碍的绝大多数定义包含了排除标准。

3 障碍是异质性的。

4 习障碍是一类发展现象。

5 习障碍个体经常会因学业成就差而8 遇到社会交往和情绪适应上的困难。

6 学习障碍的评估：

（1）在学习障碍的评估中，最基本的工具是：信度、效度可靠的成就和智力测验。大多数学习障碍组合测验包括这两个领域的主要测量工具，如斯坦福-比内智力测验、韦克斯勒儿童智力测验及皮波迪个人成就测验、考夫曼教育成就测验等。

（2）为了保证儿童能从学业方面的补救措施中受益，测验者有必要了解是否有社会交往和情绪适应问题。在这方面常用的测验工具有：儿童人格问卷（PIC）和考纳斯教师评定量表（CTRS）。

7 儿童多动症的评估：儿童多动症或称注意缺陷多动症（ADHD）是一种行为综合症。症状为注意缺陷、多动，21、患者有轻微的脑功能障碍。考纳斯编制了一系列辨别儿童多动及其他行为问题的评定量表。其中，22、考纳斯教师评定量表有两种版式，23、一个包含28个项目（CTRS-28），24、一个包含39个项目（CTBS-39）。另外考纳斯父母评定量表（CPRS）也有两个版式：一个包含48个项目（CPRS-48），25、另一个包含93个项目（CPRS-93）。

徐静蕾 · 发表于 06-2-24 22:22:23

第11章人格测验

1、心理测验依据所测量的心理特质或行为，2、分为：认知性和非认知性两大类。非认知性测验所测的特质或行为是情感性的。按照知、情、意的传统三分法，前者是对知的方面，后者则是对情和意的方面的测验。

2、认知性测验和非认知性测验的区别：

（1）认知性测验和非认知性测验在对被试的要求上，有一个很大的不同。认知性测验基本上是最佳表现测验，其目的是测得被试的最高能力或水平，被试应该尽最大努力做正确回答。而非认知性测验是典型表现测验，其目的是对被试的日常一般行为做代表性的取样，而不是测量其是否有行为能力。非认知性测验的答案并无“对”、“错”之分。测验者关心的是被试的反应能否确切地代表他或她的典型行为。

（2)非认知性性质的测量中，人格测验都占有中心的地位。广义的人格是指：个体所具有的能力、能力倾向、需要、动机、情绪、性格、兴趣、态度及其它心理和行为的差异的总和，既包括认知性变量，又包括情感性变量。

3、自陈量表：又称自陈问卷，是由被试本人对自己的人格特质，按照自己的意见进行评定的一种方法。它们的一个特点是高度结构化，每一量表通常包括一个或多个系列数目较多、内容明确具体的叙述语句，项目形式多为是非题或选择题。另一个特点是它们一般都建立了标准化常模，标准化和量化的结果必然会减少测验者主观因素的介入。自陈量表的高度客观性是它的一个显著优点，因此它有时又被称为客观式人格问卷。

（1）自陈量表的编制方式：理论推演法、经验效标法、因素分析法。

理论推演法的特点式以理性的逻辑或已知的人格理论作为测验编制的基础。测验者根据要测的人格概念，找出有关的行为、情绪状态、信念等，编成具体项目。然后，再依据试测的结果与理论假设是否一致，对初始量表进行项目分析、修改、并建立常模。

（2）典型的力量推演法量表：爱德华个人偏好量表（EPPS）、显相焦虑量表（MAS）：也是根据理论推演原则编制的典型测验工具。1953年泰勒为了研究个体的瞬眼条件反射，编制了这一量表。

4、经验效标法：以经验效标法编制人格测验，对要测的人格特质，并不需具有既定的理论基础或假设。编者时，测验项目的选择完全是以实证资料为依据，即只保留那些能够将效标组与控制组分开的项目，而不管其内容看起来是否合理。典型的经验效标法量表有：

（1）明尼苏达多相人格调查表（MMPI）：是当今人格量表中使用最广而且最受研究者重视的一种。MMPI包括14个分量表，其中10个临床量表和4个效度量表。MMPI中的测验结果将原始分数转化成T分数，超过70的分数被称为高粉，可能指示着精神障碍的存在，值得特别注意。MMPI-2于1989年推出。

从1980 ~ 1989年的十年间，我国以宋维真为首的研究小组对中文版MMPI几经修改和测试，于1989年1月正式发表了MMPI的测查表与使用手册。

（2）加洲心理量表（CPI）是一个类似MMPI的经验效标问卷,最新修订本出版于1987年。CPI主要用于测量正常人格维度。

5、因素分析法：

（1）这种方法的理论假设是，如果一项人格测验能真正测量要测的特质，那么它包含的各测验项目必须具有显著的内部一致性。使用此法编制测验时，编制者要根据对某一问题已有的各方面知识，编制大量项目，施测于大样本，然后将所得资料进行因素分析，最后得到的一个或几个因素即代表这些项目所测的人格结构。编制者可将具有显著因素负荷量的项目保留，进行因素命名，并组成一个人格测验。

（2）因素分析量表的典型代表：16PF和EPQ。

1 16人格因素问卷即卡特尔人格因素问卷是卡特尔根据自己的人格特质理论，运用因素分析方法编制的。16PF的计分方法是将各量表原始分数转换成标准分数，并由此绘出被试的剖面图。

2 EPQ-艾森克人格问卷：共含内-外倾（E）、神经质（N）、精神质（P）三个分量表和一个效度量表（L）。E量表的高分表示人格外倾，低分则表示内倾。N量表得高分的被试可能焦虑、担忧、郁郁不乐、情绪反应强烈、以至出现不够理智的行为。P量表的高分则可能表示孤独、不关心他人、难以适应外界环境、感觉迟钝、与他人关系不佳、喜欢寻衅闹事等。L量表测量说谎或掩饰，但也代表假设的一种人格特质,即社会朴实或幼稚。

在EPQ测试结果上，男、女有差异；P、E、N量表得分随年龄增加而下降，L则上升。精神病人的P、N分数都较高，L分数极高。EPQ有良好的信度和效度。

EPQ的中文版，在北方地区有陈仲庚等人的修订本，南方有龚耀先、刘协和等人的修订本。EPQ广泛应用于人格研究，较少应用于临床及其它场合。

6、序列系统法：人格研究表是杰克逊根据默瑞的需要理论设计的，共有22个量表。

7、投射测验是：人格评估的工具之一，它通过被试对模糊不清、结构不明确的刺激的反应，分析、推断其人格特点。它的基本假设是：一个人对暧昧不明、非结构化的刺激的反应，由于没有明确的情境线索、过去经验或他人的观点的影响，会反映出其自身独特的人格特征。刺激本身并不含有一定的意义，然而它们所引发的反应则是有特殊意义的。此一意义来自被试对测验刺激的主观解释和想法，在不知不觉中，投射出其心理上的需要、个性、情绪、动机、冲突、防御等内在状态。

8、投射测验的理论基础：投射技术的缘起和发展与心理分析理论有密切关系。投射测验的设计者常用心理分析观点作为指导来选择刺激，解释测验的结果。

（1）罗夏克墨迹测验（RIT）：是由瑞士精神病学家罗夏克编制的使用最广泛的墨迹测验。

1 1921年，他从所使用的墨迹中筛选出10张图片出版，这就是著名的RIT。在10张图片中，有五张是黑白的，有两张除黑白外，还有红色墨迹，其余的三张则为淡彩色,每张图片上的墨迹都是对称的。

2 实验的实施分为三个阶段：自由联想阶段、询问阶段、极限试探阶段。

11 RIT的计分和解释通常从三方面进行：

A. 反应的部位：测试者要根据被试是对墨迹图的整体、局部，B. 还是对空白处做反应，C. 将各反应分类。

D. 反应的决定因素：是指E. 被试做反应的依据，F. 包括形状、彩色、阴影等。

G. 反应的内容：指H. 被试回答的内容。

12 RIT主要适用对象是成人，但也克应用于三或五年级以上的儿童。

（2）主题统觉测验（TAT）：由默瑞和摩根在1935年编制出版。TAT的材料包括31张图片，其中一张为空白图片。图片中绘有主题不明确的一些图画，大多数图画中包含人物。测验者每次给被试看一张图片，要求他/她讲一个故事，在指导语中鼓励被试尽量发挥想象力。

（3）语句完成测验的程序是要求被试将一系列的句子补充成为完整句子。

9、对投射测验的评价：

（1）鉴于心理学家和临床工作者对人格的深层结构或无意识仍保持相当兴趣，投射测验作为相应的测量工具仍有其地位。因为其它人格测验根本就不以无意识内容作为测量对象。

（2）投射测验作为一种测验工具，在评分、解释的客观性及信度、效度等测量指标上有待提高。

（3）应该加强从事投射测验人员的训练工作。

10、主体测验：是一类非结构或半结构化的、随意而非伪装的人格评估技术。

（1）主体测验一般包括会谈和自我概念的测量。

（2）会谈从结构性质上来分，包括结构型会谈和非结构型会谈。

（3）语义区分测验（SDT）最早出自奥斯古德等人1957年的语义心理学研究。

11、 Q-分类或称Q-技术是：由司蒂芬森1953年创立的，用于单一被试前后测验结果的相关或两个人测验结果的相关分析。Q-分类对研究自我概念的变化特别有用。

第12章兴趣、态度和价值测量

1、在兴趣测量方面贡献最大的是：史特朗，他在1927年完成了第一个正式的职业兴趣量表。另一个主要贡献者是库德。

2、兴趣的研究：

（1）荷兰德认为：兴趣是个体人格的表现，个体对职业的选择受到动机、知识、爱好和自知力等因素的支配，但最主要的影响因素是兴趣和人格。荷兰德界定出六种主要人格或兴趣类型，与它们相应的是六大普通职业主题。

（2）罗伊认为，职业兴趣及职业选择的首要因素，是由儿童与家庭成员的关系造成的。一个温暖、和谐的家庭会使儿童成为“以人取向”者，而一个冷漠、疏离家庭中的儿童则具有“以事取向”的特点。职业选择的另一个维度是从“有目的交流取向”到“利用资源取向”。依据这两个连续的维度，可以对职业角色进行分类。

3、史-坎兴趣量表：其前身是史特朗职业兴趣量表（SVIB）。SVIB是由史特朗在1927年首先编制，当时仅适用于男性。专门为女性而编制的量表则于1933年出版。

4、总加量表：里克特1932年所设计的总加评定法在编制态度量表时较为简易。这种方法假设每一项目都具有同等量值，不同被试对同一项目反应上的程度差异可以进行分极评定。

fishindeepsea · 发表于 06-7-23 08:07:15

老徐真伟大.

houchunli · 发表于 06-7-23 14:34:05

好!

swemile · 发表于 06-7-23 21:31:39

大恩不言谢阿

zch502 · 发表于 06-7-24 16:29:30

真是太好了，你太伟大了，谢谢啊！！！！！！！！！！

		自动登录	找回密码
密码			注册