心理教育与测量课后习题与答案

心理学慧老师 · 发表于 15-10-3 17:00:52

第一章心理与教育测量概论练习与思考

练习与思考：
1.与物理测量相比较，阐明心理测量的特点。
2.为什么人们不能象对物理测量那样容易接受心理测量？（此题为思考题）
3.如何才能证明心理测量的必要性和可能性？

解答要点：
１.（1）从依据的法则来说，心理与教育测量依据的法则在很大程度上只是一种理论。
　　　（2）从测量的内容来说，心理与教育测量的内容是复杂的，内隐的，其测量只能是间接的。
　　　（3）相对与物理测量的定量分析的精确度而言，心理与教育测量定量分析的精确度很低。

　３.（1）从心理与教育测量的理论基础来看，心理测量是可能的。
　　　（2）人的心理现象和知识水平如同其他一切物理现象一样是有差异的，这种差异既有质的方面，也有量的方面，因此有必要测定出这些差异的数量。
第二章心理与教育测量的产生与发展>>练习与思考

练习与思考

1.简述古代中国对心理与教育测量的贡献及其特点。
2.心理与教育测量从卡特尔到比内的发展过程中可以看出什么特点？（此题为思考题）
3.推孟和韦克斯勒在智力测验发展过程中各有什么贡献？
解答要点：

　１.在古代中国，在测验实践和测验理论方面都对心理与教育测量作出了贡献并具有自己的特点。
　　一、在测验实践方面的贡献。1、在能力测量方面。早在2500年前，思想家和教育家孔子凭自己的经验观察，首先评定学生能力的个别差异，并将人的智力分成中上之人、中人和中下之人三个等级。董仲舒已论及到注意测验。刘邵把人的才能划分为12种类型。6世纪中叶，中国江南出现了类似现在的婴儿发展测验的"周岁试儿"习俗。出现于清代的益智图、九连环可以认为是最早的创造力测验。2、在人格测量方面。孔子把人分为狂者、狷者和中行3种。刘邵根据阴阳、五行和形体的关系及其人的行为表现，把人的性格划分成12种类型。3、在教育测量方面。世界上最早的教育测量出现于中国西周奴隶时期。据记载，在西周的"国学"中已经建立具有相当系统性的教育测量制度。在汉代，考试制度、考试类型和考试功能方面都作了重要的发展。除了学校内部测量的自身发展以外，取士制度自汉以来的发展，客观上也对我国的古代乃至西方的教育测量发展起了促进作用。
　　二、在测验理论方面的贡献。孔子后约150年，大思想家孟子就指出了测量人类心理的必要性和可能性。他说："权，然后知轻重；度，然后知长短。物皆然，心为甚。"刘邵认为，人才鉴定对于知人善任、振兴国家事业具有重要意义。他说："夫圣贤之所美，莫美乎聪明。聪明之所贵，莫贵乎知人。知人诚智，则众材得其序，而庶绩之业兴矣。"
　　三、古代中国心理与教育测量的特点。第一、中国古代社会的心理与教育测量思想都是描述性的，而非定量的；第二、中国古代社会的心理与教育测量是分类式的；第三、注重对人作整体的鉴定和评价，并倾向于和人的道德品质联系起来。第四、是与教育中的因材施教及人才使用有着密切的联系，它从一开始就具有强烈的应用性质。

　３.　①推孟在智力测验发展过程中的贡献是他采用了比率智商的概念来表示智力水平的高低。
　　②韦克斯勒在智力测验发展过程中的贡献是：第一，他用离差智商代替比率智商，克服了比率智商的局限；第二，他编制的智力量表分为言语量表和操作量表两部分，不仅能够获得总体智力水平的信息，而且可以获得手测者智力优势的信息。

第三章经典测量理论的基本假设>>练习与思考

练习与思考：
1.简述"心理特质"的含义。
2.心理测量的误差来源主要包括哪些？
3.CTT模型及其假设的重要内容是什么？

答案要点：

　１.心理特质指表现在一个人身上所特有的相对稳定的行为方式，就是人的心理特质。可以从下面几个方面来理解：
　（1）特质是一组具有内部相关的行为的概括，具有一定的抽象性。
　（2）特质是"一种一般的神经心理系统，……它可以综合不同刺激，使人对这些刺激做出相同的反应"。
　（3）特质是一个人身上比较稳定的特点。
　（4）一个人的精神面貌（人格）是由多种特质分多个层次有机组合而成的。
　（5）特质可以决定一个人对特定刺激的反应倾向，可以对人的行为进行某种预测。

　２.心理测量的误差主要来自3个方面：测量工具、被测对象和施测过程。

　３.CTT模型是：经典测验理论假定，观察分数（记为X）与真分数（T）之间是一种线性关系，并只相差一个随机误差（记为E）。
　　　　即：X=T+E
　　其主要内容为：
　　　（1）若一个人的某种心理特质可以用平行的测验反复测量足够多次，则其观察分数的平均值会接近于真分数。
　　　　　　即：E（X）=T或E（E）=0
　　　（2）真分数和误差分数之间的相关为零。
　　　　　　即：ρ（T，E）=0
　　　（3）各平行测验上的误差分数之间相关为零。
　　　　　　即：ρ（E1，E2）=0

第四章测量信度>>练习与思考

练习与思考：
　　1.指出各种信度系数所对应的误差来源。

　　2.已知16人参加一次测验后在奇数题和偶数题上的得分情况，试用两种以上方法估计测量信度。(此题为思考题）
被　试 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
奇数题 32 40 42 28 35 30 41 28 32 34 26 34 36 25 40 41
偶数题 31 39 45 30 40 29 39 30 32 30 30 40 36 26 40 42

　　3.已知某态度量表用道题，被试在各题上得分的方差分别是0.80，0.81，0.79，0.78，0.80，0.82，测验总分的方差为16.00，求α值。（此题为思考题）
　　
　　4.怎样提高测量信度？

解答要点：　　
　１.对重测信度来说，其对应的误差来源有：
　　①所测量的心理特质不稳定；
　　②遗忘和练习的效果没有相互抵消；
　　③在两次施测的时间间隔里，所要测的被试的心理特质得到了学习和训练；
　　④两次测查的时间间隔不同在信度不同。
　　对复本信度来说，其对应的误差来源有：
　　①所用的复本不是真正的平行测验；②产生的迁移效应会影响信度的大小。
　　对分半信度来说，其对应的误差来源有：
　　分半的方法会影响测验的信度。
　　对同质性信度来说，其对应的误差来源有：
　　①题目间的相关性；②测验所测内容的单一性与异质性。
　　对评分者信度来说，其对应的误差来源有：

　３.
         =6/6-1[1-（0.80+0.81+0.79+0.78+0.80+0.82）
         =6/5×（1-0.3）
         =0.84

　　
　４.由于项目数量太少会降低测量的信度，所以，提高测量信度的一个常用方法是增加一些与原测验中项目具有较好的同质性的项目，增大测验长度。但是应该注意：
　　1.新增项目必须与试卷中原有项目同质。
　　2.新增项目的数量必须适度。
　　①适当增加测验的长度。
　　②使测验中所有试题的难度接近正态分布，并控制在中等水平。
　　当测验中所有试题的难度接近正态分布并控制在中等水平时，被试团体的得分分布也会接近正态分布，且标准差会较大，以相关为基础的信度值必然也会增大。
努力提高测验试题的区分度。
　　③努力提高测验试题的区分度。
　　④选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度。
　　⑤主试者严格执行实测规程，评分者严格按标准给分，实测场地按测验手册的要求进行布置，减少无关因素的干扰。

第五章测量效度>>练习与思考

练习与思考：
　　1.什么是测量的效度？它与信度的关系这样？
　　2.什么是内容效度？测验编制者和使用者应分别从哪几个方面来把握内容效度？
　　3.什么是结构效度？测验编制者和使用者应分别怎样把握结构效度？
　　4.什么的实证效度？它与内容效度和结构效度有何异同？
　　5.什么是效标和效标测量？
　　6.已知  若希望把效度系数提高到0.65和0.70，则测验长度要增加几倍？
　　
解答要点：
　１.（1）效度是指一个测验或量表实际能测出其所要测的心理特质的程度。
　　　
　　　①信度高是效度高的必要而非充分条件
　　当随机误差的变异（  ）减小时，真实分数的变异数增加，测验信度（  ）随之提高。信度的提高只给有闲变异数（  的增加提供了可能）至于是否能提高效度，还要看系统误差变异数（  的大小）。可见，信度高不一定效度就高。但一个测验要想效度高，真分数的变异数必须占较大的比重，即测验的信度必须高。
　　②测验的效度受它的信度制约
根据效度和信度的定义（  ）以及公式（  ）可得到：


　２.（1）内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。
　（2）测验的编制者和使用者应该从以下几个方面来把握内容效度：
　　①首先应该明确内容效度的含义；
　　②应该明确内容效度的应用范围；
　　③在使用时还要主要不要跟表面效度相混淆；
　　④对测验的编制者来说应该懂得确定测验内容效度的方法，明确确定内容效度的步骤。

　３.（1）结构效度是指一个测验实际测到所要测量的理论结构和特质的程度，或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。
　（2）对于编制者和使用者来说应该从以下几个方面来把握结构效度：
　　①首先应该明确结构效度含义；
　　②其次也应该了解结构效度的特点；
　　③应知道结构效度的应用范围；
　　④对测验的编制者来说应该懂得确定测验结构效度的方法，明确确定结构效度的步骤。

　　４.（1）实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。
　（2）实证效度与内容效度和结构效度一样都用于估计测验效度。
　（3）实证效度与内容效度和结构效度的不同之处在于：
　　①它们是估计测验效度的不同方面；
　　②它们的应用范围不同；
　　③确定它们的方法也不同。

　　５.（1）效标是衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得的我们所感兴趣的行为。
　　　（2）效标测量就是把我们所感兴趣的行为用数字或等级表达出来。

6题：
　　
　　得当效度系数提高到0.65时，测验长度要增加6.4倍；
　　当效度系数提高到0.70时，测验长度要增加20倍。

第六章测验的项目分析>>练习与思考
1.测验项目分析的作用是什么？
1.因为用测验的项目分析可以解决以下问题：
　（一）项目是否具有所预期的功能？对于常模参照测验，测题是否有足够的区分度？对目标参照测验来说，测题是否能充分地测量到教学的结果。
　（二）项目的难度是否得当？
　（三）项目是否有缺陷？

第七章测验常模>>练习与习题

练习与思考：
　1.试比较各种导出分数的优缺点。
　2.列举你所了解的各种测验的分数合成方法，并评价它们的合理性。
　3.选择常模团体与制定常模有什么关系？任何选择好常模团体？
　4.离差智商与比率智商的本质差异是什么？（此题为思考题）
解答要点：
　1.常用的导出分数有百分等级、标准分数、T分数。
　　百分等级
　　百分等级的优点：百分等级是一种相对位置量数，具有可比性，且具有易于计算、解释方便等优点，对一般教师、学生和家长来说，均能了解百分等级的意义，所以它较适用于不同的对象和性质不同的测验。另外，百分等级不受原始分数分布状态的影响，即使分数分配不是正态的，也不会改变百分等级常模的解释能力。
　　百分等级的缺点：
　（1）百分等级的单位不等，尤其在分配的两个极端。如果原始分数的分配是正态或近似正态分布，则靠近中央（平均数或中位数附近）的原始分数转换成百分等级时，分数之间的差异便夸大了，虽然原始分数比较靠近，但转换成百分等级后，却显示出很大的差异性；对接近两极端的原始分数，百分等级反应迟钝，即使原始分数发生较大的变化，也不能引起百分等级的相应变化，使得其差异被缩小了。
　（2）百分等级只具有顺序性，无法用它来说明不同被试之间分数差异的数量。它不适合计算平均数、相关系数及其它统计量数。
　（3）百分等级只相对于特定的被试团体而言的。因此在解释时不能离开特定的参照团体。被试得分不变，但参照团体改变了，百分等级值就可能发生变化。所以在报告百分等级时，一定要说明是相对于什么参照团体来说的。

　　标准分数
　　标准分数的优点：标准分数是一个抽象值，不受原始测量单位的影响，并可接受进一步的统计处理。具有可比性和可加性。
　　标准分数的缺点：由于计算中经常出现负数和小数，且单位过大（一个标准差单位），所以，使用起来不够方便。

　　T分数
　　T分数的优点：
　（1）具有等单位特点，便于工作进一步的统计分析。
　（2）正态分布下，可以利用正态分布表将各种导出分数与百分数等级分数作换算。
　（3）正态分布下，运用某种变式分数可以将几个测验上的分数作直接的比较。即使是非正态分布，也可运用由正态化的Z分数转换而得的变式分数进行直接比较分析。
　　T分数的缺点：
　（1）分数过于抽象，不易理解，正如在介绍麦柯尔的T分数时所提到的那样不为一般人所熟悉。
　（2）在非正态分布下，分布形态不同的变式分数，仍然不可以作相互比较，也不能相加求和。

　2.（1）临床诊断--直觉合成：在实际工作中，最常用的组合测验分数的方法是根据经验对测验分数作直觉的组合，这就好比临床医生，把各种化验、检验所获得的资料与实际观察所得的结果结合起来，根据经验作出诊断一样。象这种根据直觉的经验，主观地将各种因素加权，而获得结论或预测的方法叫作临床诊断。
临床诊断--直觉合成的合理性表现在：
　　①具有高度的综合性。它允许我们从整体上来考察问题，充分考虑各测验所测特质间交互影响，各测验上所得分数的对比关系与组合类型的结构特点，测验分数与实际反应表现其中的生动关系等。
　　②具有灵活的针对性，能就特定的个人作具体的结论。而一般的统计方法具有常模性，常模性的统计模式难于适应每个个体所具有的独特性，更难于适应非典型的新颖形式。

　（2）加权求和合成：如果各个测验所测特质间相互代偿作用，这些测验上的分数又是连续性资料，并能大体同时获得，那么可以采用加权求和的立法对分数进行合成。
　　加权求和合成的合理性表现在：
　　将变量做了等量加权后适合于各测验对预测效标具有同等重要性的场合，根据各个变数与效标之间的经验关系作差异加权后适合于各测验对预测效标具有不相等的场合。

　（3）多重回归：多重回归就是研究一种事物或现象与其他多种事物或现象在数量上相互联系和相互制约的统计方法。
　　多重回归的合理性表现在：

　（4）多重划分：多重划分就是在各个特质上都确定一个标准，从而把成绩划分为合格与不合格两类。在一个测验上合格了，不能保证总的要求一定能合格。只有每个测验都合格时，总要求才算合格。
多重划分的合理性表现在：

　3.选择常模团体与制定常模的关系：制定常模首先要确定出常模团体。
　应该这样选择常模团体：
　（1）群体构成的界限必须明确。
　　在确定常模团体时，必须清楚地说明所要测量的群体的性质与特征。虽然有关常模团体的一般规定取决于测验的目的与使用，且可能有多个常模团体。但对每个常模团体的性质和特征必须有一个简短而明确的描述，若群体过大，群体内部也许有许多小团体，它们在一个测验上的表现也时常有差异，假如这种差异较为显著，就必须对每个小团体分别建立常模。例如，艾森克个性预测（EPQ），就是分性别，以不同年龄组而建立常模的。

　（2）常模团体必须是所测群体的一个代表性样本。
　　当所要测量的群体较小时，将所有的被试逐个测量以得到常模。在群体较大时，则不可能如此，只能测量一部分被试作为群体的代表，此时就存在取样是否具有代表性的问题。如果常模团体缺乏代表性，将会使常模资料产生偏差，从而影响到测验结果解释的准确性。为了克服取样偏差，保证具有代表性，一般在抽样时应遵循随机化原则，采用统计学的方法抽取样本。关于具体抽样方法，可参阅有关统计学著作中的抽样推断部分。

　（3）取样的过程必须明确且有详尽的描述。
　　取样的过程必须明确且有详尽的描述，这主要是为了使测验的使用者不至于误用测验和错误地解释测验结果，所以在一般的测验手册中，都有相当篇幅详细介绍常模团体的大小、取样策略、取样时间以及其他有关情况。这些说明和描述越明确、越详尽夜好。

　（4）样本大小要适当。
　　所谓"大小适当"并没有明确的指标。根据统计学原理，取样误差与样本大小成反比。所以，在其他条件相同时，样本越大越好。但是还应考虑到人力、物力等方面的因素，通常在决定样本大小时，应注意：
　　①总体的数目。总体数目小，样本相应可小些，但不应过小，若总体过小，则可将全部被试入选；当总体较大时，相应样本也大。

　　②群体的性质,如果群体性质单一，则样本不必太大，即可以反映群体性质；若群体性质复杂，则样本容量（n）就应大一些。

　　③测验结果的精确度。根据统计学原理,抽样误差的大小与样本容量成反比，若要提高精确度，即是说减低抽样误差，就必须加大样本容量（n）。

　（5）常模团体必须是近时的。由于当今教育发展迅速，所以建立的常模必须是近时的，过时的常模是不能作为参照标准的，一个常模不能一劳永逸地使用。

　（6）注意一般常模与特殊常模的结合。测验手册上所列的常模通常为一般常模，它的使用范围比较广。有时对于某些特殊的群体不一定完全适用。因此，测验在希望使用更为具体的、适合特殊情况的常模。即特殊常模。将特殊常模与一般常模结合起来，可使被试与最接近的群体进行比较。因为各个具体群体在某些方面是独特的，它的成员将与测验手册所列的常模团体成员不符。所以，依据一般常模解释所得的结论可能不够恰当，如果将两者结合使用，解释分数便会更加准确。但特殊常模只提供有关特殊信息，适用范围较窄。所得结论不能在广泛的背景作解释。

第八章心理与教育测验的编制与实施>>练习与思考

练习与思考：
　1.结合实例简述编制一个心理测验的基本程序。
　2.阐述实施心理测验应注意的问题。
　3.如何正确解释测验分数的意义。
　4.论述向当事人报告测验分数的基本原则。

解答要点：
　１.编制一个可供使用的标准化的心理与教育测验，一般要经过以下几个步骤：
　　①确定测验目的。②制定编题计划。③编辑测验项目。④预测与分析。
　　⑤合成测验。　　⑥测验标准化。　⑦鉴定测验。　　⑧编写测验说明书。

　2.①施测前应做好准备工作；
　　②指导语应不要暗示受测者应该选什么；
　　③进行测验时不能受到外界和施测者的干扰；
　　④评分时要客观公正。

　3.①主试应充分了解测验的性质与功能。②对导致测验结果的原因的解释应慎重，谨防片面极端。③必须充分估计测验的常模和效度的局限性。④解释分数应参考其他有关资料。⑤对测验分数应以"一段分数"来解释，而不应以"特定的数值"来解释。⑥对来自不同测验的分数不能直接加以比较。

　4.①使用当事人所理解的语言。
　　②要保证当事人知道这个测验测量或预测什么，这里并不需要作详细的技术性解释。
　　③如果分数是以常模为参考的，就要使当事人知道他是和什么团体在进行比较。
　　④要使当事人认识到分数只是一个估计。
　　⑤要使当事人知道如何运用他的分数。
　　⑥要考虑测验分数将给受测者带来什么影响。
　　⑦测验结果应向无关的人员保密。
　　⑧对低分者的解释应谨慎小心。
　　⑨报告测验分数时应设法了解当事人的心理感受，并采取适当的措施加以引导。

第十章目标参照测验>>练习与思考

练习与思考：

1.请根据表10.3中专家评定结果的平均数对表中14道题目的内容效度进行评定，并决定题目的取舍。
2.目标参照测验的题目区分度可以通过哪些方法来确定？
3.目标参照测验的信度与效度为何不适宜以相关系数作为评价指标？
4.试比较目标参照测验与常模参照测验的异同。
5.试分析内容范围的界定在目标参照测验的标准化过程中的重要性。
6.试分析分数分界点在目标参照测验的质量评估中的作用。
7.试分析题目内容效度与目标参照测验的内容效度间的联系。

解答要点：

　１.首先进行专家的取舍。由于第二位专家在所有题目上所评等级与各等级平均数之间的差异之和较大，因此可以不考虑该专家的意见，只保留另外八位专家的评定结果，并重新计算这八位专家评定结果的等级平均数。
　　其次根据八位专家评定结果的等级平均数对每道题目进行评定，并决定题目的取舍。等级平均数越高，说明题目内容与其欲测量的目标内容之间的匹配程度越高，即内容效度越高。题目2、7、14、4、12、5、11的内容效度很高（等级平均值均在4以上），可以得到完整的保留；题目1、3、6、9的内容效度较高（等级平均值均在3-4之间），适当修改后即可；题目8、13、10的内容效度较差（等级平均值均在3以下），一般需做较大修改或直接删除。

　２.目标参照测验的题目区分度可以通过计算题目的难度差值和题目得分与测验总分之间的相关系数来表示。难度差值包括掌握组-未掌握组鉴别指数和个人获得指数两种。

　３.相关系数受到受测者团体异质性的影响，团体的异质性越高，测验分数的分布就越广，所计算出来的相关系数就接近真实值。由于目标参照测验的目的在于了解个体在所测内容上的掌握水平，因此大多数情况下，被试团体在目标参照测验上的分数分布比较集中，并且绝大多数被试都能够达到所要求的水平。如果用相关系数作为信效度指标，由于受到分数分布的影响，即使该测验本身具有较高的稳定性和一致性，所得的信度系数也会和低，所以目标参照测验的信度与效度不适宜以相关系数作为评价指标。

　４.常模参照测验的目的在于度量和比较个体之间的差异，并以被试在团体中的相对位置来评价和解释测量结果。目标参照测验的主要目的则在于了解个体在所规定的测量内容上的行为水平，其出发点是个体本身的绝对水平，而不再是个体间的水平差异。由于测验性质的不同和受测人群可能存在的差异，两种测验的项目分析和信效度评估需采用不同的方法和评价指标。另外，目标参照测验通常要根据切割分数线对被试进行分类，所以在目标参照测验中对分数分界点的确定具有十分重要的意义。

　５.从目标参照测验的定义来看，构成测验的各个项目是否合适，测验是否有效，测验的分数是否能够得到有意义而准确的解释，这一切的前提都在于测验有没有明确的目的以及与之相应的严格界定的内容范围。因此对于目标参照测验而言，测验编制的前期过程，尤其是内容范围的确定十分重要。

　６.在目标参照测验的实际应用中，常常要根据分数分界点来判断某考生是否达到了升一个年级或毕业所要求掌握的最低知识技能水平，或者是否达到了从事特定专业工作所需的最低水平。这个分数分界点的确定科学与否，直接决定了我们最终决策的正确与否。因此分数分界点在目标参照测验的质量评估中具有十分重要的作用。

　７.题目内容效度与目标参照测验的内容效度之间有着重要的联系。要确定目标参照测验是否有效，必须首先要对构成测验的每一个题目是否合适以及有效性进行分析，即检验题目与测验内容范围所要求的内容与目标的一致性。目标参照测验注重被试在其所测内容范围内的掌握程度，测验本身的题目组成对其欲测的内容范围的覆盖程度或代表性程度--即测验的内容效度-- 显得尤其重要。

第十一章学绩测验>>练习与思考

练习与思考：

1.结合实际的测验例子试述学绩测验的性质和作用。

2.就《心理与教育测量》前10章内容，设计一份测验编制计划。(此题为思考题）

3.标准化学绩测验的标准化要求有哪些？如何才能做到？

４.举例说明诊断测验如何实现它的诊断功能？（此题为思考题）

５.题库的基本要求是哪些？你认为建设题库有些什么好处？

６.就你的经验谈谈教师自编测验存在哪些不是？改进的途径是什么？

解答要点:
　1.学绩测验是对个体在一个阶段的学习或训练之后知识、技能的发展水平的测定，学绩测验与能力测验一样在测量学中属于最佳行为测验,其所测对象为个体的认知性心理品质，主要包括知识能力两个方面。学绩测验有时也用来预测被试在今后的学习或工作中的成就，但是它与一般的性向测验有所不同。
　　学校使用学绩测验鉴定学生的学绩成绩以及辅助本学校的教学管理；现代社会的人事管理中的人员取录、晋职提级常以学绩测验成绩作为重要的评价标准；教育科学研究工作者利用学绩测验信息评价教育决策、优选教育方案。

　3.标准化学绩测验的标准化要求包括:
　　（一）命题组卷标准化。标准化试卷的试题测量目标明确，语词意义清晰、试题难度、区分度达到规定标准。全卷的结构与测量的目标一致，题型比例恰当，题量适度，试题难度分布符合规定要求，试卷的信、效度都达到规定标准。
　　（二）施测标准化。标准化测验必须在统一标准的环境下施测，统一标准环境包括测验场所的标准统一、测验时间统一、测验的指导语统一、提供给考生的测验材料统一、材料出示的顺序统一。
　　（三）评分标准化。标准化测验的答案要正确、规范、唯一，评分规则应尽量细致、客观、最好是没有伸缩性。
　　（四）测验分数解释标准化。对于常模参照测验，必须编制好测验常模；对于目标参照测验必须认真研究教材和教学大纲，分析合格标准的确切含义，通过调整试卷难度结构准确划定合格分数线。

　5.题库的基本要求包括：
　　（1）植基于一种科学的测量理论；
　　（2）储备有一定数量的试题，所有试题品质优良，技术参数完备；
　　（3）题库内容结构层次清楚、分类严谨，试题检索方便；
　　（4）题库管理方便、可控性强、易于维护更新；
　　（5）保密性强，应用题库组拼标准化学绩测验的试卷，具有经济、高效、保密性强等优点。

　　6.（一）教师要深入研究教材，深入调查学生。仅凭经验命题容易形成所测内容往往只涉及自己熟悉的或自己注重的内容，考试对象只以自己熟悉的或亲近学生为代表，这样会造成命题试卷内容部全面，或脱离学生实际。
　　（二）要维护准确稳定的合格标准。所谓准确就是要保证凡被评为合格的学生确实都是达到教学基本要求的人，凡被评为部合格的学生确实是未达到学科基本要求的人，要尽量减少误判之处；所谓稳定，就是在各次测验中都维持同一个合格标准，不能忽高忽低。
　　（三）要客观评价自己的命题技术，合理使用各种题型。定向反应型试题命题技术要求比较高，没有一定的命题经验和技术，编写定向反应型试题，有时反而会达不到预期的要求。
　　（四）要注意总结命题经验，提高命题技术。教师要通过不断总结成功、反思失败，逐渐掌握命题的各种技巧。总结命题经验还具体包括不断积聚优秀试题，不断充实个人的题库。
　　（五）要尽量控制评分误差，防止简单粗糙。教师自编测验应防止评分简单粗糙、草率从事，要防止简单地以对错判分，特别是对于自由反应型试题评分应详细分析学生的作答过程，评价他的思维方式和思维水平。
　　（六）要做一些定量分析研究。教师在自编测验施测后对试卷做一些定量的分析研究，比如计算试题难度、区分度、信度、效度等，可以逐步总结命题经验，提高命题技术。

第十二章能力测验(上)>>练习与思考

练习与思考：

1.试谈智力测验的效度问题。

2.智力测验的功能是什么？

3.为什么说"智力测验前并非人人平等"？

4.试析智力测验存在的合理性。

5.试析智力的形式与发展过程中的遗传与环境的关系。(此题为思考题）

解答要点：
　1.结构效度方面，传统的智力测验是在智力G因素论的基础上编制的，但G因素论仍存在很多问题。关于智力测验的结构效度，目前只能做狭义的解释，即以不同智力理论模型为基础的智力测验，其结构效度应具备不同的含义，并且最终对测验结果的解释也相应不同。
　　预测效度方面，智力测验对个体的未来成就进行预测时，首先假定所测的智力是个体相当稳定的特质。但事实上智力会因为某些因素而发生变化。由于智力的可变性，利用智力测验来预测个体今后的可能成功程度的效能有被夸大的可能。

　2.传统智力测验的功能是对智力的个体差异的测量，在实际应用中常常行使将人群分类的功能。传统智力测验也常被用做预测源测验行使预测的功能。

　3.智力测验存在着性别差异、职业差异文化和教育差异。
有研究表明男性和女性在不同的能力因素上存在着差异。而一般的智力测验都包括多种性质的题目，有些可能更适于男性，有些则更适于女性，因此智力测验本身的内容和结构对男女两性未必公平。
　　关于智力的职业差异的异类研究表明不同职业的人在智商上具有明显的差异，这可能是由于传统的智力测验并不能全面反映人的各方面能力的原因。而仅以智商高低来判断人的智愚也是不充分的。
　　智力测验结果反映出来的城乡差异和种族差异，并不能完全归因于城乡或种族本身由遗传引起的差异，事实上文化和教育因素可能在此起了主导作用。

　4.智力具有稳定性，这种稳定性表现在个体智力在其相应团体中的相对位置长时期内保持稳定，个体智力的相对稳定性为智力测验具有一定预测效度提供了可能性；智力测验被实践证明对学生和职业等效标的预测具有较好的效度，可以有效地帮助决策者提高决策正确率；尽管智力测验对不同团体可能存在不公平，但我们更应该看重其预测效度；至尽仍无更有效的智力评估工具。

第十三章能力测验(下)>>练习与思考

练习与思考：

1.能力倾向测验与智力才而言、成就测验之间有何不同？

2.能力倾向测验与特殊能力测验在应用上有何区别？

3.现在流行的创造力测验依据的理论基础是什么？

4.试分析社会发展与需要在能力测验的产生和发展中的影响。（此题为思考题）

5.试分析创造力的实质与表现。（此题为思考题）

解答要点：
　１.成就测验是对个体过去学习经验的总结；智力测验的主要目的是预测，但它所做出的预测比较笼统，针对性较弱。能力倾向测验则是对个体在不同能力因素上潜在的优劣倾向的测量，它的预测的目的性更强，试图说明个体在多种能力上的潜在优势。

　２.能力倾向测验可以从不同能力因素上来评估个体，但如果只用于测量某一种特殊的能力，成套的能力倾向测验就显得有些累赘，而且不够充分。特殊能力测验是针对一种特殊能力所包含的各个方面因素进行测量，其性质介于成就测验和能力测验之间，测量的目的既想了解个体在此专业领域的既有水平，又想预测个体今后在此专业领域成功的可能性。

　３.现在流行的创造力测验依据的理论基础是吉尔福特的关于智力结构的理论。吉尔福特认为在智力操作维度上存在着聚合与发散两种不同类型的思维，而创造力的核心正是发散思维能力。

第十四章人格测量>>练习与思考

练习与思考：

1.试综合比较自陈量表和投射测验的异同。

2.查阅有关人格心理学著作，讨论人格的理论研究对发展人格测量技术的作用。（此题为思考题）

3.查阅有关文献，分析中国人格测量研究的现状和特点，并论述你对开展人格测量与研究工作的看法。（此题为思考题）

解答要点：
　1.自陈量表采用客观测验和纸笔测验的形式，事先根据操作性定义编制好许多有关某些人格特质的问题，要求受测者根据自己的实际情况逐一回答这些问题，并用此来衡量受测者在这些人格特质上的表现的一种人格测量工具。它的项目形式一般采用是非式，记分比较客观，施测较简单，测量分数容易解释。投射测验是向受测者提供一些未经组织的、意义模糊的标准化刺激情景，让受测者在不受任何限制的情况下，自由地对刺激情景做出反应，然后分析这些反应，推断受测者的人格特征的一种人格测量手段。
　　投射测验的测验材料没有明确的结构和确切的意义，受测者对测验材料的反应不受限制，可以根据自己对测验材料的理解做任何想象式的解释。其测验的目的具有隐蔽性，测验结果的解释重在对受测者的人格特征获得整体性的了解，可广泛用于人格的跨文化研究。投射测验的最大局限在于记分上的困难，并难以进行定量分析。

第十五章其他心理与教育测验>>练习与思考

练习与思考：

1.如何理解焦虑？常用的焦虑测量工具有哪些？

2.职业兴趣测验的量表发展趋势是什么？如何评价职业兴趣测验在职业选择中的作用？

3.态度和品德测量的常用方法有哪些？优缺点何在？

解答要点：
　1.　焦虑是一种正常的、具有适应意义的负性情绪体验,它可以是一时的情绪状,也可以内化为稳定的个体情绪特质。严重的、持续的焦虑可能形成病态人格。常用的焦虑测量工具有《显性焦虑量表（MAS）》、《状态--特质焦虑量表（STAI）》、《测验焦虑量表（TAI）》、《贝克焦虑量表（BAI）》、《汉密顿焦虑量表（HAMA）》等。

　2.职业兴趣量表后期主要是对先前的量表进行完善和修订，比如增加一些职业量表、增加问卷的有效性指标，寻求提高测验效度的办法等等。职业兴趣测验在职业选择中具有一定的指导和参考作用，其测验结果表示个体可能更适合于某类职业，而不适合于另一类职业。但注意兴趣是可以培养和改变的，所以职业兴趣测验的结果不能作为选择职业的唯一标准。

　3.态度测量的常用方法有《等距量表》法、《利克特量表》法、《哥特曼量表》法等。
　　《瑟斯顿量表》在主题比较清楚、调查范围不广的态度问题调查上效果较好，其不足在于：制作过程复杂；用中位数代表态度等级不一定适合；专家的意见不一定能代表一般人；等距量表是否真正等距也不一定。《利克特量表》的优点是制作简单，而且能广泛接受与态度有关的项目；另外可通过增加项目提高效度，并允许受测者充分表达态度的强烈程度。不足在于相同的态度分数者可能持有不同的态度模式，从总分只能看出一个人的赞成程度，而无法对态度差异做进一步的解释。《哥特曼量表》法的优点是由单向性带来的态度分数与态度结构的一致性。缺点是编制困难。
　　品德测量的常用方法有情景测验法和问卷测量法等。
情景测验法的优点在于受测者参与测验的兴趣较高，主动性强，能够较具体、较真实地反映品德的某个方面的特征。缺点是涉及面窄，难以反应品德的多方面内容。问卷测量法的优点在于施测简单，标准化程度高，能够测量品德的多方面内容。缺点是由于品德问题过于复杂，难以测量以及这方面研究不够深入给问卷的编制带来了很大困难。

第十六章测量的综合应用>>练习与思考

练习与思考：

1. 心理与教育测量在心理咨询中的应用有哪些主要的应用领域？有哪些测验可以利用？

2.心理与教育测量在人事测评中有哪些主要应用领域？有哪些测验可以利用？

3.心理与教育测量在教育评价中有哪些主要应用领域？有哪些测验可以利用？

4.我国心理与教育测量在三种应用领域还有哪些要完善或填补空白的地方？（此题为思考题）

解答要点：
　1.　心理与教育测量在心理咨询中主要应用于个人的自我认识、人生规划咨询以及心理障碍（神经症、人格障碍等）咨询等领域。常用于个人的自我认识、人生规划咨询的测验主要有《卡特尔16种人格因素测验》、《YG性格测验》、《艾森克人格问卷》、智力测验、一般能力倾向成套测验和一些单项特殊能力测验。常用于心理障碍（神经症、人格障碍等）咨询方面的测验主要有《明尼苏达多项人格问卷》、《艾森克人格问卷》、《症状自评量表》等。

　　2.心理与教育测量在人事测评中主要应用于个人的心理特点的评估、人员培训后的心理特点评估和工作人员的效绩评估等领域。常用于个人的心理特点的评估的测验主要有《韦克斯勒智力测验》、《瑞文标准推理测验》、《斯特朗-坎贝尔兴趣问卷》、《库德兴趣调查表》、《卡特尔16种人格因素测验》、《YG性格测验》、《艾森克人格问卷》、以及一些专业知识技能测验和特殊能力测验。工作人员的效绩评估方面有PM量表。

　　3.心理与教育测量在教育评价中主要应用于测量学生的学习与发展状况、对教师与管理者的评价领域中。常用于测量学生的学习与发展状况的量表主要有哈特松的诚实测验、柯尔伯格的道德发展水平测验、成就动机量表、学习适应性量表、《韦克斯勒智力测验》、《瑞文标准推理测验》、《一般能力倾向成套测验》、《托伦特斯创造思维测验》、《学习能力测验》、《自我职业指导问卷》、《卡特尔16种人格因素测验》、《YG性格测验》、《艾森克人格问卷》等等。

		自动登录	找回密码
密码			注册

[考研资料] 心理教育与测量课后习题与答案