本帖最后由 光爱哈赫 于 2011-9-4 23:53 编辑
注意:由于公式都是以图片形式保存的,所以这里显示不出来,Word和PDF版本是带全部公式的 《心理统计学》 前言 这门课占35分,结构一般是(9个单选+1个多选+1个简答或综合),不过每年可能不一样,分值权重感觉比测量要大一些,特别是大题,不过大致差不多。
心理统计学在心理学中的重要性不言而喻,如果说实验心理学的建立让心理学成为一门独立的科学,那么心理统计学可谓是最大的功臣。没有心理统计学提供强有力的科学数据。心理学的理论就仅仅是个理论,上不了台面。世界上只有一个东西不会撒谎,那就是数据,一个理论如果没有强大的数据支持,那么这个理论的可信度也就大打折扣了。所以心理统计学就承担了这么一个工作,为你的理论在数学上提供可靠的科学依据。
总所周知,高等数学是心理学本科的必修课之一,很多人认为心理统计学难学和数学不好有关,虽说心理统计和数学都是和数字打交道。不过,他们确真没多大联系。打个比方,学心理统计学就好比是学电脑,会使用就行(office的使用)。学数学就好比学编程,掌握程序的来龙去脉(编写office的程序)。心理统计学对于心理学是一种工具。学好这个是为了将来运用SPSS这些统计软件做准备的。
(当然,如果你追求更高层次的数理统计,硬要搞清楚这些公式怎么来的,也好,不过最好等考上了,再慢慢研究也不迟)
本宝典也好比是心理统计学这个工具的使用手册,不过还需两件神器:智力正常的人脑+按键正常的计算器(带统计功能)
这部分参考书目如下:
《心理学专业基础综合考试大纲》(2011年版)教育部考试中心
《心理学专业基础综合考试大纲解析》(2011年版)高教
《现代心理与教育统计学》 张厚粲 徐建平 北师大出版社(2004年版)
《心理与教育统计学》 邵志芳 上海科学普及出版社 (2004年版)
《心理学统考重难点手册》 2011第三版
《MJ心理大纲详解》(小白修订版) 白云子
《心理统计常用公式总结》
开始 一、描述统计 所谓描述描述统计,就是描述一组数据的全貌。(集中趋势,离中趋势,相关关系),也是推论统计的基础。 (一)统计图表 我们随便拿来一片实证研究的论文,里面都有统计图和统计表。可以把你整理的数据以最直观的方式呈现给读者,让读者一目了然。 在做统计图和统计表之前要先对你搜集来的资料进行初步的整理,对数据进行排序和统计分组 1、统计图 统计图一般采用直角坐标系,通常横轴表示自变量(类别),称为分类轴。纵轴表示因变量(次数),称为数值轴。 统计图一般由下面几个部分组成:(这个书上有图,一看便知)张奶奶P29 图号及图题;图目;图尺;图形;图例;图注 次数分布图
根据次数分布表绘制的图,更为直观。
直方图
矩形面积表示连续性随机变量次数分布的图性。没画矩形叫组织图。
次数多边形图
是一种表示连续性随机变量次数分布的线形图
累加次数分布图 根据累加次数分布表绘制而成,分为累加直方图和累加曲线图 2、统计表 统计表一般由下面几个部分组成:(这个书上有图,一看便知)张奶奶P28 表号;标目;数字;表注 次数分布表
简单次数分布表(数据个数和分布范围比较小的时候用)
依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。
分组次数分布表(数据个数和分布范围比较大的时候用)
数据量很大时,应该把所有的数据先划分在若干区间,然后按其数值大小划分到相应区域的组别内,分别统计各个组别中包括的数据的个数,再用列表的形式呈现出来。
编制步骤:
1、求全距,就是最大数和最小数之间的差距。
2、决定组距和组数,
组距(i),任意一组的起点和终点的距离,根据全距来定。全距大,组距也可以大一些,一般取2、3、4、5、10、20等。便于计算。如果先确定了组数,那么全距除以组数后取整也可以。
组数(K),分组数目,要根据数目的多 少来确定,如果数据在100个以上,一般分10—20组。
分组最优关系公式(总体正态): (N为数据个数,K为近似取整)
3、列出分组区间
就是组限,一组起点和终点之间的距离。组限有表述上下限(10—19;20—29)和精确上下限(9.5—19.499;19.5—29.499),一般书写时按照表述上下限,计算和分组时按照精确上下限。
4、登记次数(将数据等级到相应的组别内)
5、计算次数(计算各组次数和总次数并核对,然后写出组中值、次数、频数和百分次数)
相对次数分布表:用频数比率或百分数来表示次数
累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。
双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。
不等距次数分布表:工资级别,年龄分组
其它的统计图表
简单表
只列出统计指标名称
分组表
只有一个分类标志的统计表也叫单向表
复合表
分组标志有两个以上
条形图
主要用于表示离散型数据
圆形图
也叫饼图,用于表示间断性资料
线形图
更多用于表示连续性资料
(二)集中量数
用于描述数据分布中大量数据朝某个方向集中的程度
1、算术平均数
平均数的特点:
在一组数据中每个变量与平均数之差(离均差)的总和等于0
在一组数据中,每一个数都加上一个常数C,则所得的平均数为原来的平均数加常数C
在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以常数C
平均数的意义:
算术平均数是应用最普遍的集中量数,是“真值”最佳的估计值。所谓真值就是观测事物真值的值。当观测次数趋于无穷时,算术平均数趋于真值。
平均数的优缺点:
优点:
1、反应灵敏(任何一个值变动,都能反应出来)
2、计算严密(有确定的公式)
3、计算简单(简单的四则运算)
4、简明易解(概念容易理解)
5、较少受抽样变动的影响(观测样本的大小或个体大小的变化,对计算的影响很小)
缺点:
1、易受极端数据的影响(正因为反应灵敏,所以受极端数据影响大,可以通过剔除极端值的方法解决)
2、若出现模糊不清的数据时,无法计算平均数(如果缺少数据,一般采用中数代替)
书写时,注意比原来测量的数据多一位数字
计算和运用平均数的原则
同质性原则(不同质的数据不能算)
平均数与个体数值相结合的原则(不要忘记结合个体数值给予参考)
平均数与标准差、方差相结合原则(标准差小,平均数的代表性好)
2、中数
中数符号是以Md或Mdn,表示按顺序排列在一起的一组数据中居于中间位置的数,在这组数据中,有一半数据比它大,一半数据比它小。
计算方法:
一组数据中有重复数值的情况(算法不一样)【我用SPSS算过,其实还是直接算的】
重复数列不在中间时,没关系
重复的数列在中间时,有点难算,我总结了一种方法,保证做对。
无论是奇数偶数都适合,叫画线法,首先将数列排序,然后再中数的位置画一条线,奇数的会穿过数字,偶数的会划在两个数字之间,然后对这个数取精确上下限。标出下限所在的位置和上限所在的位置。最后中数就是精确下限加上这条线分隔的位置的比例(画线位置占了全距的几分之几)。就可以了。
(偶数)举个例子:11,11,11,11,13!13,13,17,17,18
线划在感叹号那,13的精确下限是12.5,叹号的位置是第一个三分之一处,所以就是12.5+0.33=12.83
中数的优缺点:
优点:
计算简单,容易理解
中数概念简单明白
缺点:
不是每个数据都参与计算,不能反映全体
反应不够灵敏,极端值的变化对中数不产生影响
中数受抽样影响较大,不如平均数稳定
中数不能进行代数运算
使用条件:
出现极端数据
分布两端数据或个别数据不清楚
需要快速估计时
3、众数
出现次数最多的那个数。掩盖的信息比揭示的多,一般应用不广泛。
计算方法:(皮尔逊公式需要接近正态,金式公式适合偏态)
众数的优缺点:
优点:概念简单明了,较少受极端数目的影响
缺点:不稳定,受样本变动的影响,反应不够灵敏,并能进行代数运算
使用条件:
快速粗略的寻找一组数据的代表值
当一组数据出现不同质情况时
次数分布中有两极端数目时,除了用中数还可以用众数
当粗略估计次数分布形态时,有时用平均数与众数之差
平均数,中数,众数三者的关系
正态分布中:平均数,中数,众数相等
正偏态分布:Mo < Mdn < M
负偏态分布:M < Mdn < Mo
(记住众数最高就行)
(三)差异量数
用于描述数据分布中大量数据彼此分散的程度
1、离差和平均差
离差就是离均差,是某一数据与平均数的差,表示每一个观测值与平均数距离的大小,正负号说明了偏差的方向,所以观测值离差的总和总是为0。
平均差就是所以离差绝对值的平均值。平均差充分考虑了每个数值的离中情况,完整的反应了全部数值的分散程度,在反应离中趋势方面比较灵敏,计算方法也比较简单。
计算公式:
2、方差和标准差
方差也叫变异数,均方。作为样本统计量用符号s2表示,作为总体参数用符号σ2表示,是离均差平方后的平均数。
标准差是方差的平方根。作为样本统计量用符号s表示,作为总体参数用符号σ表示。
计算方法:
方差:
标准差:
总标准差的合成
,
其中
方差和标准差的性质和意义
性质:方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。方差分析就是利用方差的这个特点。并进一步说明各种变异对总结过的影响
标准差是方差的平方根,不可以进行代数运算,但有如下特点:
每一个观测值都加一个相同的常数C之后,计算得到的标准差等于原来的标准差
每一个观测值都乘以一个相同的常数C,所得到的标准差等于原标准差乘以这个常数
以上两点结合如果先乘以一个常数,再加上一个常数,所得到的标准差等于原标准差乘以这个常数
意义:
方差与标准差是表示一组数据离散程度的最好指标,其值越大,说明次数分布的离散程度越大。它们是统计描述与统计推断分析中最常用的差异量数。
标准差的特点:
优点:反应灵敏;公式严密;计算容易;适合代数运算;受抽样变动小,简单明了
确定:易受极端数据影响
3、变异系数
变异系数又称差异系数,他是一种相对量数。
适用条件:
两个或两个以上样本所使用的观测工具不同,所测的特质不同
两个或两个以上样本使用的是同种观测工具,所测的特质相同,但样本间水平差异较大
计算方法:
使用须知:测量数据必须等距;测量工具具备绝对零;由于尚无有效的检验方法,目前不能进行推理统计。
(四)相对量数
1、百分位数
百分位数是指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比。第P个百分位数就是指在其值P的数据以下,包括分布中全部数据的百分之p。
2、百分等级
指一个分数在整个数据分布中所处的百分位置
3、标准分数
标准分数(Z分数):以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数,离平均数有多远,表示原始分数在平均数以上或以下几个标准差的位置,从而明确该分数在团体中的相对位置。
简而言之,标准差解决了一个大问题,分数经过标准化就可以放在一起比较了。高考分数就是经过标准化以后,所以可以直接相加。
计算方法:
,其中 X 为原始数据, 为平均数, S 为标准差
把原始分数转换成标准分数,就是把单位不等距和缺乏明确参照点的分数转换为以标准差为单位,以平均数为参照点的分数
标准分数的性质:
标准分数无单位,以标准差为单位,以平均数为参照点的分数
转换得到的标准分数可以是正值也可以是负值,所有原始分数的Z分数之和为0,,Z分数的平均数也为0.
将原始分数,转换为标准分数,是线性转换,不改变原有的分数的性质和分布。标准分数的形态和原分布相同。
若原始分数呈正态分布,则转换得到的均值为0,标准差为1的标准正态分布
标准分数的优点:可比性;可加性;明确性;稳定性
标准分数的应用:
比较几个分属性质不同的观测值在各自分布中的相对位置
计算不同质的观测值的总和或平均值,以表示在团体中的相对位置
表示标准测验分数
异常值的取舍(正负3个标准差以外的数据)
常用变式
T分数:T=10*Z+50 平均数:50 标准差:10
CEEB分数:CEEB=100*Z+500平均数:500 标准差:100
智商:IQ=15*Z+100(韦氏智力量表)平均数:100 标准差:15
(五)相关量数
前面讲的都是单变量数据资料的分布特征,相关则是用于描述双变量数据相互之间的关系。
相关就是变量间的不精确,不稳定的相互关系。
相关系数:相关关系强度的指标。作为样本的统计量用r表示,作为总体参数一般用ρ表示。是和平均数,标准差一样应用广泛的统计量。取值范围是[-1,1]。我们这里讲的相关是线性相关。当然即使是线性相关为0仍可能存在曲线相关。
1、积差相关
使用条件:两个呈线性关系的正态连续变量(正态,双变量,成对,连续,大样本)
计算方法:
,其中
N 为成对数据的数目, S x 、 S y 分别为 X 和 Y 的标准差
(变式)
原始数据:
计算积差相关系数的差法公式
关于平均数估计的方法,因为计算机的普及,这种方法已不再使用,考试应该也不会考
2、等级相关
使用条件:这是非参数相关方法,要求两个变量至少有一个是顺序水平。也就是积差相关不满足的,您就用这个。但是注意,凡符合积差相关的不用等级相关。这个精度低些。
计算方法:
,其中 D 为各对偶等级之差
直接用等级序数计算: ,其中 R X 、 R Y 分别为二变量各等级数
有相同等级时:
3、肯德尔等级相关
当要同时研究三个或三个以上变量的一致性或相关性时,可以使用肯德尔和谐系数
使用条件:至少是顺序水平
形式:
多个评定者对一组被试或评定等级的一致性
同一个评定者对同一组被试多次评定
计算方法:
有相同等级:
肯德尔U系数
适用于对K个评价者的一致性进行统计分析,处理的问题和W系数是一样的,知识所处理的资料不一样。还记得实验心理学的对偶比较法么,就是用该方法来计算相关系数
计算方法:
4、点二列相关与二列相关
当两列变量,一列是等比或等距数据,另一列是类别变量。要求这样的相关就需用到者两种方法
所谓二分变量指取值只有两种变量。包括客观二分变量和人为二分变量
客观二分变量:如性别,只有男女两种
人为的二分变量:如考试成绩分为及格和不及格。如果及格线是65分,有些人的成绩就会由及格变为不及格。所以说这种变量是人为的。
点二列相关
使用条件:一列总体正态,至少等距数据,另一列是客观的二分变量
计算方法:
,其中 是两个二分变量对偶的连续变量的平均数,
p 、 q 是二分变量各自所占的比率, p+q=1 , S t 是连续变量的标准差
二列相关
使用条件:一列总体正态,至少等距数据,另一列是人为的二分变量
,其中 S T 与 是连续变量的标准差与平均数, y 为 P 的正态曲线的高度
5、Φ相关
适用条件:当两个互相关联着的变量分布都是真正的二分变量时
计算方法:
后记 描述统计是推论统计的基础,所以必须认真看,认真背。有人问,要不要背公式,我认为基础公式必须牢记于心,就好像你上战场打仗,枪很好,但是却没子弹一般尴尬。掌握了统计原理,还怕背几个公式。其实也不多的。统计一旦考大题那可是30分那,所以千万不可掉以轻心。
介绍:
弗兰西斯·高尔顿(Francis Galton,1822年2月16日—1911年1月17日),查尔斯·达尔文的表亲(高尔顿为达尔文的表兄),是一名英格兰维多利亚时代的文艺复兴人、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和基因学家。 高尔顿一生中发表了超过340篇的报告和书籍,他在1909年被授与爵士。他在1883年率先使用「优生学」(eugenics)一词。在他于1869年的著作《遗传的天才》(Hereditary Genius)中,高尔顿主张人类的才能是能够透过遗传延续的。此外,他在统计学方面也有贡献,高尔顿在1877年发表的关于种子的研究结果中指出了回归到平均值(regression toward the mean)现象的存在,这个概念与现代统计学中的“回归”并不相同,但是却是回归一词的起源。在此后的研究中高尔顿第一次使用了相关系数(correlation coefficient)的概念。他使用字母“r”来表示相关系数,这个传统一直延续至今。同时他也发表了关于指纹的论文和书籍,被认为对于现代利用指纹进行犯罪搜查方面有很大的贡献。
|