本帖最后由 东菱要考研 于 14-7-30 09:52 编辑
【声明】未得允许,禁止转载……粘贴到考试点的请尽快删除
1.书上92面说”标准差是平方根,不可以进行代数运算“,93面提到它的有点”适合代数运算“,哪个是对的,为什么?
答:总标准差的合成是先转化为方差进行合成,再开平方转化为标准差的。第一个说的是“不可以”进行代数计算,这应当是准确的。第二个地方实际是说标准差和方差的共同特征,看它举例时就说“方差或标准差”,标准差也有很多用途的,也可以将其平方转化为方差进行运算,所以用了“适合”二字。其实进一步的“运算”应当指的是“可加性”和“可分解性”,方差具备而标准差不具备。 这个问题其实可以忽略的。不会考到这种程度。
【笔版点评】1、教材前后自相矛盾,我等能怎么办?只好跳过。考试命题也会尽量避开这种有争议的地方。
2.P97标准分数的有点中提到”稳定性“:原始分数转换成标准分数后,规定标准差为1,保证了同性质的分数在总分中的权重一样。
---为什么标准差为1就保证了权重一样?
这个老师有举例,两科原本都100分,一科平均85,一科平均5,相加时权重就变了。这个理解,但是跟上面的解释对不上。
答:这里不是说标准差为1,就保证了权重一样。只要标准差相同,则权重一样。标准分数的标准差为1,分布中的每一个个体与标准之间的距离相等,所以权重是一样。先要理解什么是权重(权重是指该指标在整体评价中的相对重要程度。),标准差基本概念。
例子中,两科平均数不同,相加的时候首先要转化为Z分数,标准分数不同,加权时候权重自然不一样。例如99页例题考试成绩几门科目平均数不同,标准差不一样,加权时候权重也不相同。
通俗来说所谓权重呢就是重要性。比如一次考试中考了:英语、语文、还有选修的法律,可是在计算总分的时候这些数据的重要性不同。比如大学时候的学分,必修课乘以80%选修课乘以20%,这样必修课和选修课权重是不同的。
必修课的语文英语都是80%,那么这里权重是一样的。
标准差为1占了分布中的34.13%,那么相乘的时候都是这一个比率,重要性一样,所以说标准差相同权重一样。不理解?仔细回忆下分布图。
标准差描述了分布中的每一个个体与某一标准之间的距离,也就是每一个个体偏移某一标准的距离。这个标准便是分布中的均值。标准分数的标准差都是1,这样一来,标准差相同了,也就是每一个个体与分布中的标准之间的距离相等。
3.P172正态分布的应用中有一点是”测验分数的正态化“:当原始分数不服从正太分布时,先将原始分数的频数转化为百分等级,将其视为正态分布的概率,找对应Z值,转换成Z分数,达到正态化目的。正态化是利用改变次数的方法,将原来偏态分布中众数锁片的一边拉长。
---”改变次数的方法“要怎么理解呢?为什么转为百分等级--P---Z,就正态化了?p--Z,是标准正态分布中相对应的我理解。
答:正态化,采用一定的统计方法将非正态的原始数据转化为正态。将数据转化为百分等级p,然后就可以查表—正态分布表 知道了p数值,就可以查到对应的z值,这样就正态化了。
【笔版解答】将原始分数转化为百分等级,并没有将分数正态化。根据百分等级去查标准正态分布表,这一步才是将分数正态化。
4.“态度”是不是可以根据不同的标准划分为称名数据和顺序数据?
----因为讲义中在顺序数据是提到态度,顺序数据中(分成赞成,倾向赞成,中立,倾向反对,反对)也提到。如果按照这个意义的话,顺序数据,等距数据,等比数据都可以转为称名数据吗?(会丢失信息)
称名数据,等距数据,等比数据,顺序数据,这四个是按测量水平区分的,那是不是这四个都属于测量数据?“测量数据既可以是离散型数据也可以是连续型数据”是这么理解的吗?
答:顺序数据、等距数据、等比数据可以转化为称名数据。也不都属于测量数据,离散或连续,这是按照不同标准来划分的。有些数据类型或可以划分到其他。
【笔版解答】称名数据、顺序数据、等距数据、等比数据这四种数据的精度依次提高,高精度的数据可以转化为低精度的数据,但要损失一定信息。比如我可以把1米8以上的人全部称为“高个子”。
5.讲义P214提到统计表的种类中的第二种分组表:只有一个分类标志分组的统计表。但下面的例子是不是错了,有两个分类标志,一个是性别,一个是班别?
例子错误。复习中就应该有这样的批判性思维,哪怕书本老师都有可能出错。甚至久已形成的理论,做学问研究批判性思维是必不可少的。
6.关于条形图,老师讲的例子是“各年级英语通过率”,讲义中是“智商分布理论百分比”和“不同地区四季销售百分比”
----条形图是用于表示离散型数据,老师说“通过率”是离散型数据,我觉得不对。
另外关于被表示的离散型数据是指用横轴表示的是吗?比如年级,季度。如果是这样的话,智商怎么会是离散型数据呢?
答:条形图横轴表示类别,比如学习中优良中差,纵轴是数量轴。
离散型数据,这类数据任何两个数据点之间所取的数值个数是有限的。通过率显然并不适用此概念。
智商按照理论上来说,从最高到最低都可以细分,所以属于连续性数据。一般情况下计数数据大都是离散数据。
智商理论上来说是连续数据。不过仔细一想,也是可以用条形图。因为我们在普心中将人的智商分为7类:天才、优异、中上、中下、中才、中下、临界、智力落后。若是按照这一标准来划分,在这一情况下可以用条形图。
条形图横轴分类轴,分类就是类别,比如学习的优良中差,上述智商中的7等。季节属于离散数据,因为只有春夏秋冬嘛。类别不一定非要是“等级”。年级一二三四是分类,季节、智商七等都是类别。通过率肯定不是离散数据,这里所说的离散主要是分类轴。
(我手中并无那些讲义,所以上次回答欠周全)
7.确定测验题目难易度第四步把Z分数加5“得到从0-10的十选制。。”这个若不是十选制,比如100,那应该怎么处理呢?
答:同样方法。那个比如100,难度分数值不可能那么大。你可以结合实际思考。
测量中题目难度,难度计算公式通常用通过率表示,通常都是小数。加5只是为了去掉负号。
8.P186概率分布讲到样本平均数分布中总体分布为正态,方差未知,样本平均数的分布为t分布。
-----但是,前面提到t分布的平均值为0,而样本平均数的平均值是总体平均数,并不为0,这要怎么理解呢?
答:t分布的特点均值为零,这点没问题。
在总体分布为整体,方差未知的情况下,样本平均数的分布为t分布。t分布的形式随样本容量的变化而变化。无限多个样本平均数平均数就是总体平均数。
这里的t分布指的是典型的,但是从中抽取的样本随样本容量的不同形式也有所变化。样本的平均数有无限多个可能,但在做统计推断的时候是用样本估计总体。样本平均数只要计算就可以了,无论是何种类型数据。
所以t分布的均值为0,样本平均数的均值计算就可以了(有多做情况,有可能为0,跟样本容量有关的)。
【笔版解答】t分布和正态分一样,是一簇分布而不是一个分布,其平均数不一定是0.
9.P234例8-5用Z’检验,为什么分母不是除以n-1?
答:z检验和t检验基本公式。近似Z检验,公式同z检验。t检验分母才是n-1.
基本公式这是。
追问:——我理解的是,总体方差未知,用样本标准差代替总体标准差时是n-1。图上的这道题就是总体方差未知,用样本标准差代替总体标准差,那为什么不出于无偏估计,除以n-1呢?还是说由于样本容量较大,可以直接替代?
答:你有混淆了分类。
平均数的显著性检验分为三种情况:
第一种是:总体正态分布 总体方差已知 这时候用Z检验;
第二种:总体为正态分布,总体方差未知 用t检验;也就是你说的n-1。
第三种情况总体非正态,这时候只有n≥30时 才可以用近似z检验,n<30时,只能用非参数检验法.
近似Z检验。题目中的例题属于第三类情况,只有n≥30时,这里根本不会用t检验。样本容量小也只能用非参数检验方法了。Zt检验基本公式。N-1的那是t检验公式。
【笔版解答】可以参看帖子http://bbs.freekaoyan.com/forum. ... tid=749847#lastpost
10.我们说用T检验,Z检验,F检验等是因为相关分布属于或近似T分布,正太分布,F分布是吧?
P248积差相关系数显著性总体相关系数等于0时检验用T检验是因为这时样本相关系数r的分数是t分布吗?书上说是近似正态分布,为什么不用Z检验呢。
答:为什么不用z检验?因为总体ρ=0时候,r分布近似正态,ρ不等于零时候,r分布不是正态分布。
例题中总体相关系数是否为零未知,可能为0或许相关,所以才要对样本显著性检验,不用z检验。
【笔版解答】其实在“近似正态分布”的时候,用Z检验和t检验的结果是很接近的,两个方法都可以用。你可以试一试。
11.P300 例10-3卡方值为什么查0.005水平的呢?后面有一些例题也是这样。
答:为什么查0.005?这是根据检验所要求的标准,也可以用0..或0.05,但是用0.005,拒绝虚无假设时候犯错误概率为0.005不是更低?为了科学性。
12.
一元线性回归方程的检验
总自由度是N-1,误差自由度为N-2
---对于N-2的解释,有说“Y尖的计算用到Y拔和b,所以是去两个自由度”有说“用到a和b”哪一种是正确的呢?(我想的是用到X拔和Y拔)
答:嗯,像这样基本的公式记住就可以了,毕竟是应试。你若要细究,自由度指的是计算某一统计量时,取值不受限制的变量个数。这个公式中残差的和方,用到Y拔和b去两个自由度。
13.
回归方程的应用
用样本回归方程推算因变量的回归值,老师的PPT用到的是t,而书上用1.96,2.58,Z检验。到底是哪一个呢?
答:回归方程的应用有点预测和区间预测,点预测只需要带入回归模型;区间预测,要用t见教材377页公式。
14.
“对于适合用参数检验的资料,如用非参数检验会造成信息的丢失,犯第二类错误的概率增大”这么说是β增大,为什么这个概率会增大呢?
答:第二类错误又称取伪错误,虚无假设原本错误却接受。
似乎教材原文是说如果所得材料不满足参数检验前提条件,若冒险使用会增大错误结论的概率。答:第二类错误,也就是取伪错误,虚无假设原本错误却接受。
适合于参数检验的资料,用了非参数检验,丧失了很多有用信息,原本显著的具有可能变为不显著,这样犯第二类错误的概率增大。
这里重点在于丢失信息,(通俗的理解,比如有一个沙漏,一堆砂砾和细沙(数据),你有两种工具选择:一、小玻璃杯(参数检验),或网状杯子(非)。原本用玻璃杯去乘那些细沙就不会丢失,杯子能够装满。若是用了网状杯,里面细沙(一些信息)丢失了。那么原本可以满的就可能不满。(对于这题……统计实在复习不到位,只能类比,是否恰当?)
【笔版解答】这个问题过于复杂,本科生无法理解,建议不要追究。简单地说就是,在能用参数检验的时候用了非参数检验导致部分信息丢失,精度下降,所以犯错误的概率增大,所以β增大,α是你自己设定可以不变。
这里特意感谢笔版的解答,为了大家方便阅读,把笔版的解答放在了一起。另外,大家若发现有错误地方,欢迎指正交流…… |
|