Free考研资料 - 免费考研论坛

 找回密码
 注册
打印 上一主题 下一主题

[心理统计] 关于皮尔逊积差相关的适用范围

[复制链接]
跳转到指定楼层
楼主
在豆瓣上看到一篇蛮有趣的文章(好吧我闲的= =),然后作者为了吐槽某篇把星座跟运动员水平拉到一起的报道做了这么一个计算:

按照星座在一年中的时间顺序,以摩羯座为第一,依次标记(相邻星座的时间间隔正好为1个月):
摩羯座60人 1
水瓶座45人 2
双鱼座44人 3
天蝎座33人 11
白羊座30人 4
狮子座30人 8
天秤座29人 10
射手座26人 12
金牛座25人 5
巨蟹座25人 7
双子座24人 6
处女座20人 9
然后我们通过皮尔逊相关的计算公式计算星座的时间顺序和星座的人数之间是否存在相关,得出两者的相关=-0.681(p值=0.015,显著)。也就是说,星座的时间顺序和星座的人数之间存在中等强度的相关,大体上,越靠前的星座(实际月龄越大),参加奥运会的人数越多。(下面是“相关与因果不是一个概念”的反驳,大意是反驳星座说的,这个省略)

但在这里我有点不明白的是,这个例子可以计算皮尔逊相关系数吗0 0(我自己是想说是不是算斯皮尔曼相关系数比较恰当一点…

我问了作者,他给出的回答是这样的:
“如果单纯只是用于描述性的目的,即两组数据之间呈现的线性关系,是不需要满足某些前提条件的。在文中的例子里,样本即总体,我得出的中国代表团的人数与星座时间顺序的关系只用于描述这个代表团,并不是要推广到更大的群体中去。我只是拿一个样本来验证一个已经得到实证的结论,而不是相反。——更简单点说,铅笔的长度和铅笔的重量这两个变量都不是正态分布的,但是可以计算它们的相关=1。

如果涉及到推广结论时,则应具备如下前提条件:1、独立随机抽样;2、每个变量都是在等距或等比量表上测量且总体正态分布;3、两个变量一起满足二元正态分布。当样本量大于30时,后两个条件通常被忽略。”

用于描述性目的就可以忽略前提条件吗…QAQ
我不明白…求解答求鉴定QAQ

沙发
横竖都是二 发表于 12-7-25 11:59:39 | 只看该作者
挺扯的,统计的最终目标还不是科学的描述一个事实,如果统计的使用没有科学性前提的话,还用来干什么呢?pearson相关也一样啊,按照作者的话来说,人的身高和猪的体重还具有相关性呢,都是随着年龄的增长而增长
板凳
loc 发表于 12-7-25 23:40:29 | 只看该作者
这个有点意思。作者太扯了,完全是忽悠人。

没看原文,根据你的叙述,我认为他犯了几个错误:
1、数据类型不合适
所谓的“星座时间顺序”并非顺序数据,而是称名数据。
依“月龄”排序本身就很荒谬,“月龄”不能说明任何时序或量上的差异,就像班级号一样。而要想赋予星座时序,就必须限定它的年份范围,譬如,限定在1990年度:将该年度的星座按时序排序获得顺序数据——其本质就是月份(运动员的出生时段)。
另一方面,就算我们获得了一列顺序数据,计算顺序数据和计数数据之间的皮尔逊相关也是不恰当的。此时,使用斯皮尔曼相关更好:在这里,我们会得到12对数据,星座(运动员数量等级,时序等级)。
用这12对数据进行对同年度内星座时序与属于该星座的奥运会运动员数量之间的相关分析。这话有些拗口,通俗说来,我们就是想看看,同一年内,时间上靠前的星座是否会拥有更多的奥运运动员(或者相反或者没啥关系)。注意,不能理解成同一年内出生在靠前星座的人会更容易成为奥运运动员,因为完全有可能是由于摩羯座内出生的人更多从而使该星座的奥运运动员更多,我们能做出的合理结论仅仅是:出生在该年的奥运运动员更倾向于拥有靠前的星座(假设有一个负相关)!
依你的叙述,这个作者似乎是想反驳某个星座理论,很大程度上他是失败的。该理论也许只做了一个拟合度卡方检验,实际上,就本帖来说(星座作为称名数据),拟合度卡方检验表明显著(0.01),你可以自己算一下。星座的运动员数量之间确实有显著差异。
2、总体混淆
该作者所谓“样本即总体”“描述性的目的”都是扯淡。按他的说法,“总体”基于“中国代表团”,而作为相关数据,他得到的是:星座(“月龄”等级,运动员数量)。你说这两个变量的总体各是什么?
这也是我认为应当使用拟合度卡方检验的原因之一,具体什么原因你想想就知道了~~~打字打累了。

至于他给你的解释,这个作者浆糊脑袋,不要听他的。各个统计方法的前提书上都写得很明白,他的目的再怎么具有“描述性”,也不能用皮尔逊相关来处理称名数据吧?
地板
 楼主| 追毛线团的猫 发表于 12-7-27 20:24:53 | 只看该作者
loc 发表于 2012-7-25 23:40
这个有点意思。作者太扯了,完全是忽悠人。

没看原文,根据你的叙述,我认为他犯了几个错误:

额,其实作者最开始就全部中国奥运冠军在各星座的分布做了一个拟合度卡方检验,得出了没有显著性差异的结果,然后接下来分析中国代表团参加本次伦敦奥运会的运动员的星座分布的时候,(用pearson系数= =)算出来是中强度相关,所以后面他就用“相关不等于因果关系”来解释了,思路倒是OK的,只是具体计算……和后续解释……额,让我疙瘩了一下……

可能我只拿一个段落说事会丢失信息,所以还是丢原文地址吧:
http://www.douban.com/note/226886243/
(直接贴链接OK不,如果不妥我再删~

===
以及,不同年份的月龄合并之后只能做称名数据,这个我确实没有想到,抱拳多谢~

不过在贴出来的这个例子里面……是不是做独立卡方检验……更好一点?对手指(如果把星座和人数看做独立的两个因素的话?)以及,其实乃说的总体混淆那里我没看懂,求赐教~~QvQ)
5#
loc 发表于 12-7-28 17:59:29 | 只看该作者
追毛线团的猫 发表于 2012-7-27 20:24
额,其实作者最开始就全部中国奥运冠军在各星座的分布做了一个拟合度卡方检验,得出了没有显著性差异的结 ...

首先说,由于我们固执地要扯上星座以及作者固执地扯上相关,所以以下讨论是有些奇怪和好笑的。

1、作者起初进行拟合度卡方检验用的是另外一组数据,没有得出显著。根据你提供的数据,也就是作者进行相关使用的数据,拟合度检验是显著的。
以上也被作者用来作为他反驳星座说的第一个依据,也就是:用同样来源于中国代表团的两组数据得出了相反的结论。(结论虽然相反,但很明显第二组数据的样本量更大,这个依据不能很好的支持他的观点)

2、作者引入皮尔逊相关来作为第二个依据,但这个依据仍然不好。
2-1  如前述,数据类型不合适。
2-2  即使获得顺序数据,也不宜使用皮尔逊相关。顺序数据只提供了方向,无法衡量大小,基于此数据得出的皮尔逊相关也只能衡量方向。(实际上就是斯皮尔曼相关,只能衡量关系的一致性,而无法给出关系的强度,所以作者那个相关系数毫无价值)
2-3 皮尔逊相关的前提,以正态分布为例。作为衡量变量间关系的方法,皮尔逊相关公式里需要使用平均数和标准差。试想,当数据并非正态分布(或其他适宜使用均值的分布)的时候,你得出的平均数还能有效的代表这组数据吗?而标准差又基于平均数,平均数不能代表数据的集中趋势,那标准差也无法很好的说明其变异性。前提无法满足,导致了皮尔逊公式使用的数据(不合适的集中量数和差异量数)不能代表你所要研究的变量,从而也就导致了相关系数无意义。无论他出于什么目的,他必须使用数据!

3、关于总体。
3-1 按作者的方法所获得的数据:星座(运动员数量,月龄等级)
作为总体:X={60,45,44,……}(12个数);Y={1,2,3,……,12}(12个数)
两变量的总体都是基于星座来解释的,各星座所属的运动员数量,各星座的月龄等级。
在这里,有可能是他混淆了总体,也有可能是他的用语缺少限定词而使我产生了误解。
3-2 当我们进行斯皮尔曼等级相关的时候,考虑实际情况,在中国代表团同年内的运动员数量可能很小,又分布到12个星座内,这会使我们难以获得有效的数据来产生等级。综合起来看,使用拟合度更能说明问题。

4、独立性卡方检验。
妹子,看书啦~~~

由于星座说的某些理论基础源于统计学,而假设检验之类的又是可以大加吐槽的,于是乎,该文作者实际上是在吐槽假设检验。
关于概率和不确定性及科学真理之关系,则是一个我们无法辨明的大问题了。假设检验虽遭诟病,但依然是实证科学的基础之一。作者似乎笃信实证科学的确定性,并且以此驳斥非科学的理论。想想盲人摸象的故事,人们都会被局限在自身能够触及的经验范围内,并且确定性地认为这就是真理,但谁能知道真理是头大象?也许不确定性会成为一把达摩克利斯之剑,更也许,它是我们绕不开的。


6#
笔为剑 发表于 12-7-28 21:52:35 | 只看该作者
“星座”根本不是连续数据,怎么能够算积差相关?前提条件都不满足,硬算出来的结果也必然是错的。
不要去跟一个哗众取宠的蠢蛋去争论,你争不赢的,他会拿他的逻辑来论证他的结论。
7#
loc 发表于 12-7-28 22:12:04 | 只看该作者
笔为剑 发表于 2012-7-28 21:52
“星座”根本不是连续数据,怎么能够算积差相关?前提条件都不满足,硬算出来的结果也必然是错的。
不要去 ...

笔版你说的对,反驳那篇文章没什么意思。不过权当做练习了,这过程想想也挺好笑。
8#
 楼主| 追毛线团的猫 发表于 12-7-30 22:18:11 | 只看该作者
笔为剑 发表于 2012-7-28 21:52
“星座”根本不是连续数据,怎么能够算积差相关?前提条件都不满足,硬算出来的结果也必然是错的。
不要去 ...

没想到笔版都粗线了咔咔~

嗯最后一个没忍住去还是回了贴……作者说让我去看看相关类似研究的paper…
于是我乖乖遁走去学自己的了…

往好处想,这个帖子让我把统计的一些问题搞得更清楚了,作为一个娱乐贴,算是物尽其用啦=w=
9#
 楼主| 追毛线团的猫 发表于 12-7-30 22:18:50 | 只看该作者
loc 发表于 2012-7-28 17:59
首先说,由于我们固执地要扯上星座以及作者固执地扯上相关,所以以下讨论是有些奇怪和好笑的。

1、作者 ...

拜一个~
表示学习鸟~=v=
您需要登录后才可以回帖 登录 | 注册

本版积分规则

联系我们|Free考研资料 ( 苏ICP备05011575号 )

GMT+8, 24-11-29 03:24 , Processed in 0.096596 second(s), 11 queries , Gzip On, Xcache On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表