| 查看: 1075 | 回复: 0 | |||
godhascome银虫 (小有名气)
|
[交流]
【原创/非首发】《统计分析与SPSS应用》拾贝
|
|
《统计分析与SPSS应用》拾贝 本文适宜阅读对象: 对统计分析本身感兴趣或者对从信息中挖掘潜藏信息感兴趣者。 本文阅读难度 :由于偶尔引用定义并且主要通过类比,因此具备高中数学知识即可阅读,不过如果懂点线代和统计则更有裨益。 本文阅读建议: 内容仅仅比表面结论抽象了一点点,这只有读者自己拿出去联想类比了才有真正的裨益,而靠谱的定义还是遵从教科书吧。 本文补充说明: 文字部分仅仅记录了作者喜欢的一些想法,而稍微整体性的把握,参见文后的思维导图。 PS:本文是草草学习《统计分析与SPSS应用》后的一些感悟罢了。 统计分析大致流程 明确统计方向之后,去针对性采集一批数据。然后进行一个“数据处理-建模-统计推断”的循环,一次次从中挖掘、挖深隐藏信息量。简而言之,这就是试错法、排除法的演绎:手头有一推数据,去猜一个结论,然后代入检验,错了不断修正直到满意,最后收集、总结中间零零散散获得的信息。 方差拆分分析——拆分可控因素与随机因素后的观察 这与物理实验中总念叨的“偶然误差、系统误差”有着异曲同工之妙,只不过方差拆分分析并不止步于念叨。 在任何一次观察中,我们的观测总会得到误差,并且这类误差一部分源于于我们观测方法的选择,另一部分则是源于时刻都在变幻的RP决定,然而我们如何检验这种观测行为本身和其结果靠不靠谱? 即以分析事物一一对应关系中(多对一模式是在这个基础之上考虑了变量间的交互影响)的方差拆分思想为例: 其理论公式是SST(观测变量总离差平方和)=SSA(组间离差平方和)+SSE(组内离差平方和),而判断标准则是SSA/SSE之比。 好吧,扔掉这个公式定义,稍微偷梁换柱一下(碍于笔者能力有限,直观通过方差来解释拆分思想有些麻烦,就用解释平均值来代替,不过还是要说明,均值的本质在于刻画数据的集中趋势,而方差则是在这个基础之上去描述离散程度、偏心程度),便可以直观理解这样做的意义和依据。 假设,我们观测一名男生于一周之内参加的11次1000米耐力跑测试,成绩在3分50秒与4分10秒之间等距离递减分布。 那么对于这么一次观测行为而言,我们获得了一些隐藏不明确信息的原始数据(地位类似SST,但本质与SST不同),4分钟是成绩的均值可以被类比为SSA,而那些在20秒之内的上下浮动值即可类比为SSE。在我们得到这位男生的1000米实力大致在4分整这个结论之前,严格来说我们需要检查一下这次观测行为是否有效。 如果我们把一次有效的观测行为所获得的数据,理解为较大可控制部分与微小浮动部分的合成,那我们所需要的做的就是去检验一下我们所得到的可控制部分是否够大而浮动部分是否够小。 回到刚才的例子,我们所得到4分整的均值,和20秒的浮动范围,即满足了上述标准,因此我们同时认可了“此男生1000米水平大致为用4分整跑完,那20秒的浮动范围是由于男生临场发挥或者小小的天气影响导致的”和“本次观测行为是有效并且靠谱的”这两个结论。 并且,我们判断的依据不是比较绝对值,而是通过比较“4分整”和“20秒”这两个数的比值。试想一下如果观测的是“跑100米”还获得“上下浮动20秒”这么一个结论,我们不难得出以下推论:“秒表坏了”或者“计时员手抽搐了”或者“此男生在恶搞”。 残差分析——对于遗漏信息的再一次挖掘 虽然残差的定义与SSE差距不小,但本质思想是神似的。并且由于笔者已经赘言不少举了上文1000米测试的例子,因此套用上文继续理解。 假定我们就把那“20秒浮动”理解为残差,而残差分析正好要在这20秒上做文章,以获取被我们忽略的信息。 上文所得到的结论“此男生1000米水平大致为用4分整跑完,那20分的浮动范围是由于男生临场发挥或者小小的天气影响导致的”实际上是比较粗糙的。 如果再考虑到整个观测中的那个细节“成绩在3分50秒与4分10秒之间等距离递减分布。”,我们便可以得到进一步的信息。不妨假设成绩是以等距、递减的形式分布,即“4分10,4分08......3分52,3分50”,那么我们便可以得到进一步信息和结论“这名男生每次测试后体能上很可能都有进步”。这一结论显然好过对于残差的胡乱归因。 然而,如果放弃了“成绩在3分50秒与4分10秒之间等距离分布。”这一假设,假设“成绩分布是在3分50至4分10中无序分布”,则残差变就会表现得无序、没有规律性,因此我们更倾向于相信上一节中那个弱化的结论“那20分的浮动范围是由于男生临场发挥或者小小的天气影响导致的”。因此此时残差所表现的混乱无序即是我们所能得到的结论的依据——已经没有剩余的规律可以被挖掘了。 因子分析——对于已经掌握的信息的简化与优化 因子分析其实是一件针对已经数据的分布的处理,是早于构建解释性模式的一道流程,尤其是当所有数据包含的信息量极大时,为了后面分析过程的简介和直观所采取的前置步骤。 何谓信息的简化过程? 比如我们现在讨论(欧式空间中的)长方形这一类对象(即样本、信息),描述这么一个对象我们需要多少指标(即变量数、信息维度)呢? 如果我们选用下面这组指标描述——(长,宽,面积,四个端点的坐标),显然其中包含了过多累赘的信息量。因为我们知道了长和宽就等于知道了面积,而其实只要知道四个端点坐标(三个端点不能确定一个长方形)就等同于知道了长、宽、面积。 因此我们剔除长宽面积这3个指标,用4个端点的坐标值就可以充分描述任何一个长方形,从而方便后续分析。 这一过程,即我们通过剔除内涵了重复信息的变量(内部相关程度较高)、或者重新组合创造一批新变量、或者剔除一些无关紧要的变量,将这形成的一组数量上更少的变量命名为因子(因即原因,足可见其重要性、优先级)。 (PS:上述例子是基于高中数学知识的,而因子分析实际上是运用了统计中的一些概念后,利用线性代数中关于构造线性组合、将其极大线性无关组标准正交化和求逆矩阵的知识来完成。) 那么何谓信息的优化过程? 在进行过简化的基础之上,后续分析变得简洁了,但很可能丢失了直观性(上例仅是小小丢失直观性,毕竟用坐标联想计算长、宽、面积还是很简单的,而举个其他的例子)。因此,需要优化,以还原这些因子的直观性。 对此,另举出一个新的例子,假象我们在一个平面x-y轴的两条对角线上密集地采集到了一推二维数据点,那么用原有x-y坐标轴的含义去解释很可能偏离了本质。如果我们把坐标轴整个旋转45度,以两条对角线为坐标轴构建新的x'-y'坐标系,那么我们或许可以就找到这2维信息本质,因为原来的数据点在新的坐标系中的新坐标(x',y')中,总有一个坐标值是趋近于0的(即每次仅需要一个坐标值就可以对这个点的性质加以充分的描述和解释)。 (PS:实际上,因子分析中的优化过程,即依靠线性变幻中的坐标旋转来完成,而为了尽可能让新的坐标轴彼此无关,而选择了用右乘正交阵的方式来完成) 事实上,这个例子,还可以稍微修正一下也可以用来演示简化过程: 假象我们所获得的二维数据点仅仅密集分布在一三象限对角线附近,那么我们还需要用2个坐标来描述嘛?显然不用,坐标轴逆时针旋转45度之后,忽略y'坐标极其有限的数值(即微小的实际影响),那些所用的数据便完全可以用一根一维数轴来描述。 秩转化思想——放弃细节去直接洞察整体的策略 这是整本书中,让本文笔者称快的又一妙想,因此优先举例再补充定义。 假如,我们很老套地比较(1)班和(2)班的期末考试成绩,如果我们想对比这两个班级的整体学术实力,而非针对性比较这两个班级中的尖子或者非尖子生(因为实际情况中此二者的成绩往往对于平均数有交大影响,而对众数、中位数鲜有影响),那么不妨利用秩转化思想。 具体操作? 将这两个班级的所有学生的考试成绩汇总到一个表格内,降序排列(或者升序,本初仅以降序排列行文),然后依次编号(面对重复数值,例如100,90,90,80,则编号为1,2.5,2.5,4)。 经过这么一部操作,我们丢失了所有成绩的具体信息,仅仅保留了其出处和顺序信息,即放弃细节。 如果我们将两个班级的整体学术实力旗鼓相当的情景定义如下:在整体排列中,各有尖子,各有非尖子,并且近乎对半开(即数据充分混合)。 那么这个对于我们先前给出的编号的含义便是:在旗鼓相当的情况下,一班成员的编号之和应当与二班成员的编号之和是近似的,基本在编号总和的1/2处浮动;而如果一班成员的编号和与编号总和的比值极小,则说明一班的总体排名(或者平均)靠前,更胜一筹。 这个编号,即此处所讨论的秩,而这种仅保留数据排序信息的转换思想,即秩转换思想。面对海量的数据点,可以免去肉眼观察的麻烦进行快捷运算;而面对数据之间相对较小的差距,则是轻松地放大了差距从而提升了效果。总而言之,便是“放弃细节以求全貌”的策略。 简易归纳思维导图:http://filer.blogbus.com/1124617 ... 73_1302980146r.jpeg 另外,个人blog地址:http://rickx.blogbus.com/ |
» 猜你喜欢
论文终于录用啦!满足毕业条件了
已经有21人回复
不自信的我
已经有5人回复
磺酰氟产物,毕不了业了!
已经有4人回复
投稿Elsevier的杂志(返修),总是在选择OA和subscription界面被踢皮球
已经有8人回复








回复此楼