| 查看: 402 | 回复: 4 | ||
| 当前主题已经存档。 | ||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | ||
xinjidechun木虫 (小有名气)
|
[交流]
转载 怎样培养统计思维
|
|
|
怎样培养统计思维 预防医学与医学统计讨论版 windowsplay : 当前统计学方法层出不穷,怎么才能培养和建立起好的统计思维模式,而不是一味的停 留在针对资料分析而分析资料!怎么从更高的层次来引导资料的分析。请各位高手给点意见 和建议。或者提供一点这方面的资料或书籍! haiyinlin: 兴趣是最好的老师! 统计是用来科学认识世界的方法。没学过统计的认为统计是加减乘除、百分数;学了一 点统计的,认为他是数字游戏;再多学一些,能解决一些不得不用统计解决的问题,但是感 到统计烦杂;再后来,运用自如了,也许能悟道。 zhumengjin: 统计本身并不能说明问题,统计只能对研究对象的属性起到辅助描述、揭示的功能,虽 然统计可以从数学抽象的层次去近似表述研究对象的属性,但统计揭示的规律和研究对象本 身固有的规律不是一回事,真正下结论的还是研究对象本身的变化规律。初学者和有一定基 础的人往往很迷信统计,见到数据后马上就去想怎么选择一种看起来较为漂亮的“统计方 法”,将统计方法的计算难以程度作为水平高低的依据,所有结论都是纯统计的。这种思维 方式轻分析对象而重处理的数学技巧,有点“唯统计至上”的味道,走进了“旁门”。 我以前读研究生时曾经专门研究了一下所谓的统计方法“高深与浅显”同文章的档次是 不是有关系,将SCience、Nature、Nature Genetics等知名杂志和其他杂志分成几类,影响因 子20.0 以上作为一类,10.0 以上作为第二类,6.0-10.0 以下作为第三类,6.0 以下作为第四 类。发现一类中的文章所用那个统计方法简直可用小菜一碟来形容,比如Nature 上一篇研 究地方语言死亡规律的文章,仅仅用了一个曲线拟合方程;第二类文章发现统计方法明显比 前者复杂得多;第三类文章所用统计方法可以说是十分复杂,某些方法一下子还不能搞懂; 第四类文章的统计分析方法和第三类差不多。我得出结论,真正高档次的文章,其统计分析 方法并不复杂。 统计本身不能说明什么,它的功能只是辅助判断,一个数据集能作统计,能估计参数, 但不一定能证明什么,统计分析对象的生物原型才是下结论的依据,这一点十分重要。举一 个很简单的例子,一个小孩出生时,他父亲在家门前种了一棵树苗。记录每隔一个月记录小 孩身高,同时记录树高。二十年后,得到了一个数据集。此时,我们用回归分析或其他分析 方法对该数据进行分析,肯定可以在纯统计上得小孩长高是树长高的原因或者树长高是小孩 长高的原因的统计结论。但真的小孩长高是树长高的原因,或者树长高是小孩长高的原因 吗?十分荒谬。这个例子很极端,很容易判断统计和生物原型之间的差异,但在更多情况下, 这种统计脱离生物原型的谬误并不能明显判断。而我们搞统计的,往往很容易犯这种统计脱 丁香园电子期刊2005年第2期 离生物原型的错误。我发现在丁香园里面,分析者往往只看数据结构,仅仅根据数据结构选 择分析方法,对数据后面的生物学根本就没有考虑,有很多这样的例子,此处不能一一列举。 niuwussc: 我觉得首先是基础知识,然后是学习、理解。再后来就是应用。另外就是需要类比思维。 tom8833: 我觉得zhumengjin兄有点以偏概全了。 你所得出的影响因子高的杂志统计学简单而因子低的统计学复杂的结论是站不住脚的。 你没有去分析这些资料是什么类型?需要什么样的统计方法?并没有进行齐同对比。统计方 法的选用,得看人家做的是什么东东。比如说,某人发现一个新的基因,写出它的序列,这 需要方差分析吗? 统计方法应该是没有复杂与简单之分的,因为这决定于你的资料。你的资料是什么类型 就得用什么方法或者哪一类方法。不然就是错误的。比如说,一个最常见的问题,三组以上 完全随机计量资料均数比较,如果用t检验每两组之间去比,方法上是不正确的,结论就更 不可靠。而两组的话,方差分析就不适用。总不能说方差分析比t检验复杂吧?这只是一个 适用与否的问题。 我想zhumengjin兄的意思只是强调不要“唯统计论”,但不能说投nature, science 这样 的杂志就可以用所谓“简单”的统计方法,而是要依据资料选用正确的统计方法。不论这个 方法在别人看来是“简单”还是“复杂”。 赞同niuwussc的说法。 haiyinlin : 就“影响因子高的杂志统计学简单而因子低的统计学复杂”从专业角度来看不符常理, 建议检查抽样方法是否合理 houliping: 我也说说我的看法。我认为统计的功能不只是在于对数据进行分析找出数据中隐含的规 律。有一点似乎更重要,那就是用统计学的知识指导试验的设计。统计应该贯穿于试验的始 终,而不仅仅是当试验数据出来以后再用一定的统计学方法进行统计分析。每种统计分析方 法都是以一定的试验设计为基础的,一个很简单的例子,配对T 检验只能用在配对设计的 资料。在你做试验之前你应该用什么统计学方法其实已经了然于胸了。 还有一点就是,统计学的关联和生物学关联是没有必然联系的。也举个例子来说吧,假 如一种药物与安慰剂相比能将高血压患者的血压降低2mmHg,如果你的试验的检验效能足 够高的话,应该能得出统计学差异,但是很显然这种药物的临床应用应该没有什么意义。 zhumengjin: 统计方法没有高级和低级之分,最适合数据的分析方法就是最好的方法。我不同意 tom8833 兄所说的统计方法没有复杂和简单之分的说法,从计算过程这个角度来看,是有复 杂和简单之分的。 对于“影响因子高的杂志统计学简单而因子低的统计学复杂”的结论肯定有偏颇,我没 有严格地按对象分类去比较,这里还存在一个抽样误差的问题,严格地来讲是没有可比性的, 但在混淆具体研究对象而从总体趋势上看,确实有这种倾向,如果确定一种标准,专门就此 丁香园电子期刊2005年第2期 进行一下研究,我估计在统计学上也能得出这种结论。我开始也觉得纳闷,后来也想通了, 影响因子越高的文章,原创性越强,这个原创性主要体现在研究对象上,一个新对象的属性 刚开始只能对其做初步认识,相应研究不可能把它分析得达到“终极”的程度,它还可以提 供更多的后续研究。而影响因子低的文章,往往就是前面提供的后续研究内容,原创性不够, 它是在别人研究的基础上进行的再深入研究。此时,研究对象的属性已有一定认识,后续研 究是对研究对象的更细致、更深层次的属性进行挖掘,要挖掘更细致、更深层次的属性,必 然配套更“复杂”的统计方法。这里用了引号,只是说一种大体趋势。另外,高影响因子的 杂志往往限制篇幅,而低影响因子的杂志往往篇幅更大,这也在某种程度上限制了一些过分 复杂统计分析的运用。在我有“偏颇”的抽样调查中,确实在总体上有高影响因子文章更注 重研究对象本身,而低影响因子文章统计分析技巧更重的趋势。到底这个趋势是不是正确的, 应该就5 年内或10 年内的全部文章做个分析才能下统计结论。 反正这个问题目前还不能下统计结论。我上面帖子的主要目的是针对一些初学者对统计 学认识的误区,在比具体分析技术训练和学习技巧更高的视角上,强调不要“唯统计论”和 要注重统计分析和生物原型之间的关系。没有想到一个“结论”也能引起这么多争论。论坛 嘛,不争论何为论坛。有了争论才能对一个看似简单的问题有更深的认识,我想版主也希望 大家意见分歧越大,争论得越激烈越好。 zhaql: 在做统计分析的过程中,多数人问的问题是:“我的数据采用什么分析方法比较合理?” 几乎没有人问“如何培养统计思维?”这个问题。我想只有在做统计分析的人员之间才会提 到。 结合个人经验谈谈对统计思维的认识:简单的说,统计的目的是利用各种统计模型,将 科学研究数据中与研究目的不相关的信息分解出来,在此基础上更好的了解各处理因素对研 究结果的影响。因此,在试验过程中应时刻注意贯穿统计思维,详细记录试验过程中的非试 验因素情况,只有这样,得到的研究数据才能借用统计分析的方法得到更可靠的科学结论。 个人认为,在统计模型中,方差分析最能反映统计的思维,比如,完全随机方差分析,在方 差分析中将方差分解为组间方差和组内方差(误差项),在去除组内误差的基础上,得到各 组间的差异情况;区组随机方差分析,则将总方差分解为组间方差、区组方差和组内方差, 区组误差也不是研究的目的,这样得到的组间差异就比完全随机的结论更可靠,因为它不但 排除了完全随机的组内误差,还将与试验目的无关的区组误差也排除了。 windowsplay: 感谢各位网友的高见,这是一个困扰我很就的问题了!在我以为,统计学和流行病是分 不开的,统计思维和流行病学的思维好像有更多的相同点! 有人告诉我,统计是为流行病学服务。在作一个流行调查是,统计的结果,不能仅仅看 最后的统计数字,而是要结合所做的流行调查,该病的流行因素、流行分布、综合以来看的。 而在做研究设计的时候,统计方法是早就设计好的了。研究收集到的数据不一定知道,但是 要使用的方法是可以预见的。统计思维的培养,不是一个简单的事。不知从和开始做起,找 不到头绪。是不是要有个量变到质变的过程啊! ggjjqqchn: 统计是一种方法学,是认识世界数量特征的重要工具。通过合理的设计、有计划的收集 资料、对资料运用正确地统计方法分析,我们才能正确认清事物客观存在的规律性,而这个 丁香园电子期刊2005年第2期 过程每一步不能离开统计思维,这样得出的结论才更为可靠。统计学对我们来说是很有用的, 我们必须学好统计学。我有些反对那些设计时不考虑统计分析方法,到需要分析时才“量体 裁衣”的做法。因此,windowsplay战友提出这个问题是非常用意义的。本人认为统计思维 的培养要做到“三到”:心到、眼到和手到。“心到”:就是要在研究时时时要想到统计学方 法,从试验设计到收集资料和分析资料,比如说在试验设计时就要想到设计中存在的偏移, 如何在试验中去控制这些偏移等等;“眼到”:就是要不断的学习统计学方法,不光要学习统 计学理论还用学习别人怎么用,当然要时时持批判的眼光,要去发现别人应用时的合理性和 不合理性;“手到”:就是要自己去实践,自己当家,从设计、收集资料、录入资料和分析资 料等各方面体验,在这个过程中你会发现一些问题,这正是你没想到的,今后需要留意,这 样你考虑问题会越来越全面,就会不断提高。浅显之见,请大家指正。 juyingsport: 谈谈我的看法,我认为要树立一个系统的认识: 首先大家应该认识到数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如 何从中挖掘它们。医学/生物学数据的巨大积累将导致重大生物学规律的发现,它是现代生 物信息学的支柱。发掘医学/生物学信息的方法可借用医学/生物统计学方法, 在实验设计、 临床试验设计、调查设计等研究中,所获得的数据信息去科学地分析医学/生物学的规律, 去揭示生命的本质。 其次进行医学研究设计的目的是:设法使处理因素在复杂的环境中单独显露出其效应。 为了达到这一目的我们遵循对照,均衡,随机化,重复的原则,针对各自不同专业领域来具 体考虑处理因素,受试对象,实验效应(指标)的制定和选取。 然后根据你的研究目的和实际情况选用适合的设计方法并使用相对应的统计方法来处 理资料。(比如前面有人提到的配对设计的资料只能用配对t 检验;或者完全随机设计的分 类变量资料的比较,就应该用卡方检验、二项分布等方法) 最后得出有指导意义的结论,但要特别注意的是实际差别大小与统计意义的区别以及对 差异有无显著性或有无统计意义的判断不能绝对化,应该根据专业知识具体情况具体分析, 才能得出科学可信的结论! 至于具体的操作过程,就只有在平时就注意积累,多学,多看,多想,多问! haiyinlin: 我推荐两本书 1.“生物统计学(中英文对照第2 版)” http://book.jqinfo.com/product/1_140_1300/371843.html 这本是统计基础的,中英文对照,一举两得不错。 2.医用多元统计方法张家放 结构方程模型是其特色。 当今统计研究的前沿是什么? 从方法学角度我随便说两个:结构方程模型(SEM)、多水平模型(MM) verapamilasprin: 听了大家的高论,不过有个问题不明白,好像搞统计的人说影响因子高的杂志用简单的 统计方法而影响因子低的杂志用复杂的统计方法,我一头雾水。 说一点自己的看法。 丁香园电子期刊2005年第2期 1.不是所有的文章都要用统计方法,但这并不影响它成为一篇优秀的文章。 2.统计结果要结合专业知识来下结论,这是每一个初学统计的人都知道的,而且统计的老师 强调过无数遍的。相信大家不会不知道。 3.统计还是讲究一个是否适用的问题。用弹弓肯定不能把飞机击落,用高射炮肯定打不着蚊 子。但并不能说弹弓不行,也不能说高射炮不行。有些问题用一个简单的t检验就可以轻轻 松松地解决,有些问题用“复杂”的统计方法也许还解决不了。 4.统计大多数时候是一种工具,一种手段,是为解决问题服务的,而不是一个主体(那些专 门的统计研究除外)。所以并不是统计做得多复杂、让人看不懂就是文章的水准高,而要看 文章的专业背景。 5.影响因子和统计方法之间可能并不会有那么强的相关吧?按照上面某兄的理论,那么就是 说影响因子和统计方法的复杂程度呈负相关。一个杂志的影响因子的高低,影响因素很多, 包括专业背景(如临床实用型的杂志别人引用的肯定多,而偏基础的杂志引用的相对较少)、 理论深度、创新程度、语种等等,当然统计的正确与否、优化程度也是一个方面。即使要分 析,在保证齐同对比的情况下还得用多元统计学知识吧?多元回归?主成分分析?我不是搞 统计的,学的是生物方面,也经常用到统计,略知皮毛,但对于某兄的结论不敢苟同。 |

1
![]() |
4楼2006-01-26 13:06:26













回复此楼