|
[交流]
初识t-test已有1人参与
t-test是目前我们比较常用的统计学中的一种数据处理手段,也是被很多editor所熟悉的方法。那么什么是t-test?如何运用?
t-test是解决两组样本均值之间是否差异显著的标准方法,并且要求测量数据值符合正态分布(normally distributed)。其中,样本容量和样本的变化程度是影响t-test结果的主要因素,这与standard error of means (SEM)的影响因素相同,而区别就在于t-test是用来估计standard error of difference between two means(SEDM)。
当然,除了SEDM,t-test中还有很多问题需要了解。比如one- or two-samples 、one- or two-tailed、paired or unpaired, 方差是否相等以及样本量和正态性相关的一些问题。
首先,我们来看一下one or two-tailed t-test。
中心极限定理认为,若样本量足够大,那么样本均值的分布将近似呈正态分布。那多少算大呢?这取决于数据值在样本容量中的分布,也就是分布越不正态,需要的样本量就越大。如图1所示。
图1是通过计算抽样方法得出,以说明样本大小对样本均值分布的影响。A所示的分布统计学称作右偏(skewed right),随着n增大,分布情况越来越趋于正态,如C、D所示。
我们用two-tailed t-test对胚胎GFP表达实验(图2)进行说明。
如图2所示,我们想要知道gene b灭活后对阶段胚胎细胞中gene a的表达是否产生影响。通过检测野生型(图2A)和突变型(图2B)阶段胚胎细胞中整合的a::GFP报告蛋白产生的荧光强度,观察gene b的灭活所产生的影响。
通过比对,在55个样本的中(足够大),control组的均值比test组大11.3个单位。根据中心极限定理,当样本数无限大时,理论分布情况应该是图3A这样的,而图3B为对应样本的模拟分布情况,其会自动考虑样本偏斜效应(如图1A和图2)。
对比图3A和图3B,实际数据生成的直方图的均值和SD与理论值接近,而且图形接近正态曲线。也就是说,即使样本数据确实有些偏斜,t-test仍然能够给出合理的结果。
从图3可以看出,理论分布(黑线)的中心是11.29,这是我们在实验中观察到的实际差异。垂直的蓝线表示从曲线的顶点开始的一个和两个SD的位置,在这种情况下也可以被称为standard error of difference between two means(SEDM)。理论曲线中,曲线下面积大约95%包含在两个SD内。这意味着在100次实验中有95次的均值差异介于我们期望的“8.5”和“14.0”荧光单位之间。 统计学上称(8.5,14.0)为置信区间,95%为可信度。此外,由于均值差的95%CI不包括零,这意味着均值差异的P值必然小于0.05(即均值无差异的零假设是假的)。
在图3的基础上,我们做一些变化,假设SEDM为5.0(原来是1.4),反应了基因表达数据变化很大,如图4A所示。类似于图3A,我们发现SEDM的增长影响了95% CI的值,但均值仍是11.3,并且有很小的概率为0差异,也就是零假设可能为真(前提是我们人为的扩大了SD(SEDM))。而图4B将图4A中x轴的值变为考虑零假设为真的条件(标准化),也就是说这时我们的假设是零差异。
如图4B,如果零假设(均值差异为0)为真,那么随机抽样得到的样本均值差异的概率至少应该和我们通过实验获得的样本均值差异的概率一样或更小,这时需要计算P值来解决这个问题。在我们的实验中,样品平均值的差异是11.3,其中a :: GFP在突变b背景中表达较低。通过下面两个式子,我们可以获得P值:(见式一)
如图4B,为一个正态曲线,均值差异(实验获得)由垂直的蓝线表示,为11.3(换算为2.26SE)。此外,还包括一个在-11.3的蓝色虚线。红线(SD或SEDM)位于顶端两侧大约2 SE处。根据正态曲线,我们知道曲线下面总面积的95%位于两条红线之间,剩下的5%在红线之外的区域。此外,曲线下方每条蓝线外侧面积所占的比例为1.3%,总计为2.6%。那么two-tailed t-test 的P值为0.026,小于0.05。也就是说,在零假设为真的前提下,观察到均值差异为11.3这种效果的理论概率仅为2.6%,这与我们实验所得是矛盾的。所以,我们可以得出结论,零假设不成立,11.3的均值差异在统计上是显着的。
使用two-tailed t-test,在进行统计分析时,对差异的左偏或右偏是没有要求的,也就是默认左右是对称的。
而对于one-tailed t-test,检测时所用统计量完全相同,同样需要样本服从正态分布,只不过提出假设的形式不同,还以上例说明:
若先前通过预实验证明为下面的结论:
(见式二)
那么对应的零假设为:
(见式三)
同样,通过计算P值能够解决这个问题,如果零假设为真,那么随机抽样可能发生以下结果的概率是多少?
(见式四)
这时,我们只需要图4B的右半部分,因为其左右完全对称,所以其P值为two-tailed检测的一半,0.013,。
当然,选择one-tailed test 还是two-tailed test比较适合这个问题,争议一直都有。但我们应该明白,每一个差异方向都应该用one-tailed 进行检测,因为two-tailed 中的其中一个差异方向实际上与另一个方向的变化是不同的(更大或更小)。换句话说,two-tailed 中的零假设总是假的前提。现在大部分人都倾向于two-tailed test,因为其更保守,也就是说P值始终较高,尽可能避免了假阳性结果出现。所以,根据数据确定差异的方向之后,不应该选择one-tailed t test。也就是说,如果你希望看到差异,并且你的two-tailed P值是0.06,那么不要再做一个单尾测试来将P值减小到0.03。或者,如果你希望没有显着差异,选择恰巧给你最高P值的one-tailed测试同样是不可取的。
还有一个问题是进行t-test时,进行等样本方差还是不等样本方差的检测。实际上,先前的t-test版本并未考虑不等样本方差的情况,但是对于较小或中等差异的方差变化,t-test结果仍是比较稳定的。但是现在普遍使用的程序是可以自行选择是否进行不等方差的t-test。结果是,对于具有相似方差的样本,两种方法得到的P值无明显差异;对于差异显著的不同样本,建议使用不等方差的方法,因为P值会更高,同two-tailed一样,P值更为保守和准确。
与单双尾、方差是否相等一样,在运行t-test时还有一个选择:paired or unpaired test。paired t-test使用的前提是实验设计本来就是应用此方法来检测均值差异。在我们的胚胎GFP表达的例子中,两个样品是独立的,因为任何单个胚胎内的表达与任何其他胚胎中的表达都没有关联。对于涉及独立样本的情况,paired t-test不适用,我们进行unpaired t-test。为使配对方法有效,数据点必须以有意义的方式链接。还是举上面的例子,突变b背景中a :: GFP reporter的表达较低。在应用paired t-test的例子中,引入携带对应于基因b的编码发夹dsRNA的背景菌株。使用特定的启动子和适当的遗传背景,dsRNA将仅在一个特定神经元对的最右边的细胞中表达,结果是通过RNAi应答抑制基因b的表达,而左侧的神经元不受影响。此外,该菌株携带上述相同的a :: GFP reporter,并且已知a :: GFP reporter在野生型的左侧和右侧神经元中表达水平相同。因此,类似于在胚胎中观察到的情况,这个实验的预期结果是右侧神经元中a :: GFP reporter由于基因b被抑制导致荧光会较弱,。
在上述情况下,数据是有意义的配对,因为我们在同一个体的两个不同的细胞中测量GFP水平,然后,我们获得了14种野生型和14种基因b(RNAi)型的荧光数据。
数据的显示表明a :: GFP的表达可能在基因b被抑制的右侧细胞中略微减少,但是对照和实验组之间的差异并不显著(虽然图5B看上去减少了)。此外,尽管野生型和b(RNAi)型的左侧神经元中GFP表达的平均值几乎相同,但野生型右侧神经元中GFP表达的平均值略高于b(RNAi)型。我们进行t-test分析,一种选择是忽略数据中的自然配对,并将个体的左右细胞视为独立。但是,这样做会阻碍我们发现真正的差异。因为我们已经知道,某些个体中的GFP表达会比其他个体更弱或更强(导致信号更暗或更亮)。这种变化以及相对较小的表达差异可能会导致统计学上差异不明显。实际上,使用来自野生型和b(RNAi)菌株(图5B)的右细胞的数据进行two-tailed t-test结果显示P> 0.05。
相反,图5C,D显示了相同GFP数据的略微不同的排列。在这里野生型和b(RNAi)菌株已经分离,我们特别比较了每种基因型在左侧和右侧神经元中的表达。另外,在同一个体的左右数据点之间画线。观察b(RNAi)型,可以看到,在个体内部,右侧神经元与其左侧相比表现出减少的趋势(虽然图5D类似于图5B)。然而,由于个体之间的内在变异性,当我们未能利用实验的配对特性时,这种差异在很大程度上变得不显著。这在胚胎分析中不是问题,因为野生型和b突变体之间的差异相对于胚胎之间的差异足够大。就神经元而言(以及使用RNAi),差异要小得多,因此低于统计验证所需的水平。对该数据使用paired two-tailed t-test得出P <0.01。
使用paired t-test的基本原理是在计算P值时需要考虑有意义的关联数据。paired t-test通过首先计算每对个体之间的差异来起作用。然后计算所有对之间的差异的均值和方差。最后,进行one-sample t-test,其中零假设是差异的均值等于零。此外,paired t-test可以是one-tailed或two-tailed,两者的论证与两种独立的手段的论证相似。当然,标准程序会进行有效的处理。鉴于paired t-test增强检测差异的能力,如果我们的实验类似于上面例子情况,或者适用于paired t-test,实验设计时可以考虑利用paired t-test。
好了,关于t-test的基本使用大概就是这些,想要更进一步的了解统计学的知识,可以仔细研读以下文献:
A biologist's guide to statistical thinking and analysis (July 9, 2013), WormBook, ed. The C. elegans Research Community, WormBook, doi/10.1895/wormbook.1.159.1, http://www.wormbook.org.
图一.png
图二A.png
图二B.png
图三A.png
图三B.png
图四A.png
图四B.png
式一.png
式二.png
式三.png
式四.png
图五.png |
|