24小时热门版块排行榜    

查看: 1580  |  回复: 6
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

邙山的鱼

木虫 (正式写手)

[求助] 关于统计中样本数目的一些问题 已有3人参与

我是学化学的,对数学的东西停留在大二学的概率论与数理统计上,不过也忘得差不多了。
最近看了一篇文章,其中提到说
如果你用两个方法去计算一套数据,得到两个系列计算值,和这个实验值去做线性回归。可以得到两个R值。
但是当样本量过小的时候,在一定的置信区间内。R值大的,不一定比R值小的表明该方法得到的计算结果更好。
如图所示。
我想知道这个适用有前提条件么?作者给的这些结果是有理论推导的依据么?
这篇作者在关于引用公式是参考了DOUGLAS G. BONETT,THOMAS A. WRIGHT,等人的SAMPLE SIZE REQUIREMENTS FOR ESTIMATING PEARSON, KENDALL AND SPEARMAN CORRELATIONS这篇paper。
在此求教,不胜感激!

关于统计中样本数目的一些问题
原paper.png
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

mbchen

专家顾问 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★
感谢参与,应助指数 +1
邙山的鱼: 金币+5, ★★★很有帮助 2016-08-15 08:50:40
你的问题的答案,还可以参看小木虫网站无机物化
http://muchong.com/bbs/viewthread.php?tid=10552390&fpage=1
中转载《化学通报》的文章。包括数学原理,如何查统计表得到数据点数与相关系数R之间的关系;还有,在化学领域该错误以讹传讹六十年的源头及其历史。
7楼2016-08-14 15:45:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 7 个回答

peterflyer

木虫之王 (文学泰斗)

peterflyer


【答案】应助回帖

感谢参与,应助指数 +1
样本数量过小,就不能充分避免随机因素导致的误差,导致算出的R值不是太可靠。
2楼2016-08-12 12:00:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

邙山的鱼

木虫 (正式写手)

引用回帖:
2楼: Originally posted by peterflyer at 2016-08-12 12:00:44
样本数量过小,就不能充分避免随机因素导致的误差,导致算出的R值不是太可靠。

有没有哪里能明确说明样本的大小具体有多大,跟样本性质有关系么?
3楼2016-08-12 15:26:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

FMStation

至尊木虫 (知名作家)

【答案】应助回帖

感谢参与,应助指数 +1
https://www.ncbi.nlm.nih.gov/pmc ... pdf/nihms514340.pdf

a large dataset is absolutely critical for statistically significant results with tight confidence intervals.
200 complexes:  Pearson R = 0.7 > Pearson R = 0.6

linear regression -  used to evaluate methods

A tighter correlation means better agreement between the data points and the fit line; therefore, there are smaller residuals and a tighter distribution of those residuals around the value zero.

Higher correlations lead to larger R^2 and smaller σ_res and
weaker correlations lead to lower R^2 and larger σ_res,
but the distributions remain Gaussian in shape.
4楼2016-08-13 11:02:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见