24小时热门版块排行榜    

查看: 1578  |  回复: 6

邙山的鱼

木虫 (正式写手)

[求助] 关于统计中样本数目的一些问题 已有3人参与

我是学化学的,对数学的东西停留在大二学的概率论与数理统计上,不过也忘得差不多了。
最近看了一篇文章,其中提到说
如果你用两个方法去计算一套数据,得到两个系列计算值,和这个实验值去做线性回归。可以得到两个R值。
但是当样本量过小的时候,在一定的置信区间内。R值大的,不一定比R值小的表明该方法得到的计算结果更好。
如图所示。
我想知道这个适用有前提条件么?作者给的这些结果是有理论推导的依据么?
这篇作者在关于引用公式是参考了DOUGLAS G. BONETT,THOMAS A. WRIGHT,等人的SAMPLE SIZE REQUIREMENTS FOR ESTIMATING PEARSON, KENDALL AND SPEARMAN CORRELATIONS这篇paper。
在此求教,不胜感激!

关于统计中样本数目的一些问题
原paper.png
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

peterflyer

木虫之王 (文学泰斗)

peterflyer


【答案】应助回帖

感谢参与,应助指数 +1
样本数量过小,就不能充分避免随机因素导致的误差,导致算出的R值不是太可靠。
2楼2016-08-12 12:00:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

邙山的鱼

木虫 (正式写手)

引用回帖:
2楼: Originally posted by peterflyer at 2016-08-12 12:00:44
样本数量过小,就不能充分避免随机因素导致的误差,导致算出的R值不是太可靠。

有没有哪里能明确说明样本的大小具体有多大,跟样本性质有关系么?
3楼2016-08-12 15:26:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

FMStation

至尊木虫 (知名作家)

【答案】应助回帖

感谢参与,应助指数 +1
https://www.ncbi.nlm.nih.gov/pmc ... pdf/nihms514340.pdf

a large dataset is absolutely critical for statistically significant results with tight confidence intervals.
200 complexes:  Pearson R = 0.7 > Pearson R = 0.6

linear regression -  used to evaluate methods

A tighter correlation means better agreement between the data points and the fit line; therefore, there are smaller residuals and a tighter distribution of those residuals around the value zero.

Higher correlations lead to larger R^2 and smaller σ_res and
weaker correlations lead to lower R^2 and larger σ_res,
but the distributions remain Gaussian in shape.
4楼2016-08-13 11:02:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

邙山的鱼

木虫 (正式写手)

引用回帖:
4楼: Originally posted by FMStation at 2016-08-13 11:02:18
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3821705/pdf/nihms514340.pdf

a large dataset is absolutely critical for statistically significant results with tight confidence intervals.
200 complex ...

对...我看到的就是这篇文章- -#就是不是很理解她的意思...我们是做计算值和实验值的一个回归,总觉得她的这个条件不适用于这样估计样本量..
5楼2016-08-14 09:37:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

FMStation

至尊木虫 (知名作家)

【答案】应助回帖

★ ★ ★ ★ ★
邙山的鱼: 金币+5, ★★★很有帮助 2016-08-15 08:50:52
Social and medical scientists who use human subjects
^^^^       ^^^^^                           ^^^^^^^^^^^
have relied very heavily on statistics and careful experimental design
                                       ^^^^^        ^^^^^^^^^^^^^^^^^^
to try to reach the most solid conclusions.
                                   ^^^

Quantitative structure–activity relationship models (QSAR models)
https://en.wikipedia.org/wiki/Quantitative_structure–activity_relationship
https://zh.wikipedia.org/wiki/定量构效关系

定量構效關係(QSAR)是一種藉助分子的理化性質參數或結構參數,以數學和統計學手段定量研究有機小分子與生物大分子相互作用、有機小分子在生物體內吸收、分布、代謝、排泄等生理相關性質的方法。

After all, experimental error bars are underestimates of the true
                                                     ^^^^^^^^^^
experimental uncertainty, and this is exacerbated in heterogeneous data.
                                                    ^^^^^^^^

It is also possible that this success might come from the larger sets of data
                                                                                 ^^^^^^^
used to train QSAR individual models, which leads to greater statistical significance.
                                                                            ^^^^^
6楼2016-08-14 10:20:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

mbchen

专家顾问 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★
感谢参与,应助指数 +1
邙山的鱼: 金币+5, ★★★很有帮助 2016-08-15 08:50:40
你的问题的答案,还可以参看小木虫网站无机物化
http://muchong.com/bbs/viewthread.php?tid=10552390&fpage=1
中转载《化学通报》的文章。包括数学原理,如何查统计表得到数据点数与相关系数R之间的关系;还有,在化学领域该错误以讹传讹六十年的源头及其历史。
7楼2016-08-14 15:45:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 邙山的鱼 的主题更新
信息提示
请填处理意见