| 查看: 1207 | 回复: 9 | |||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | |||
yuffey新虫 (著名写手)
World Tour
|
[交流]
【分享-Science最新力作-数据分析】如何在数据集中寻找关联/关系 已有9人参与
|
||
|
【来源】Havard University 【内容】本月16日Science出版的如何在大数据集中寻找关系的论文,非常有意思,可以借鉴。我已经向作者要了相关的代码,等待回复。 【题目】Detecting Novel Associations in Large Data Sets 【页码】期卷页: 12/16/2011 第334卷 第6062期 1518~1524页 【领域】信息科学 » 计算机科学 » 计算机科学的基础理论 【链接】http://www.sciencemag.org/content/334/6062/1518 【DOI】 10.1126/science.1205438 【摘要】Identifying interesting relationships between pairs of variables in large data sets is increasingly important. Here, we presenta measure of dependence for two-variable relationships: the maximal information coefficient (MIC). MIC captures a wide rangeof associations both functional and not, and for functional relationships provides a score that roughly equals the coefficientof determination (R2) of the data relative to the regression function. MIC belongs to a larger class of maximal information-based nonparametricexploration (MINE) statistics for identifying and classifying relationships. We apply MIC and MINE to data sets in globalhealth, gene expression, major-league baseball, and the human gut microbiota and identify known and novel relationships. 作 者:Reshef, David N.; Reshef, Yakir A.; Finucane, Hilary K.; Grossman, Sharon R.; McVean, Gilean; Turnbaugh, Peter J.; Lander, Eric S.; Mitzenmacher, Michael; Sabeti, Pardis C. [ 来自科研家族 快乐家族 ] |
» 猜你喜欢
天津大学招2026.09的博士生,欢迎大家推荐交流(博导是本人)
已经有3人回复
有时候真觉得大城市人没有县城人甚至个体户幸福
已经有6人回复
面上项目申报
已经有3人回复
酰胺脱乙酰基
已经有9人回复
CSC & MSCA 博洛尼亚大学能源材料课题组博士/博士后招生|MSCA经费充足、排名优
已经有5人回复
博士延得我,科研能力直往上蹿
已经有7人回复
退学或坚持读
已经有27人回复
面上基金申报没有其他的参与者成吗
已经有5人回复
遇见不省心的家人很难过
已经有22人回复
» 本主题相关价值贴推荐,对您同样有帮助:
如何查一本书籍所在的数据库啊
已经有3人回复
提取DNA的过程中如何有效的除去蛋白质
已经有7人回复
强烈推荐的好案例 :学习一下如何利用ppt展示数据 ???【转载】
已经有149人回复
盒状图表示的数据意义是什么?如何做盒状图?请高手指点,谢谢!
已经有9人回复
求助一段英译汉,谢谢
已经有5人回复
ACS 里期刊某一期的目录如何下载?有点着急的事情。
已经有3人回复
这一段话,如何翻译好呢?(英中)
已经有2人回复
求助:如何使endnote中一个reference关联两篇文献?
已经有5人回复
如何取消Chemoffice 2010和excel之间的关联【已解决】
已经有2人回复
【讨论】如何关联TLC爬板高度和过柱子柱高?
已经有8人回复
zhangkai_bj
木虫 (著名写手)
- 应助: 22 (小学生)
- 金币: 5546.3
- 红花: 3
- 帖子: 1515
- 在线: 269小时
- 虫号: 898828
- 注册: 2009-11-10
- 专业: 动力学与控制
★
小木虫(金币+0.5):给个红包,谢谢回帖
小木虫(金币+0.5):给个红包,谢谢回帖
|
http://www.xinkexue.com/lib.php? ... iew&refid=26251 科学家介绍数据处理新工具 来自哈佛大学,Broad研究院的研究人员发表了题为“Detecting novel associations in large data sets Science”的文章,介绍了一种强大的在庞大数据集中发现潜在重要关系的统计方法,这种方法能快速通过给不同类型关联进行评估,从而发现广泛范围的关系类型,这将有助于生物学,及其它学科的研究,相关成果公布在Science杂志上。 文章的第一作者是哈佛大学,麻省理工健康科学与技术组的David N. Reshef,以及Yakir A. Reshef,前者表示,“标准的方法只能通过一种模式观察一种信号,而把其它作为了背景”,“但是关系数据集中存在许多不同类型的关联,我们的这种方法令人激动之处在于它能寻找任何类型数据清楚结构,并尝试发现它们。” 现代社会充斥着各种各样的信息,生命科学领域尤其是在测序技术飞速发展以来,获得了大量的 DNA基因组信息,比如国内的华大基因,据称其167台DNA组序器每天制造着相当于2000人的基因组,如此多的基因组使测序机构常常很难通过互联网或其他通讯线路将这些结果传送给客户或是合作伙伴,因为这需要几周时间,因此出现了通过快递邮寄包含了这些数据的电脑磁盘的现象。 而且如果需要从这些庞大的数据集里找到其中的关联,更加是令人感到头疼,在这篇文章中,研究人员提出了一种在庞大的数据集中发现潜在重要关系的强有力的统计方法。 利用这种方法——被称为MINE,研究人员无需事前对其寻找的关系类型有所了解,就检测由多种因素驱动的复杂模式。MINE基于最大信息系数(MIC),其依据的理念是,如果2个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格,使得大多数的数据点集中在该网格的几个单元格中。 通过搜寻这种“最适合”的网格,计算机可以计算MIC及一族可用来发现并描绘关系的相关的统计数据。 研究人员将MINE方法与其它的方法进行了比较,结果发现MINE更适合于作快速的数据探索。他们利用这一方法,揭示了4例真正的数据集中的熟悉的和先前未知的关系:世界卫生数据、棒球统计数据、酵母菌基因表达数据及一组人类肠道中细菌丰度的数据。 同期Science观点栏目也对这一研究进行了讨论,并回顾了相关系数的历史,该历史以1888年由查尔斯-达尔文的半表亲Francis Galton所发明的相关系数开始。 近期值得关注的还有,由中国科学家主导的研究完成了50个水稻基因组重测序及遗传变异数据库构建等,这首次对栽培稻和野生稻基因组进行了大规模的遗传变异分析,为科学家深入挖掘水稻重要农艺性状基因及促进水稻分子育种改良等研究提供了宝贵的基因资源。 (来源:生物通 万纹) |
7楼2012-02-10 22:53:43
chenxh97
银虫 (著名写手)
- 应助: 29 (小学生)
- 金币: 2500.2
- 散金: 549
- 红花: 9
- 帖子: 1353
- 在线: 424小时
- 虫号: 1186403
- 注册: 2011-01-09
- 专业: 核技术及其应用
2楼2011-12-23 10:33:13

3楼2011-12-23 15:23:43
scutyu
金虫 (小有名气)
- 应助: 5 (幼儿园)
- 金币: 1073.5
- 帖子: 179
- 在线: 122.7小时
- 虫号: 1331828
- 注册: 2011-06-26
- 性别: GG
- 专业: 控制理论与方法

5楼2012-02-10 21:59:06













回复此楼
到底用在哪个方面的。看题目就吓人的。