24小时热门版块排行榜    

Znn3bq.jpeg
北京石油化工学院2026年研究生招生接收调剂公告
查看: 1282  |  回复: 9

yuffey

新虫 (著名写手)

World Tour

[交流] 【分享-Science最新力作-数据分析】如何在数据集中寻找关联/关系 已有9人参与

【来源】Havard University
【内容】本月16日Science出版的如何在大数据集中寻找关系的论文,非常有意思,可以借鉴。我已经向作者要了相关的代码,等待回复。
【题目】Detecting Novel Associations in Large Data Sets
【页码】期卷页: 12/16/2011 第334卷 第6062期 1518~1524页
【领域】信息科学 » 计算机科学 » 计算机科学的基础理论
【链接】http://www.sciencemag.org/content/334/6062/1518
【DOI】 10.1126/science.1205438

【摘要】Identifying interesting relationships between pairs of variables in large data sets is increasingly important. Here, we presenta measure of dependence for two-variable relationships: the maximal information coefficient (MIC). MIC captures a wide rangeof associations both functional and not, and for functional relationships provides a score that roughly equals the coefficientof determination (R2) of the data relative to the regression function. MIC belongs to a larger class of maximal information-based nonparametricexploration (MINE) statistics for identifying and classifying relationships. We apply MIC and MINE to data sets in globalhealth, gene expression, major-league baseball, and the human gut microbiota and identify known and novel relationships.
作 者:Reshef, David N.; Reshef, Yakir A.; Finucane, Hilary K.; Grossman, Sharon R.; McVean, Gilean; Turnbaugh, Peter J.; Lander, Eric S.; Mitzenmacher, Michael; Sabeti, Pardis C.

[ 来自科研家族 快乐家族 ]
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

chenxh97

银虫 (著名写手)


小木虫(金币+0.5):给个红包,谢谢回帖
支持下版主,辛苦了!
2楼2011-12-23 10:33:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wakinfan

铁杆木虫 (著名写手)


小木虫(金币+0.5):给个红包,谢谢回帖
非常有意思吗?

数据挖掘的一个东东而已,而且这个题目起得也真不怎么样。
楼主可否详细讲讲?
女口果人尔能看日月白这段言舌,那言兑日月人尔白勺目艮目青有严重白勺散光。
3楼2011-12-23 15:23:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
谢谢分享!
4楼2011-12-23 16:35:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

scutyu

金虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖
到底用在哪个方面的。看题目就吓人的。
博士毕业,科研继续要搞。
5楼2012-02-10 21:59:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

westfield

金虫 (小有名气)

密切关注
6楼2012-02-10 22:39:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangkai_bj

木虫 (著名写手)


小木虫(金币+0.5):给个红包,谢谢回帖
http://www.xinkexue.com/lib.php? ... iew&refid=26251

科学家介绍数据处理新工具
来自哈佛大学,Broad研究院的研究人员发表了题为“Detecting novel associations in large data sets Science”的文章,介绍了一种强大的在庞大数据集中发现潜在重要关系的统计方法,这种方法能快速通过给不同类型关联进行评估,从而发现广泛范围的关系类型,这将有助于生物学,及其它学科的研究,相关成果公布在Science杂志上。

文章的第一作者是哈佛大学,麻省理工健康科学与技术组的David N. Reshef,以及Yakir A. Reshef,前者表示,“标准的方法只能通过一种模式观察一种信号,而把其它作为了背景”,“但是关系数据集中存在许多不同类型的关联,我们的这种方法令人激动之处在于它能寻找任何类型数据清楚结构,并尝试发现它们。”

现代社会充斥着各种各样的信息,生命科学领域尤其是在测序技术飞速发展以来,获得了大量的 DNA基因组信息,比如国内的华大基因,据称其167台DNA组序器每天制造着相当于2000人的基因组,如此多的基因组使测序机构常常很难通过互联网或其他通讯线路将这些结果传送给客户或是合作伙伴,因为这需要几周时间,因此出现了通过快递邮寄包含了这些数据的电脑磁盘的现象。

而且如果需要从这些庞大的数据集里找到其中的关联,更加是令人感到头疼,在这篇文章中,研究人员提出了一种在庞大的数据集中发现潜在重要关系的强有力的统计方法。

利用这种方法——被称为MINE,研究人员无需事前对其寻找的关系类型有所了解,就检测由多种因素驱动的复杂模式。MINE基于最大信息系数(MIC),其依据的理念是,如果2个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格,使得大多数的数据点集中在该网格的几个单元格中。 通过搜寻这种“最适合”的网格,计算机可以计算MIC及一族可用来发现并描绘关系的相关的统计数据。

研究人员将MINE方法与其它的方法进行了比较,结果发现MINE更适合于作快速的数据探索。他们利用这一方法,揭示了4例真正的数据集中的熟悉的和先前未知的关系:世界卫生数据、棒球统计数据、酵母菌基因表达数据及一组人类肠道中细菌丰度的数据。

同期Science观点栏目也对这一研究进行了讨论,并回顾了相关系数的历史,该历史以1888年由查尔斯-达尔文的半表亲Francis Galton所发明的相关系数开始。

近期值得关注的还有,由中国科学家主导的研究完成了50个水稻基因组重测序及遗传变异数据库构建等,这首次对栽培稻和野生稻基因组进行了大规模的遗传变异分析,为科学家深入挖掘水稻重要农艺性状基因及促进水稻分子育种改良等研究提供了宝贵的基因资源。 (来源:生物通 万纹)
7楼2012-02-10 22:53:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gyq2006

木虫 (著名写手)


小木虫(金币+0.5):给个红包,谢谢回帖
觉得没有文章附件,太没有意思了
8楼2012-03-11 09:38:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cherishren

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
有人实现 supporting online material 里面的算法了吗? 有个地方不太明白
9楼2012-05-03 14:04:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

meizi1114

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
赞 弄明白了论文中的一个点
10楼2016-03-15 17:17:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 yuffey 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 材料与化工专硕306分找合适调剂 +20 沧海轻舟e 2026-04-06 20/1000 2026-04-07 22:54 by 来看流星雨10
[考研] 专硕085403,291分,有两篇专利,一国一奖 +3 哈吉咪哈吉咪 2026-04-07 3/150 2026-04-07 18:21 by 蓝云思雨
[考研] 315求调剂 +3 TUZEIQAQ 2026-04-02 3/150 2026-04-07 17:32 by chenp123
[考研] 复试调剂 +9 春日来信- 2026-04-03 9/450 2026-04-07 15:17 by 尽舜尧1
[考研] 软工学硕299求调剂 +6 useryy 2026-04-07 6/300 2026-04-07 09:50 by vgtyfty
[考研] 0855求调剂材料 +11 红桃灼灼 2026-04-04 12/600 2026-04-06 10:26 by 蓝云思雨
[考研] 一志愿武汉理工大学-085601材料工程(专硕)-总分353求调剂 +3 2626262626li 2026-04-02 3/150 2026-04-06 09:08 by 无际的草原
[考研] 272分求调剂 +4 wangyile2233 2026-04-02 4/200 2026-04-05 22:21 by 286640313
[考研] 生物与医药调剂 +4 十七sa 2026-04-05 4/200 2026-04-05 20:05 by lys0704
[考研] 调剂 +3 李广火 2026-04-05 3/150 2026-04-05 18:57 by 蓝云思雨
[考研] 282求调剂 +7 aaa车辆 2026-04-02 11/550 2026-04-05 17:24 by yulian1987
[考研] 083200 333求调剂 +3 十二!! 2026-04-04 3/150 2026-04-05 08:28 by barlinike
[考研] 考研调剂 +5 四川王涛 2026-04-04 5/250 2026-04-04 22:18 by 啵啵啵0119
[考研] +5 雾与海 2026-04-02 6/300 2026-04-04 19:53 by 蓝云思雨
[考研] 一志愿华北电力大学(北京),材料科学与工程学硕265,求调剂 +11 yelck 2026-04-03 12/600 2026-04-04 19:52 by dongzh2009
[考研] 321求调剂 +13 认真求上学 2026-04-02 13/650 2026-04-04 18:23 by macy2011
[考研] 311求调剂 +11 勇敢的小吴 2026-04-02 11/550 2026-04-03 21:46 by qlm5820
[考研] 286求调剂 +8 lim0922 2026-04-02 8/400 2026-04-03 20:19 by rzh123456
[考研] 一志愿北京交通大学材料工程总分358 +4 cs0106 2026-04-03 4/200 2026-04-03 13:41 by 百灵童888
[考研] 一志愿山东大学,085600,344 +7 魏子per 2026-04-02 8/400 2026-04-02 21:12 by 百灵童888
信息提示
请填处理意见