版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

北京石油化工学院2026年研究生招生接收调剂公告

返回列表

当前只显示满足指定条件的回帖，点击这里查看本话题的所有回帖

yuffey

新虫 (著名写手)

World Tour

JEPI: 3
应助: 548 (博士)
贵宾: 0.387
金币: -5189.2
散金: 160
红花: 21
帖子: 2431
在线: 261.3小时
虫号: 224170
注册: 2006-03-22
性别: GG
专业: 计算机网络

[交流] 【分享-Science最新力作-数据分析】如何在数据集中寻找关联/关系已有9人参与

【来源】Havard University
【内容】本月16日Science出版的如何在大数据集中寻找关系的论文，非常有意思，可以借鉴。我已经向作者要了相关的代码，等待回复。
【题目】Detecting Novel Associations in Large Data Sets
【页码】期卷页： 12/16/2011 第334卷第6062期 1518~1524页
【领域】信息科学 » 计算机科学 » 计算机科学的基础理论
【链接】http://www.sciencemag.org/content/334/6062/1518
【DOI】 10.1126/science.1205438

【摘要】Identifying interesting relationships between pairs of variables in large data sets is increasingly important. Here, we presenta measure of dependence for two-variable relationships: the maximal information coefficient (MIC). MIC captures a wide rangeof associations both functional and not, and for functional relationships provides a score that roughly equals the coefficientof determination (R2) of the data relative to the regression function. MIC belongs to a larger class of maximal information-based nonparametricexploration (MINE) statistics for identifying and classifying relationships. We apply MIC and MINE to data sets in globalhealth, gene expression, major-league baseball, and the human gut microbiota and identify known and novel relationships.
作者：Reshef, David N.; Reshef, Yakir A.; Finucane, Hilary K.; Grossman, Sharon R.; McVean, Gilean; Turnbaugh, Peter J.; Lander, Eric S.; Mitzenmacher, Michael; Sabeti, Pardis C.

[ 来自科研家族快乐家族 ]

回复此楼

» 猜你喜欢

一志愿华南师范大学0702物理学305调剂已经有5人回复
求调剂已经有30人回复
266求调剂已经有10人回复
297求调剂已经有16人回复
326分，一志愿沪9，求生物学调剂已经有4人回复
288求调剂，一志愿华南理工大学071005 已经有3人回复
304求调剂已经有13人回复
调剂已经有18人回复
293调剂已经有4人回复
338求调剂已经有7人回复

» 本主题相关价值贴推荐，对您同样有帮助:

如何查一本书籍所在的数据库啊已经有3人回复
提取DNA的过程中如何有效的除去蛋白质已经有7人回复
强烈推荐的好案例：学习一下如何利用ppt展示数据？？？【转载】已经有149人回复
盒状图表示的数据意义是什么？如何做盒状图？请高手指点，谢谢！已经有9人回复
求助一段英译汉，谢谢已经有5人回复
ACS 里期刊某一期的目录如何下载？有点着急的事情。已经有3人回复
这一段话，如何翻译好呢？（英中）已经有2人回复
求助：如何使endnote中一个reference关联两篇文献？已经有5人回复
如何取消Chemoffice 2010和excel之间的关联【已解决】已经有2人回复
【讨论】如何关联TLC爬板高度和过柱子柱高？已经有8人回复

1楼 2011-12-22 14:30:37

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

wakinfan

铁杆木虫 (著名写手)

应助: 41 (小学生)
金币: 7778
散金: 1073
红花: 6
沙发: 17
帖子: 2438
在线: 1148.7小时
虫号: 593438
注册: 2008-09-05
性别: GG
专业: 计算机网络

★
小木虫(金币+0.5):给个红包，谢谢回帖

非常有意思吗？

数据挖掘的一个东东而已，而且这个题目起得也真不怎么样。
楼主可否详细讲讲？

赞一下(1人)

回复此楼

女口果人尔能看日月白这段言舌，那言兑日月人尔白勺目艮目青有严重白勺散光。

3楼2011-12-23 15:23:43

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

查看全部 10 个回答

chenxh97

银虫 (著名写手)

应助: 29 (小学生)
金币: 2500.2
散金: 549
红花: 9
帖子: 1353
在线: 424小时
虫号: 1186403
注册: 2011-01-09
专业: 核技术及其应用

★
小木虫(金币+0.5):给个红包，谢谢回帖

支持下版主，辛苦了！

回复此楼

2楼2011-12-23 10:33:13

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

scutyu

金虫 (小有名气)

应助: 5 (幼儿园)
金币: 1073.5
帖子: 179
在线: 122.7小时
虫号: 1331828
注册: 2011-06-26
性别: GG
专业: 控制理论与方法

★
小木虫(金币+0.5):给个红包，谢谢回帖

到底用在哪个方面的。看题目就吓人的。

赞一下

回复此楼

博士毕业，科研继续要搞。

5楼2012-02-10 21:59:06

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

zhangkai_bj

木虫 (著名写手)

应助: 22 (小学生)
金币: 5546.3
红花: 3
帖子: 1515
在线: 269小时
虫号: 898828
注册: 2009-11-10
专业: 动力学与控制

★
小木虫(金币+0.5):给个红包，谢谢回帖

http://www.xinkexue.com/lib.php? ... iew&refid=26251

科学家介绍数据处理新工具
来自哈佛大学，Broad研究院的研究人员发表了题为“Detecting novel associations in large data sets Science”的文章，介绍了一种强大的在庞大数据集中发现潜在重要关系的统计方法，这种方法能快速通过给不同类型关联进行评估，从而发现广泛范围的关系类型，这将有助于生物学，及其它学科的研究，相关成果公布在Science杂志上。

文章的第一作者是哈佛大学，麻省理工健康科学与技术组的David N. Reshef，以及Yakir A. Reshef，前者表示，“标准的方法只能通过一种模式观察一种信号，而把其它作为了背景”，“但是关系数据集中存在许多不同类型的关联，我们的这种方法令人激动之处在于它能寻找任何类型数据清楚结构，并尝试发现它们。”

现代社会充斥着各种各样的信息，生命科学领域尤其是在测序技术飞速发展以来，获得了大量的 DNA基因组信息，比如国内的华大基因，据称其167台DNA组序器每天制造着相当于2000人的基因组，如此多的基因组使测序机构常常很难通过互联网或其他通讯线路将这些结果传送给客户或是合作伙伴，因为这需要几周时间，因此出现了通过快递邮寄包含了这些数据的电脑磁盘的现象。

而且如果需要从这些庞大的数据集里找到其中的关联，更加是令人感到头疼，在这篇文章中，研究人员提出了一种在庞大的数据集中发现潜在重要关系的强有力的统计方法。

利用这种方法——被称为MINE，研究人员无需事前对其寻找的关系类型有所了解，就检测由多种因素驱动的复杂模式。MINE基于最大信息系数（MIC），其依据的理念是，如果2个变量之间存在着一种关系，那么就应该有一种方法在那些变量的散点图上画一个网格，使得大多数的数据点集中在该网格的几个单元格中。通过搜寻这种“最适合”的网格，计算机可以计算MIC及一族可用来发现并描绘关系的相关的统计数据。

研究人员将MINE方法与其它的方法进行了比较，结果发现MINE更适合于作快速的数据探索。他们利用这一方法，揭示了4例真正的数据集中的熟悉的和先前未知的关系：世界卫生数据、棒球统计数据、酵母菌基因表达数据及一组人类肠道中细菌丰度的数据。

同期Science观点栏目也对这一研究进行了讨论，并回顾了相关系数的历史，该历史以1888年由查尔斯-达尔文的半表亲Francis Galton所发明的相关系数开始。

近期值得关注的还有，由中国科学家主导的研究完成了50个水稻基因组重测序及遗传变异数据库构建等，这首次对栽培稻和野生稻基因组进行了大规模的遗传变异分析，为科学家深入挖掘水稻重要农艺性状基因及促进水稻分子育种改良等研究提供了宝贵的基因资源。（来源：生物通万纹）

赞一下

回复此楼

7楼2012-02-10 22:53:43

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

查看全部 10 个回答

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[考研] 0703化学调剂 348分 +10	唉我超真没招了 2026-04-06	10/500	2026-04-08 00:45 by JourneyLucky
[考研] 化工学硕 285求调剂 +23	Wisjxn 2026-04-07	23/1150	2026-04-07 22:55 by JourneyLucky
[考研] 259求调剂 +5	就爱吃土豆呀呀 2026-04-07	5/250	2026-04-07 22:40 by JourneyLucky
[考研] 285求调剂 +17	AZMK 2026-04-02	18/900	2026-04-07 20:31 by 蓝云思雨
[考研] 080500求调剂 +12	黄宇博 2026-04-06	12/600	2026-04-07 12:41 by upczlm1989
[考研] 复试调剂 +14	呼呼？~+123456 2026-04-05	14/700	2026-04-06 22:50 by chenzhimin
[考研] 320分人工智能调剂 +8	振—TZ 2026-04-03	8/400	2026-04-05 22:33 by 范式思维
[考研] 322求调剂 +3	嗯哼哼恒 2026-04-05	3/150	2026-04-05 19:52 by nepu_uu
[考研] 323求调剂 +8	李佳乐1 2026-04-04	8/400	2026-04-04 22:26 by hemengdong
[考研] 325求调剂 +4	春风不借意 2026-04-04	4/200	2026-04-04 22:08 by 啵啵啵0119
[考研] 333求调剂 +12	wfh030413@ 2026-04-03	13/650	2026-04-04 21:02 by jj987
[考研] 331求调剂 +3	niby 2026-04-02	3/150	2026-04-04 19:56 by 蓝云思雨
[考研] 一志愿沪9，求生物学调剂，326分 +6	刘墨墨 2026-04-04	6/300	2026-04-04 19:44 by 唐沐儿
[考研] 265求调剂 +17	林深温澜 2026-04-01	20/1000	2026-04-04 01:09 by userper
[考研] 考研调剂 +3	15615482637 2026-04-03	3/150	2026-04-03 22:50 by ms629
[考研] 350一志愿北京航空航天大学08500材料科学与工程求调剂 +5	kjnasfss 2026-04-03	5/250	2026-04-03 22:29 by 无际的草原
[考研] 303求调剂 +3	一色清羽 2026-04-02	4/200	2026-04-03 10:22 by 蓝云思雨
[考研] 338求调剂，一志愿能源动力，外语是日语203 +5	zzz，，r 2026-04-02	5/250	2026-04-03 09:45 by 蓝云思雨
[考研] 296求调剂 +4	sdhu 2026-04-02	4/200	2026-04-02 21:29 by baoball
[考研] 279求调剂 +6	学而思兮知 2026-04-01	6/300	2026-04-02 09:16 by vgtyfty

24小时热门版块排行榜

yuffey

[交流] 【分享-Science最新力作-数据分析】如何在数据集中寻找关联/关系 已有9人参与

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

wakinfan

chenxh97

scutyu

zhangkai_bj

[交流] 【分享-Science最新力作-数据分析】如何在数据集中寻找关联/关系已有9人参与