当前位置: 首页 > 信息科学 >【转】裸奔的Barabasi

【转】裸奔的Barabasi

作者 dameng
来源: 小木虫 500 10 举报帖子
+关注

转自科学网  
http://blog.sciencenet.cn/blog-404304-770977.html
系列博文之二——曼诺利斯你赶紧撤稿得了
系列博文之三——我揍你是为了你好啊你造吗?
PS:如果你竟然不知道Barabasi是谁,请无视吧。



愤怒的莱尔帕切特【一】:裸奔的网络皇帝  精选
已有 3437 次阅读 2014-2-25 21:22 |系统分类:观点评述

   2014年2月10, 11, 12日三天,加州大学伯克利分校数学系、分子与细胞生物学系和电子工程与计算机科学系的莱尔帕切特(Lior Pachter)教授在他的个人博客上连续发表了三篇博文,强烈抨击2013年8月同时发表在Nature Biotechnology上的两篇论文:

1.      The network nonsense of Albert-László Barabási
2.      The network nonsense of Manolis Kellis
3.      Why I read the network nonsense papers
被批评的两篇NBT论文是:
1. Barzel B1, Barabási AL. (2013) Network link prediction by global silencing of indirect correlations. Nat Biotechnol., 31(8):720-5.

2. Feizi S1, Marbach D, Médard M, Kellis M. (2013) Network deconvolution as a general method to distinguish direct dependencies in networks. Nat Biotechnol., 31(8):726-33.



其中,”nonsense”这个词怎么精确的翻译,让我思考了很久。虽然有点儿不雅,但个人以为用南京方言里的形容词“依壁雕凿”来描述,是比较能够贴合莱尔写博客时愤怒的心境。在这三篇博文里,莱尔首先不屑的指出著名的“网络皇帝”(network emperor)、美国东北大学 (Northeastern University) 物理系和计算机科学与生物系的复杂网络研究中心的埃尔伯特-拉斯洛巴拉巴西(Albert-László Barabási)教授的数学烂到掉底儿,痛批巴拉巴西那些所谓的“发现”其实狗屁不通,因此结论就是虽然网络皇帝经常在Nature, Science这些刊物上炫耀自己的新衣,但是全世界都真真切切地看着皇帝正在裸奔;当然这不是高潮,莱尔在第二篇里继续抨击另一位生物信息领域的大牛、MIT计算生物学研究组负责人曼诺利斯凯利斯(Manolis Kellis)副教授(2011年“甜妞”),并且使用了“不诚实和欺诈的”(dishonest and fraudulent) 的字眼,这种指责在惜名如命的学术界里,几乎是毁灭性的指控;当然你如果认为这就是高潮,那你就错了,莱尔在第三篇博文里洋洋得意的指出:兄弟我从2006年开始就痛恨曼诺利斯,一直想办法抓他把柄,终于给我逮住了吧。这叫什么不怕什么偷,就怕什么惦记啊?兄弟我就是惦记着这哥们,给我逮住算他倒霉。

完了。三篇博文一出,整个生信领域像是被丢进了颗重量级的核弹,众皆哗然:你要打曼诺利斯那就打吧,人家网络皇帝招你啥事了啊?(巴拉巴西小声嘀咕:我招谁惹谁了?)还有,你打了人,还沾沾自喜说你一贯对人有成见,这都哪跟哪啊?这下好了,美国的同行们一看见标题,二话不说,先拿过来慢慢一桶的爆米花;欧洲的同行们也不看球了,叼着巧克力,拎着啤酒瓶;中国的同行们一看,我靠,这么震撼,赶紧点根烟压压惊:大家一边吃零食、喝啤酒、抽烟,一边搬个马叉坐下来慢悠悠的看热闹。

有啥热闹可看的?当然是有。首先,生信这个圈子现在还不大,无论是国外还是国内,就那些人,所以有个风吹草动的很快就能传遍整个圈子;其次,搞生信的人生活一般比较简单,工作、生活、写博客或者看博客,领域里面一般没啥大新闻,就算是整个大新闻,那也是跑出去忽悠圈儿外的人,自己人之间忽悠起来还是挺困难的;再次,这场架打的水平那真是不一般的高,高科技打架斗殴啊,高科技打仗这是现在的流行趋势,高科技打架那还真是不多见,能明明白白看懂整场架的每一招一式,非常不容易,理论上来说需要有非常强悍的数学背景,物理背景要扎实,计算机水平要高,还得有相当的生物学功底。不要看我,我反正是没本事看懂这架是咋打的,当然我也很认真的找各种资料,仔细阅读博文和相应的评论,从12号Shirley转给我博文链接到今天,前后琢磨了两周的时间。当然即使这样,这场架还是没大看明白,于是到处请教各位同行朋友,结合大家的观点,凑成这篇博文。当然说实话,兄弟我这数学实在是太渣了,要是还有看走眼或者看错的招式,尽管补充哈。



一、裸奔的“网络皇帝”

   莱尔写博客的时间不长,2013年8月开始,也就半年多的时间。但绝对绝对是博客界的奇葩。莱尔写博客的风格非常鲜明,那就是无论如何上来先噼里啪啦一顿胖揍,揍的角度自然是他最拿手的数学(这不废话吗?人家是货真价实的数学家),当然喽,个人以为你一个数学家讥笑人家物理学数学水平不咋地,这个实在有点儿不厚道。因为莱尔本来的目的就要批曼诺利斯,但郁闷的是巴拉巴西正好与曼诺利斯“背靠背”的同一期发表对同一个问题的计算分析方法,再加上莱尔本来就对巴拉巴西不爽(这个也正常,网络皇帝是个极其有争议的人物,捧他的人是铁杆誓死捍卫,批他的人真是批到一钱不值),所以二话不说先逮住巴拉巴西,上去就是一顿暴打。

   等会儿,莱尔这么闹腾了半天,究竟是个什么事儿?这话说起来有那么点儿复杂。这得讲到网络这个东西,最早的渊源呢,就是匈牙利有个天才数学家Erdos,跟他的小伙伴Renyi,在漫长的灌着水的学术生涯里,一不小心研究了一下随机网络发了八篇论文,后来觉得没啥意思,就收手不玩了。后来巴拉巴西,真好也是匈牙利裔,一看这玩意儿不错,加了俩限制条件,即网络生长模式和“强者恒强”的节点连接模式,这样随机网络一下子就不随机了,变成了一种奇怪的,被巴拉巴西称为“无尺度”(Scale-free) 网络。从这个网络里,学者们发现了很多很多有意思的现象,并且表明这个星球上,如果不是所有那也是绝大部分的网络,都是无尺度网络。所以巴拉巴西后来得意洋洋的主要根据自己的研究结果,写了两本畅销并且极其忽悠的书:《链接》和《爆发》。问题就来了:巴拉巴西你这要干啥的?吃饱了撑得没事干,写两本书出来娱乐娱乐大众?你要这么想,那你就错了。巴拉巴西的目标很明确:拿诺奖。可是问题又来了:网络这东西,给你发个啥奖?跟化学不沾边,那发个物理奖吧。物理奖?怎么可能啊,物理领域等着拿奖的多了去了,你看人家希格斯辛辛苦苦的活着为的啥?还不是为了等着拿奖。所以巴拉巴西要想在物理这个领域拿奖,难度真的不是一般的高。所以,后面的事情就很容易理解了:生物。如果网络的理念能够解释生物学的现象,并且像分子动力学(MD)这样扎扎实实的用到生物学和医学里去,做出重大的贡献,那既有可能拿生理学奖,也可以仿照MD杀回去拿他的物理奖。所以瞄准生物就等于给网络研究上了个双保险,反正只要上到应用,跟诺奖那帮评委们就有讨价还价的余地了。

   当然上面一段是大背景啦。具体到本例,那就是目前生物学网络存在一个现象:我用芯片做基因表达谱的分析,观测到有些基因表达与其他基因的表达是正相关或者负相关,但是生物分子存在直接或间接的相互作用关系,因此,怎么从这些关联的数据里发现直接的调控关系?好吧,我知道这个问题描述的有点儿抽象,举个形象点儿的例子:我和小伙伴们一起在操场上踢球,老马控球,以娴熟的技术过了我,我不高兴了,二话不说上去一脚直接把老马踹翻。其他小伙伴诸如老猫、老狗、老羊等一看:哇,这么凶猛!吓得腿发软,纷纷自动躺地上不动了。好,小兔子正好经过,一看,哇?这小子一脚踹翻这么多?第二天科学网博客头条:华工某教授神功盖世一脚踹翻数十位同事。看出问题了吧?就直接的关联来说,我的脚只踹到老马身上,就这一个是直接的“相互作用”,其他人躺地上不动了关我毛事啊?那都是酱油,不算数的(本例隆重感谢老马友情客串,故事纯属虚构,模仿有碍团结)。所以生物学家们关心的,是直接的相互作用关系,因为直接的关系才可能发现重要的调控关系,并有助于进一步的功能研究。而间接的关系一般来说木有任何的说服力,所以这种信息属于垃圾信息。

因此,这两篇文章要解决的问题,就是从关联数据里寻找直接或间接的分子间互相作用,也就是网络里关键“边”(linkage or edge)的预测。第一篇论文2012年10月22日投稿,2013年4月23日接收;第二篇论文2012年9月12日投稿,2013年6月11日接收。两篇论文在线发表了之后,立即引来各种争议,其中咱国内一位数学功底奇好的前辈高人,看见这两篇论文气的暴跳如雷:这也能叫数学?二话不说把自己正在做的东西也投了Bioinformatics:

3. Yu X1, Li G, Chen L. (2013) Prediction and early diagnosis of complex diseases by edge-network. Bioinformatics. 2013 Nov 29. [Epub ahead of print]

   这篇论文怎么样,我反正不说。当然你要是认为发在NBT上的论文怎么说都应该比Bioinformatics的好,那我只能呵呵了。陈老师虽然是咱华工电信系的校友,可是他跟数学界鼎鼎有名的大家章先生合作多年,数学的水准绝对的专业级的,发NBT这两位的数学,呵呵,加起来也未必赶得上。所以咱国内的生信学者,牛人照样有的是。

   说正事,说正事。因为巴拉巴西只是属于“连带”,所以莱尔其实批评的很客气。上来先吹捧一下,说这个链预测很重要啊,所以巴拉巴西弄个矩阵变换,变换完了这个计算的时间复杂度是O(n^6),莱尔看到这二话不说先去了趟茅房,回来之后莱尔一琢磨,举了个简单的例子,即包含三个节点的图,发现时间复杂度其实只有O(n^4),并且如果并行化的话,可以降到O(n^3)。当然这个没完,因为巴拉巴西的算法其实是根据某个矩阵G (全局效应,也就是基因表达的关联信息)求另一个矩阵S (局部效应,也就是直接相互作用关系)。这就牵涉到矩阵求逆的问题,问题是巴拉巴西的求逆第一是求近似解,第二是搞的还特麻烦。莱尔发现其实有一个更简单的方法求精确解,因此评论道:这玩意儿的难度充其量也就是本科生线性代数的家庭作业(the entire exercise would be suitable for an undergraduate linear algebra homework problem)。当然这不算晚,莱尔还顺道指出,巴拉巴西这个算法没有办法直接从实验里估算参数;陈老师当然是继续指出:这个算法还要求样本的规模比变量多(注:陈老师近年来以“小样本、无重复”的理念名震领域,主要是生物学实验一般都比较费钱、费时间,巴拉巴西的模型里参数超多,样本如果比参数多,那基本上是不具有任何实用价值的。“小样本、无重复”,或者少重复,这是计算生物学者必须面对也必须尽力解决的问题,无限实验是不可能的)。最后,莱尔指出,这玩意儿吧,其实准确性比已有的算法提高的非常有限,也就是巴拉巴西论文里Fig. 3C里说的,AROC从0.67上升到0.68(不解释了成不?总之就是改进了一个百分点,就一个),所以根本就不能称为啥新算法。因此,巴拉巴西的网络是“依壁雕凿”的。

   在第一篇博文即将结尾的时候,莱尔充分的展现了其作为一个数学家的严密推导能力,力图证明网络皇帝这么多年其实一直是在裸奔:

1. 巴拉巴西以“BA模型”(无尺度网络模型,最早用在互联网分析上)出名 (Barabási and Albert ‘Emergence of Scaling in Random Networks“, Science, Vol. 286 15 October 1999, pp. 509-512)。Lada Adamic和Bernardo Huberman 立即指出这个模型其实与实际观测到的网页链接结构是不符合的。Willinger, Alderson和Doyle指出,无尺度网络的确具有某些有趣的数学特性,但这些数学不是巴拉巴西,而是Bollobás和Riordan做的。

2. 巴拉巴西反复的强调代谢网络是无尺度网络里的一个代表性的例子,但是Reiko Tanaka的论文“Scale Rich Metabolic Networks”指出说代谢网络里木有尺度是扯淡,尺度是rich的。

3. Réka Albert, Hawoong Jeong & Albert-László Barabási 2000年发表在Nature的论文里,指出复杂网络面对错误的耐受性和面对攻击的脆弱性(《链接》这本书里的最核心的理念)。John Doyle在PNAS上专门发了篇文章,指出这种“耐受性”其实也极为脆弱,从头到尾把巴拉巴西批个遍。

4. 巴拉巴西在2005年发表的Nature论文”The origin of bursts and heavy tails in human dynamics”,指出人类的活动具有爆发性的特征(《爆发》这本书里的核心理念)。Daniel Stouffer, Dean Malmgren and Luis Amaral在随后的评论里指出这玩意儿就是个人造的(artifact) 的结果,并且被分析的电子邮件模式也不具有代表性。

5. Liu, Slotine and Barabási在2011年发表的Nature论文“Controllability of complex networks”,指出致密的、均一的网络可以通过少数几个驱动节点来调控。Carl Bergstrom和同事认为对于绝大多数网络,其实只需要控制一个节点,就能调控整个网络。



   写到这里,兄弟我真想大吼一声,莱尔你有完没完?这架你打的累不累啊?就为你这场架,我写的都写累死了,你难道真的不累?



   本部分结论:第一,莱尔从算法的角度严谨的证明了网络皇帝的数学也就是本科生的水平(我要哭出来了,兄弟我看不懂啊,好多同行看的也是稀里糊涂的,难道咱这帮都是中学的水平?我的自尊受到了森森的伤害);第二,巴拉巴西的几个主要概念,比如BA模型,代谢网络的无尺度性,网络容错性、爆发特征和络可控性,都被同行们批的焦头烂额,所以;第三,陛下你还是穿上衣服吧,别光着屁股受凉了。

不好意思,本来准备今天一天写完。写的实在太累了。尤其是“光腚五条”,我的的确确是木有精力挨篇看完,就算是莱尔指责巴拉巴西的算法有问题,看的也是稀里糊涂,所以,看到这儿,我想你能够明白:莱尔真是超牛啊!当然你还得清楚,莱尔的打击目标是曼诺利斯,所以,接下来的场面,比上述的要劲爆的多,震撼的量级大为提升。

   

   最后,虽然我数学是个渣,但我圈儿里同行们可基本上都比我的数学好,所以写这篇博文之前我专门请教了各位同行好友,这里特此鸣谢:Shirley,陈老师,师兄,丹丹师弟,和世华兄。都是高手啊,三两句一点拨,马上茅塞顿开,佩服佩服啊!



=============================================================================

1. 2.26,昨晚收到好友的信,指出博文里的几处错误,赶紧修改了一下。另外,巴拉巴西这个算法的矩阵求逆,老实说不怎么困难,线性代数我现在是忘干净了,但问题是当年上课的时候,这种求逆并不是什么不得了的难题。所以莱尔说的有道理。

愤怒的莱尔帕切特【二】:曼诺利斯你赶紧撤稿得了  精选
已有 4177 次阅读 2014-2-26 13:15 |系统分类:观点评述

    郁闷了,莱尔的博客三部曲痛扁NBT的网络研究论文,我这凑热闹的观战评论看来也得写三篇了。好吧,这是第二篇,终于讲到正题上了,前面只是开口羹而已。先唠叨几句,八一八莱尔其人。首先,这场架里,无论是挑衅者,还是挨打者,都不是泛泛之辈。网络皇帝那就不用说了,有死忠跳出来力挺的,这个正常,能被大家称为皇帝的,水平岂能一般?裸奔的皇帝,那也是皇帝。所以喜欢的必然是铁杆,不喜欢的也是一贯的痛恨,能有这么大的争议,那也说明他这皇帝没有白当。还有,莱尔批人的风格一贯是痛打,批评巴拉巴西这篇其实已经是很客气了。这是有原因的,因为巴拉巴西人品好,能力强还能不得罪人,属于人见人爱型的,又是一副帅锅形象,所以大家即使嘀咕他的学术,但对他为人基本上是没有什么意见的。所以搞学术人品好真是太重要了。

莱尔既然敢跳出来硬憾网络皇帝,自然也不是一般人。首先,他这个伯克利的教授肯定不是混出来的,他在生信这个领域里最有名的两个软件TopHat和Cufflinks,这个做基因组测序数据分析的人应该是都必须得知道,这俩都是分析RNA-seq数据的利器。莱尔在Google Scholar上的接近2万5的引用,也很容易说明莱尔起码是稳定的一流上的学者。看他的研究单位你也能明白他的研究背景和研究兴趣,数学好肯定是没话说。

如果说,对于巴拉巴西,莱尔只是在恭维一番之后轻飘飘不痛不痒的踩了几脚而已,那对于曼诺利斯来说,莱尔可就没有那么好的脾气了。莱尔在博文的第一段就直接指控曼诺利斯等人的论文“也”是“不诚实和欺诈的”(also dishonest and fraudulent)。奇怪啊,为什么用“也”呢?皇帝得跳出来表示他是无辜的。这个用词的分量很重,重到什么程度?可以直接让人身败名裂。

怎么指责呢?首先,莱尔总结这两篇论文的方法学,都提到同一个名词:“网络去卷积”(network deconvolution),陈老师的论文里用的也是这词。这个方法不知道是哪位学者在哪个领域里最先提出来的,但拿来分析生物学网络,这还是首次,所以从新颖性上来说,这种技术历来是NBT, Science等杂志最喜欢的话题。就问题描述和背景介绍方面,曼诺利斯写的比巴拉巴西更清楚,也更简单:通过实验数据观测到的关联网络里,有直接相互作用和间接相互作用,如何去除间接效应的影响获得直接的相互作用关系?此外,曼诺利斯的数学模型比巴拉巴西做的简单,更加优美。巴拉巴西是将整个观测到的数据作为一个矩阵G求直接相互作用的矩阵S。而曼诺利斯做了大胆的假设,即观测到的矩阵G(obs)=G(dir)+G(dir)^2+G(dir)^3… 这里面G(dir)就是直接相互作用,G(dir)^2是咋回事呢?这是描述一个节点通过另一个节点与第三个节点之间的间接作用;所以举一反三,G(dir)^3就是第一个节点通过中间俩节点与第四个节点之间的间接作用。因此,无论这个网络有多大,G(obs)都可以写成G(dir)的函数。这样利用高中数学的知识,G(obs)~=G(dir)/[I-G(dir)],把这个公式变形,根据G(obs)可以直接算G(dir),也就是求近似解。这样矩阵里的参数的个数就大大减少了,并且过拟合(overfitting)的可能性也大大减小了。

但是这样问题就来了,莱尔非常敏锐的发现了G(dir)+G(dir)^2+G(dir)^3…= G(dir)/[I-G(dir)]有一个很强的限制,那就是数列必须得是无穷的,对吧?可是学过网络的人应该都知道“六度空间”这个说法:人类社交网络节点的度数不是无限的,平均是6度;对于万维网来说,《链接》这本书讲的是19度。无论这个度数是6还是19,这都表明真实的无尺度网络里,数列无穷的假设其实是不成立的。并且,很显然,从直觉上来说,网络的拓扑结构,或者节点的平均度数,对这个近似的估算会造成相当的影响。问题是怎么消除这种影响呢?这就得说曼诺利斯真是够大胆的,他悄悄地加了一个缩放参数,把公式变为:G(obs)=γ* [G(dir)+G(dir)^2+G(dir)^3…],这事儿他在正文里可不说,放到补充材料里去了(这个是绝对不能说的,给审稿人看见这个,论文估计就没可能发NBT了),轻描淡写的提了一下,认为这种线性放缩是木有影响的(“the effect of linear scaling on the input matrix is that … it does not have an effect”),莱尔立即指出这是不可能的。

所以我们现在知道:第一,根据无穷数列可以简化成简单的公式求近似解;第二,因为数列不是无穷,所以必须加一个放缩的系数。这个问题就来了:这个系数你咋来的?很显然,两种方法,要么你瞎掰一个数字,要么你从已有的训练数据里通过数据拟合获得,对吧?这个放缩参数γ,在经过一系列公式推导和变形之后,变成另一个放缩参数β,还是参数,然后根据这玩意儿就可以用G(obs)求解G(dir)。好,这回是真正有问题了。这就得讲到DREAM (Dialogue for Reverse Engineering Assessments and Methods, 反向设计评估与方法的竞赛),这个比赛主要是建立实验与细胞网络推断和定量建模理论研究之间的联系。DREAM想回答的基本问题就是,从生物学数据里能否推断真实的生物分子的相互作用以及网络。其中2010年DREAM5里的一个比赛项目是“Network Inference Challenge”(网络推断挑战),即根据基因芯片获得的基因表达数据,推断分子的相互作用和调控关系。估计是当时参赛的结果非常糟糕,例如曼诺利斯的论文就指出,“针对酵母的提高是因为所有的方法打分都很低”(the strong S. cerevisiae improvements are due to low scores for all methods),他夸自己的方法的同时把研究现状说出来了。这个打分很低的问题,在生物学上有更合理的解释,这个要放在下一篇博客里介绍。所以网络去卷积的方法,主要还是用在大肠杆菌的调控网络推断上。

那么,莱尔说的这个“真正问题”,是什么呢?这就得说到生物信息学预测,其自身发展有一定的游戏规则,很多东西你可以忽悠,比如论文的讨论部分,你拿着小喇叭使劲吹没有关系,但有些基本性的问题,作为一个职业生物信息学家,你是绝对不可以越过底线的。这个底线就是,你不能既做裁判,又做运动员。你利用训练数据集估算参数,可以;你利用估算的参数再来检验算法对训练数据集的预测性能,这个也并不是说不可以,只是你必须必须声明,因为这玩意儿叫“自洽检验”(self-consistency validation),对搞生信的来说,这种检验就是笑话,因为你只需要简单地通过修改参数,必然可以把自洽检验的性能做到极高。做不到?兄弟你听说过“线性拟合”吗?轻松做到灵敏度和特异性都100%,也就是对训练集达到100%的预测准确性,这玩意儿实在木有任何技术难度,即使受过三个月生信训练的本科生,也能明白这东西其实就是造假。巴拉巴西的算法有好处,就是不需要什么额外的参数,所以可以直接根据检验数据,也就是DREAM5提供的测试数据来直接推断分子间的直接相互作用。当然他这方法不可取,太麻烦,参数太多,并且也就提高一个百分点。曼诺利斯这套算法是必须要估算β参数的,那理论上应该怎么操作呢?合理的做法是,他自己找一套训练集,先把β参数估出来,完了之后再用同样的参数去预测检验数据,对不对?所以莱尔这就发现问题了,首先,曼诺利斯找了两套不同的数据集来训练β参数,分别是0.95和0.99,然后,他拿着训练好的模型去预测测试集。问题是,奇迹出现了,在预测测试集的时候,β参数变成了0.5!这就麻烦了,莱尔揪住这个0.5不放,说你这个0.5是咋来的?你是根据训练集估出来的吗?那不合理啊,你估出来的是0.95和0.99,你难道是不小心写错了吗?这玩笑开大了吧。那你要不是根据训练集估出来的,莫非你是拿测试集估出来的?那这个玩笑开得就更大了:你拿着独立的测试集来估参数,你又拿着同样的测试集来评估预测准确性,这不成自洽检验了?并且你文章里还不说,这不忽悠审稿人吗?莱尔还继续举证,说这篇论文上线的时候,他就看过,还专门下载了正文和补充材料仔细阅读,完了之后重复他们结果,愣是重复不出来,所以他写信问作者,说你们这个β参数是你从训练集里估出来的吗?估计曼诺利斯实验室的人收到这信还搞不清楚莱尔是何方神圣,就回信说,兄弟我悄悄告诉你,这个参数是不一样的,你别跟别人说啊。后来作者们琢磨着这么玩儿不厚道啊,要是被人查出来就麻烦了,于是论文在线发表,正式出刊之前,他们又联系编辑,把补充材料里的Fig. S4的描述文字改了一下,把不同的β参数都加上了。所以,各位可以看明白了,审稿人事先必然是认为你拿着训练集估参数,然后直接拿这玩意儿去预测新的数据,获得了好的性能,值得发NBT。好,等文章接收了,我再改过来,这样以后有争议,我可以高高兴兴说审稿人认可啊,反正NBT正式出刊之后,之前的记录会在网上删掉,这样谁也没办法指责我。问题是,不怕什么偷就怕什么惦记,13年7月这篇论文上线,8月正式出刊,就这么短短的一个多月的时间,这一点点小小的漏洞被莱尔敏锐的抓住了。真是够狠啊。

我在12日下午第一次收到Shirley转来的链接,点开莱尔的博文看到时候,当时真是牙都笑掉了:人家就补充材料的Fig. S4里加上一句话,反正文章这么长,而且审稿周期这么长,作者不小心忘记给出β参数而已,至于这么小题大做吗?我相信不光是我会这么考虑,就算是编辑,也想着作者加一句话,对这文章能有多大的影响?何况这句话都不在正文里,而是放在补充材料的一个小角落里,哪有人去看啊。反复看了两个星期,再请教同行好友,终于琢磨明白了,这句话有还是没有,对这篇文章是质的影响:如果没有这句话,那么同行们按照行业规则,重复你工作的时候会老老实实拿训练集来估参数,完了之后拿着同样的参数来预测测试集,好嘛,大家都做不出来,实验不能重复是必须要撤稿的,计算结果不重复,那显然是必须撤稿。现在加上这句话,大家看了会觉得奇怪,你拿测试集当训练集,这种文章就算是投PLOS ONE,那也基本上是不可能接收的,因为not technical sound,所以大家第一会觉得生物学家真是好骗,NBT这帮评委真是弱智啊,第二会非常佩服曼诺利斯:真不是一般的牛人啊,灌水都要跑NBT上灌。

所以,如果你认可他论文接收时补充材料的版本,当然这个版本是显然经过同行评议的,那么这篇文章必须撤稿,因为莱尔写的是,他看到文章之后就二话不说下载了作者提供的源代码和数据,重新算了一遍,结果文章里所有的结果都重复不出来,这不叫造假,这还能叫啥?但是如果你认可他正式发表的论文,包括被同行评议的原文,以及同行没有看见的那句至关重要的话,那这篇文章只能算是灌水,没有什么学术不端,只能说评委们的智商太低。但是从必须撤稿转变到灌水,这个过程并没有同行评议,那么这里面是否存在学术不端?是否还应该撤稿呢?

莱尔很不客气的指出:如果能够拿着这个代码按他论文讲的重复一遍,能做出文章里的结果,他就给这人100刀,当然喽,要是重复不出来,那可以考虑撤稿。在莱尔的博文发表之后,曼诺利斯迅速的做出回应,在博文发表当天晚上8:31分,就在莱尔的博客里反驳,并贴出一个非正式的回应,措辞强硬的回击这些指责都是“诽谤的、无根据的、误导性的和其实是不对的”(defamatory, baseless, misleading, and factually incorrect),并且洋洋洒洒的写了5页,有图有真相的样子,证明他的方法对缩放参数不敏感,证明引入放缩参数的有效性,证明预测结果对于输入的参数有稳健性,等等。这回同行们彻底不干了,某前辈高人就跟我嘀咕,说曼诺利斯你跟他吵个啥啊?你就从实验室里找个学生,拿着原版的论文把结果重复一遍,你能重复出结果,那莱尔马上就闭嘴了。问题是:谁敢?重复不出来那就真要撤稿了。所以,曼诺利斯接下来的举动非常符合常理,那就是保持沉默。



故事讲到这里,基本上可以做个总结了。曼诺利斯以闪电般的速度成功把一个可以撤稿的故事转变成一篇水文,莱尔以超越闪电般的速度迅速发现漏洞,并且顺手就是一巴掌,打完了之后洋洋得意,四顾周围叫嚣着:还有谁?还有谁?还有王法吗?还有法律吗?没有回应。挨打的不吭气了,看打架的正忙着吃爆米花、喝啤酒、抽香烟呢,哪有时间管这事儿,哥们继续吧。

然后?没有然后了。

愤怒的莱尔帕切特【三】:我揍你是为了你好啊你造吗?  精选
已有 1136 次阅读 2014-2-26 16:15 |系统分类:观点评述

   前两篇博文一出,领域顿时沸腾了:生信从有这个领域开始,打架打成这个场面,科技含量这么高,不说绝后,最起码也是空前了。咱搞生信的,跟其他领域做的东西不一样,但有一个大家都是一样的:超级喜欢八卦。其实大家都知道莱尔写博客的风格,喜欢搞噱头,喜欢把人家一点点小小的问题无限放大痛批,喜欢夸大其词。所以有人评价,说莱尔发博客之后,你先别看,跑到Twitter上看看其他研究者有什么反应。一般来说,10个里面有9个是反对他的结论,或者觉得过分夸大。但等你回来仔细看莱尔的博文,你发现他讲的其实是对的。当然师兄说莱尔也有失手的时候,那应该算是小概率的事件,而且争执的本身也不伤筋动骨。

   两篇博文各位人马的反应相当的不一样,有些人就站出来,说莱尔是条汉子,好样的,小喇叭你吹就吹吧,你整天吹那就不厚道了。所以师弟就说是该有人出来管管,再这么吹就是逆天的节奏了。另外一些人就跳出来反驳,痛斥莱尔的博文对生信这个领域是毁灭性的。果真如此?

   当然,在第一次看莱尔博文的时候,因为我本人是网络皇帝的粉丝,所以觉得你这是鸡蛋里硬挑骨头,有争议又能怎么地啊?有争议说明人家红啊,你无非就是没有人家名气大,嫉妒呗,伯克利怎么有这么个心胸狭窄的教授啊,大学赶紧关门得了。看到第二篇,更生气了:人家就改了一句话,你够了,行吗?搞科研哪有不出错的时候?出了个错就吵成这样?你还好意思做教授,跟泼妇似得。所以,在看到第三篇博文的时候,我已经气得暴跳如雷了。

   我发火有道理,因为莱尔太过分。莱尔博文的标题是:我为啥要读这些“依壁雕凿”的网络论文。博文上来就直接谈到,2013年7月在柏林召开的ISMB会议(咱领域里顶级的会,不过我没参加过,一是审稿极严,二是过于注重方法,三是会议论文很鸡肋,国内不算数的,学生也不能拿来毕业,你要让我拿看家的GPS来投这个会议,那你杀了我我也不干,舍不得啊),他在茶歇时间闲的无聊坐一边望呆。突然,曼诺利斯走过来,说要跟他单独谈谈。谈啥哩?是这样的,曼诺利斯解释说,他12年9月在Science上发表了一篇ENCODE计划里论文,主要是谈人类演化出来之后获得的调控功能受到了很强的净化选择。论文一经发表,莱尔立即写了篇评论送给Science,说这篇文章的统计方法有问题,接着指出了一些小问题,结果Science一看这么技术性的指责,二话不说就给拒了。所以莱尔只好把这篇评论贴到预印本文库(这篇评论已经打不开了)里。当然,关于GO统计的问题,不做过多评论,如果你从数学的角度来讲,这是有问题的,但如果你从生物学功能的角度来讲,其实不是问题。而且这样的批评莱尔写的太多了,一般都无伤大雅,对曼诺利斯的影响基本接近为零。问题是,曼诺利斯解释道,这篇批评在Google上排的很靠前,这个对他很不方便,而且他认为莱尔在预印本这种地方贴他的批评,这种方式是错误的,因为他不能反驳。曼诺利斯建议,你有意见,挺好,别发网上,影响不好。并且,预印本文库不好的地方是,发表的东西不能删除,不像期刊,补充材料还可以修改,但是预印本会记录作者所有的操作。

   莱尔的反应?首先是很困惑,接着就发火了。他觉得,我的技术性评论被Science拒稿,只好投到预印本文库上,这也是最后一种学者可以表达他对领域关注的方式,难道这么做是错的?难道曼诺利斯就批评不得?(所以第一次看到这里其实我在偷偷的笑:NS这些杂志从来就不关注细节的技术性问题,那这东西投Science当然上不去)

   当然,上述这件事情只是压死骆驼的最后一根稻草,因为莱尔接着就叙述,早在2007年,因为生信的另一个会议RECOMB审稿的问题,他对曼诺利斯已经有了成见。当时曼诺利斯等人向这个会议投稿了一篇文章,那时候,其已经是领域内冉冉升起的新秀,风头强劲。会议主办方当然是高度重视,于是给送审,其中一个审稿人就是莱尔。莱尔一看这论文就觉得有问题,当然,仍然是方法学的问题。这里就不讨论曼诺利斯这个方法学是否真的有问题,但莱尔作为这篇论文的审稿人之一,他给出的评审意见是拒稿。但最终的结果是,论文发表了。这几天同行前辈告诉我一件趣事,说莱尔喜欢拒稿是出名的,国内举办了一个国际会议,请他审稿,他的意见是拒,结果后来收了,他气得暴跳如雷,打电话痛骂主办方,说这么烂的文章你们怎么能收呢?有些人是出了名的喜欢拒稿,不管你做成啥样,他都能给你挑出一堆毛病然后拒掉。这事儿以前看海良的博文也讲过,说搞了个会,请一位大牛审稿,结果论文统统拒掉。结果大家傻眼了,一篇文章不录取,这会还咋开啊?所以赶紧换人审稿,怎么说也得收个几篇。这种事儿哪个领域都应该是有的:自己的东西永远应该接收,别人的东西永远应该拒掉。要是人人都这么干,那谁也别发文章得了。所以估计RECOMB会议组织这一看曼诺利斯的文章被拒掉了,大吃一惊,赶紧换人审稿,这种风头正劲年轻学者还是少得罪的好,所以文章收了。然后就是莱尔很生气,后果自然也非常严重,第一,从此以后再也不参加RECOMB的会议,第二,从此对曼诺利斯有了森森的成见。所以这俩的梁子,就这么结下来了。这个就属于个人成见影响学术评价了,理论上来说,你对这个人有先入为主的成见,那你对他批评的可信程度就得大打折扣了,对吧?曼诺利斯一看有机可乘,二话不说在博客的评论里写到,莱尔对我们RECOMB论文的批评我是第一次知道(complete news),并且这种批评也是毫无根据的。并且表示了真诚的震惊,悲哀和麻烦的 (frankly shocked, saddened, and troubled)。他这个评论刚发出来,底下马上就有人跟帖,说兄弟你别在那里装无辜了成不?莱尔在博文里提到你的论文有问题,并给出拒稿意见之后,你自己又根据质疑修改了论文。所以你知道这事儿了好吧。所以,你按照意见修改了论文,是吧?啥时候啊,是在人家审稿前还是审稿后?还有,如果你没按意见改文章,那你反驳个毛啊?

   讲完这些,莱尔继续讲生信领域里方法学的问题,那就是方法学很重要,大家做模型、做数学、做算法,不能老是踩着西瓜皮做,滑哪儿做哪儿,生物学家你要忽悠也成,有个度就行了,别往死了忽悠还以此为乐,忽悠到同行都看不过去了,那就真是麻烦了。当然了,搞生物的数学、物理这些东西一般都不怎么好,这是现实,比如,我们做生信,讲到算法啦,模型啦之类的,听众马上给打断,说不好意思,你这数学太难了,我看不懂。所以莱尔表示很疑惑,那就是:人家数学学得不好,难道你就可以没完没了的忽悠人家?所以,他认为,搞计算生物学的同行们做研究应当更加严肃一些。所有人在做期刊的评委,基金委员会的评委,或者各种组委会的成员,大家的态度都一样,那就是少“树新蜂”,多谈谈科学。对吧?这个恐怕不光是国外,国内也一样啊,大家都是天天讲,做科研要扎实,不要玩忽悠。所以,莱尔的结论是:不要忽悠生物学家,不要忽悠计算学家,统计学家和数学家 (Don’t fool the biologists. Don’t fool the computer scientists, statisticians, and mathematicians)。

   讲到这里,我想各位自有判断。对,有不少学者也表示,你那是对人家有成见在先,天天惦记着修理人,你这批评咋还好意思发出来?当然有不少学者认为:讲学术,那就扎扎实实的讲学术,莱尔是有成见,可是他说的对不对?他讲错了大家都鄙视他,他要是讲的对,你不能说因为他有成见那就变成错的了。这篇博文发表之后,评论真是很精彩,不过实在太长了,我也没耐心看完。但读者很多不乏领域里的重量级学者,例如瑞士洛桑大学 (UNIL)的Marc Robinson-Rechavi教授,第一个写评论说感谢你写了这么多废话 (Thank you for writing these posts),并且你做了这么多的事情,这些东西也写不到你的简历里去。然后继续说,我看见有人谴责你批评人的方式,如果是我,那我就不会按这种方式发帖,但令我震惊的是,某些科学家们有一种文化趋势,即认为同行之间面子的尊重比对事实和逻辑上的真实尊重更为重要。如果你错了,那就应该让人知道,但是暗示说这种揭短的方式是不礼貌的行为,那与我们这些科学家的职业操守是背道而驰的。另一位学者,瑞士巴塞尔大学的Erik van Nimwegen教授也评论,说兄弟我想告诉你的是,尽管我不能同意你每句话,但是我确实很好地理解了你为啥这么干,并且我对你正在努力做得事情表示深有共鸣。并且看了你的博客,我就纳闷为啥我写博客就不能写成这样呢?是不是因为我没有足够的勇气,或者因为其他原因我不愿花时间做这种事儿呢?最后,Erik总结说,我认为领域内太多的顶级学者不愿意对糟糕的工作发表评论,我知道许多学者在私底下会讨论某个学者在灌水,即使这样的水文发表在高影响力的期刊上,但是绝大多数都不会在公开场合说。这件事情很重要,尤其是对刚刚进入领域的年轻学者来说,应当得意识到很多人其实就是在灌水,所以应该对研究非常的严格。



   在总结之前,对于利用网络去卷积的方法,从基因表达的关联数据里预测真是的分子间直接相互作用,就预测的准确性来说,不少同行是不相信的,或者部分不相信。有几个原因,第一,无论用什么算法,你使用的训练数据的质量是决定性的。如果你的数据质量不是100%的准确,例如,80%是对的,剩下20%是错的,你如果能用算法做到90%的准确性,你觉得可能吗?生物学的数据恰恰充满了噪音 (noise),实验上都未必敢断言必然是正确的,计算怎敢做此推断?第二,分子间的相互作用,发生在什么层面?你用基因表达芯片检测基因表达的水平,那自然是检测mRNA的存在与表达水平,对不对?可问题是分子间的相互作用,可以是转录,转录后和翻译后三个层面的调控关系,并且这三层调控关系,互相之间不必须有关联。例如,蛋白质-蛋白质相互作用,和激酶-底物的磷酸化调控,这俩跟mRNA的共表达或者不共表达可能仅存在微弱的关联,或者完全无关。这里,我们再次邀请老马出场,把“老马模型”拿出来再讲讲。球场上,我有几条腿?两条。腿的个数可以看成是mRNA的个数,我用一条腿踹倒一个老马,那这个踹人的腿就是一个蛋白质,而老马可以是这个蛋白质的相互作用分子。现在问,我有10条腿,能踹倒几个老马?当然你可以建立模型,说这个简单,1条腿支持,剩下9条腿踹人,能踹倒9个老马。所以这里就等于是10个mRNA分子翻译出来的蛋白质,其中9个与另外9个其他分子相互作用。理论上应该是这样的,对吧?问题是现实情况未必如此,例如,我一条腿小宇宙爆发了(比如磷酸化),就这一条就踹翻9个老马,可以不?这个在实验上来说,合理,激酶蛋白质表达量不变,其单纯活星的改变,可以影响底物修饰状态的水平。换种情况,比如说哥们我不高兴了,要两条腿支撑,剩下8条腿踹倒8个老马,可以吗?这在实验上同样可以,因为蛋白质可以被降解,所以蛋白质的表达水平与其mRNA的表达水平,不需要有必然的联系。所以,从基因表达数据里推测不同层次的分子间相互作用,这个问题本身就强人所难了。这也是为什么我从来不参加领域内任何各种竞赛的原因:你把大家栓的跟个粽子一样,然后要大家比较谁的游泳姿势更优美,这种比赛有啥意思呢?就算我拿了冠军,一个大粽子在那里拱啊拱的跟个蛆一样,优美还能优美到哪里去?所以这个命题本身是有严重的理论缺陷的。当然这个不是我看到的最搞笑的命题,更搞笑的是去年有个比赛,要求利用基因表达数据预测蛋白质的磷酸化!当时我就震撼了:违背常识了。当然你非要跟我争说这个可以做,那我也表示理解,反正找个机器学习算法,啥问题不能算啊?你要是允许我出千,放个自洽检验拿出去忽悠,那我给你做到准确性100%毫无压力。但这东西做了那不也就是个笑话?所以各种比赛,我认为应当举办,大家认认真真想办法解决问题,但也就乐一乐拉倒了,别太当真,反正超出我理解范围之外的比赛我是没有本事参加。

   那么,命题本身有问题,是不是就不值得研究?那倒不是。因为从充满噪声的生物学数据里获取有价值的信息,就是生信学者必须面对的问题,纳税人拿钱给你发工资,那你就别抱怨,尽自己所能做到方法学能做到的极致。这个要求并不过分,对吧?一般来说,生信的预测不可能达到100%准确,往往都存在着理论的上限。例如当年著名的二级结构预测问题,有学者就把已知结构的蛋白质挑出来,看看相同或高度相似序列是否可以存在不同的二级结构,结果发现这个比例大约是18%(记不大清楚确切数字了),所以根据序列预测蛋白质的二级结构,你从理论上来说,准确性就不可以高于82%。很多学者做二级结构的预测能做的相当高比如78%,那这个算法其实去噪音的能力已经非常强悍。而且这样的准确性对实验学家的后续实验已经有足够的参考意义。对于莱尔批评的这两篇论文,就方法学而言,几乎已经做到登峰造极。曼诺利斯如果自己不搞事儿,他这个方法也还凑合了。所以,整个生信领域的学者,几乎是尽自己的一切能力,努力的提高各种预测的准确性,在没有新的原理报道之前,尽力将算法的准确性逼近理论上限,这样的努力,不应当被批评。至于灌水,这个恐怕不能五十步笑一百步吧?更何况谁是五十步,谁是一百步,这还不一定的事情。



   总结:1. 莱尔对曼诺利斯的确有个人成见。尤其是曼诺利斯认为公开揭他的短是错误的这件事情,让莱尔认为自己受到了伤害,并且迅速的抓住曼诺利斯一个稍纵即逝的小把戏,重重地还了一击。2. 莱尔的博文引发了大家诸多的思考,例如,对人有成见,是否其相应的批评就可以不相信?如果就事论事,这件事情有人做错了,那是否就应该是错的?3. 学术批评是否不应该公开?我想这个问题不光是国内,你瞧国外也是一样。那如果学术批评不公开,学术不端又怎么能被发现?这恐怕无论在国内还是国外,都值得思考。4. 适度的、无伤大雅的、并且能引发大家思考的忽悠,这个蛮好而且值得鼓励。网络皇帝如果一点忽悠都不带的,哪有人会关注网络研究?莱尔写博客如果不夸大其词,他的博文还有谁看?不是原则性上的忽悠,没有关系。可是忽悠过头了,并且的的确确有学术不端的行为存在,那恐怕就不能无限的包容了。5. 生信是个高度交叉的学科,需要数学、物理、化学、计算机科学、统计学、数学和生物学,还有等等等等的学科的各种知识和背景,没有哪位学者,能够同时精通这么门学科的知识,因此,密切的合作和交流是必须的,至少在阅读和思考莱尔博文的同时,我请教了多位领域内的学者和朋友,这是必须的。6. 莱尔批评人的模式,是非常符合网络控制的理念:通过少数几个或者一个关键性的节点,就能调控整个网络的拓扑结构。所以,莱尔只批顶尖的大牛,不打小虾米。这一点还是蛮厚道的。所以,Shirley开玩笑说莱尔现在的绰号叫“美版方舟子”,打假模式挺相似,都是谁红敲打谁,这样做从网络调控的角度来说,是合理的。而且无论怎么说,莱尔对领域内的不严谨现象多多少少有震慑的作用,对领域的健康发展有百利而无一害。无非就是大家做研究认真点儿就完了,你不搞事,他批你又有何惧?7. 莱尔写博客,首先莱尔本人是真的火了,博文走毒舌、劲爆的路子,而且搞数学的逻辑特严谨,批人批的过瘾。其次,对巴拉巴西和曼诺利斯来说,这两位的知名度那也是更高了,对前者来说还好,Google搜索,批他的博文也就排在第9个,毕竟人家学术影响力在那里,而且只是方法用的麻烦了一点儿,研究结果有点儿争议,不惧;对后者来说,Google网页排在第4个,那可就真是个大麻烦了。至于其他上过莱尔博客的那些大牌学者,估计要偷着乐了:顺带着自己的影响力也增加啊,赚大了。8. 无数的问题,无数的挑战,这就是生信领域的研究现状,是不是很有乐趣和做学术的动力?对吧,所以还是生信有前途。

[ Last edited by dameng on 2014-2-26 at 19:15 ] 返回小木虫查看更多

今日热帖
  • 精华评论
  • netsking

    路过打酱油的.

  • Grignard23

    对于即将涉水生信的我,前途未必

  • jgshuhaihua

    竟然看完了。想楼主学习

  • liuailin6338

    认真看完,看来楼主也是生信者界的大牛,写得很生动有趣,

  • 诸葛晓

    哈哈,这篇文章真是太欢乐了!

  • bodekkk

    学术江湖的打架还是很烧脑子的

猜你喜欢
下载小木虫APP
与700万科研达人随时交流
  • 二维码
  • IOS
  • 安卓