24小时热门版块排行榜     石溪大学接受考研调剂申请>

老同志的第一次SCI投稿经历,对新人极具参考价值!
查看: 1399  |  回复: 9

欢乐颂叶蓁

新虫 (小有名气)

[交流] 知名计算机科学家吴军:“ChatGPT不算新技术革命,带不来什么新机会”已有6人参与

吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前google高级资深研究员、原腾讯副总裁。
计算机科学家、大模型专家吴军,就人工智能和chatgpt等当下热议的话题作了一次直播分享。
吴军表示,“我就发现在中国媒体上讨论的热度要远远高于美国”、“这是一件好事,但也是一件坏事。”从区块链、元宇宙再到现在的chatgpt,“这些概念实际上是被过度的炒作”。

chatgpt的出现,为什么会引起恐慌?
我知道,最近chatgpt这事儿在中国很火,很多人在讨论,但很有意思的是,其实这件事在美国,已经没有太多人去谈论这个话题了。其实不光是chatgpt,往前看十年,当时很多新技术出现的时候,我就发现在中国媒体上讨论的热度要远远高于美国。虽然那个技术其实主要出现在美国,但是中国媒体更爱过度炒作(中国媒体人为了吃饭,脸都不要了)。我认为这是一件好事,但也是一件坏事。

这个“坏”在于,这些概念实际上是被过度的炒作了,在这个过程中,有很多浑水摸鱼的人从中赚钱。就比如说区块链,当时炒得那么热,但如今这个事已经很少有人讨论了,对吧?这是第一个。第二个就是元宇宙,目前美国只有 facebook一家还在坚持做。那到了中国,很多人就在讨论说,我们是不是将来会生活在一个完全虚拟的世界。最后,大概去年底到今年初,facebook在这个领域几百亿美元投下去,一个响也没听着,最后开始了大规模的裁员。现在学术界都知道元宇宙就是个骗人的概念而已。到了现在,被热炒的一个话题就是chatgpt,有的人兴奋,有的人恐惧,还有我现在也看到在中国还有很多人在浑水摸鱼,试图再割大家一次韭菜。

1503年,哥伦布的儿子记下来的这么一件事儿,哥伦布往西航行,去往新大陆,结果航行到中途,到了牙买加这个地方,船上就没吃的了。于是,哥伦布和船员只能寄希望于当地人来提供饮食。但是,提供了几天以后,船员就跟当地人发生了矛盾——有些船员偷了当地人的东西,所以当地人就断了饮食的供应。

为了摆脱这个困境,哥伦布想到了一个妙招。哥伦布当时随身带着一本万年历,在日历上标着说某年月日会出现日食、月食等等所有这些信息。哥伦布当时就把当地的部落首领找来,说你们不给我提供食物,已经得罪了上帝,上帝会发怒,月亮就会变红,然后上帝就会把月亮收走。

当然,我们现在基本上都知道,在月全食发生的时候,也就是地球还没有完全挡住月亮的时候,月亮确实是红的,就是我们所谓的“血月”。但是,当时的牙买加人并不知道。结果,到了晚上,牙买加人就发现,月亮果然变红了,然后慢慢地就一点点消失了。当地人就陷入了恐慌,大家纷纷说,上帝要惩罚他们了。

这个部落首领慌忙去求哥伦布,承诺答应哥伦布的所有条件。哥伦布就说,好,我去帐篷里向上帝祷告,让他不惩罚你们,但是我需要一点时间,然后哥伦布就走进了帐篷。其实,进了帐篷之后,哥伦布就是拿着一个沙漏,在看那个计时。

今天咱们有天文学知识,肯定知道月全食的时间,也就会维持大概48分钟,到时候月亮就会重新出现。但是,这些牙买加人不知道。他们看到的就是,哥伦布从帐篷里出来,月亮也就出来了。然后哥伦布说,这是上帝已经听了我的劝解,答应宽恕你们,但是你们必须要给我们好好地提供食物。所以,当地人千恩万谢,给他们不断提供食物。

这个故事说明什么呢?月全食这件事,它的发生背后自有其原因,但是在人们不知道这个原因的时候,往往只能把这个自然现象归结为一个神的作用。而这个神,本身又是人创造出来的。也就是说,人自己创造一个神以后,然后趴在神的脚下,成为了他的奴仆。

chatgpt的技术基础是什么?
从历史回到现在,其实chatgpt的情况也差不多,背后是语言模型在发挥作用。
那么,语言模型是什么呢?或者说它是一个什么时代的产物?

它是1972 年,由我的导师贾里尼克(fred jelinek)带领团队研发的一项技术。具体地讲,是他当时在ibm带着人来完成的一项技术,是用来衡量一句话或者一个语言现象有多么的可能产生。那它有什么用?它最初的用处是做的语音识别,后来是做机器翻译,再后来是做计算机问答,也就是我们今天熟悉的回答问题。

当时它就可以做摘要,比如举一个例子,有一篇一万字的文章,那么你怎么摘要出十句话能概括这一篇文章的内容,这对于做这个自然语言处理的人来讲,就是一个数学问题。也就是说,你的条件是什么?条件是这一万个字,然后你想得到的结果是什么?结果可能就是十句话,一百个字。然后这里头有很多种组合,你可以随便挑几个句子,也可以把有的句子拆成两段,把后面那些不太重要的修饰或者形容的部分去掉。然后,你也可以把两个句子合成一个句子,那么你在合成一段文本的时候,这个计算机就会计算一个概率,哪些句子合成在一起的概率比较大,它会按照概率帮你合成。

而我们今天看到的chatgpt,就是这个大的语言模型,它就是会挑一个概率最大的、最有可能发生的这样一个文本来给你看。所以总体来讲,chatgpt生成结果的过程,是一个用大量的计算资源来计算的过程。它需要非常庞大的数据量来支撑,有很多很多的gpu(电脑处理器)。没有这些东西的话,chatgpt是做不起来的。

而且今天这个chatgpt,其实不光是技术,还有很多人工在背后。他们还雇了一家公司,专门负责审核chatgpt产生的结果。比如说,chatgpt产生了一百篇摘要,都挺好,我已经分辨不出来了,那么这些人就负责帮我分辨一下,到底哪一篇更像是准确的摘要。

那实际上,你可以看到,chatgpt背后就是一个语言模型,而这一语言模型的技术是1972年就已经有了的。到现在,经过了五十年,现在行业内其实大家并不觉得它是一个什么了不得的东西。在此以前,这个语言模型其实已经做了很多的事情。

问chatgpt的最大贡献是什么,我倒觉得它对全球变暖是有很大贡献的。

所以,我想说的是,chatgpt这件事,它的原理很简单,只是在工程实现时比较烧钱而已。
计算机擅长回答什么问题?


到了大概2010年前后,也就是13年前,语言模型能做到什么程度?我给大家看两个例子。这两个例子都是我在2014年离开google以前做的。当时我负责的是google的自动问答系统,就是让计算机回答问题。不过因为这个产品是英文的,所以在中文世界基本上没有太露脸。
我给你看一下谷歌回答的一个问题——为什么天是蓝色的,why is the sky blue?
它的回答是这样的:太阳光透过大气层到达地球时会发生折射,空气中的气体会让不同颜色的光散射到各个地方,蓝光波长短,比其他颜色折射率高,所以看上去天是蓝色的。

这是当时计算机产生的一个答案。公平地讲,这个答案比我自己写一段答案写得要更好,因为要解释这现象,你要知道不少物理学知识,而且这个句子看上去也挺合情合理的。而今天人们使用chatgpt的一个目的,就是让他回答问题。

chatgpt 能整合信息回答天为什么是蓝色的,好像它自己有逻辑一样。再有一个,就是问过程的问题,比如说我怎么烤蛋糕,你能不把一步步写下来?今天我们问chatgpt怎么烤蛋糕,它可以把这个过程给你写得很详细,多少杯水,加多少个鸡蛋,加多少面粉等等,它都可以告诉你。然后你根据它提供的答案,就真能烤出蛋糕,而且烤得可能还挺不错。

这是大家觉得很了不得的地方。但是你要知道,这件事,在2014年其实计算机已经做到了,而且做得很好。所以,这项技术本身并没有太多神秘的地方。

计算机和人,谁更擅长写作?

现在,大家热议chatgpt,还有一个原因就是觉得它能写作。比如说写一个工作简报,这是今天美国人用chatgpt用得最多的地方。我这周干了1234567,这七件事,哎,你看我就不用自己费劲地写了,我让chatgpt生成一个,然后再编辑一下子就可以了。

但是,计算机写作这件事,其实你说难也难,说容易也容易,我可以给你举个例子。

在2014年我离开google之后,当时不太做编程了,不过那时候我还有一些计算资源,所以我自己在空闲时间会写一些程序,做着玩。当时呢,我就让计算机写了两首诗,大家可以读一下这两首诗。

第一首诗是个五言诗,这是用我的话说,叫做李白风格的一首诗,大家可以读一下。这首诗就是计算机自己写的。实际上,你如果读一读,这个诗里还真有一些李白的这个特点。

那第二首诗,我也把图片放在下面了,你可以看一下。

先说一下,因为古诗都有平仄一说,但是我们现在的读音和当时的读音不一样,所以我们也没去管这个平仄到底合不合古,但是这个我们单从它的内容意境来讲,你读的会觉得很顺畅。

好,那么话说回来。第一首诗怎么做的?

其实再简单不过了,你就把李白的诗放到计算机里。李白诗一共1000 多首,也就一万来句话,这个对计算机来讲太简单了。它写的时候,就是把句子分拆开来,拆成两个字、三个字一组,比如“空愁”这是一组,“忆长安”这三个字一组。然后它就去拼刚才我讲的语言模型,算概率,哪个概率最大;拆完了以后,我就跟他提一个要求,说要写一首忆长安的诗,它就排列组合,生成出这个《忆长安》,实际上就是这么拼凑出来的。第二首诗稍微复杂一点。

但你知道这两个程序我写了多长时间?两天。这说明什么呢?说明你让计算机写出一些还挺像样的东西,其实不是一件很困难的事情,它没有你想得这么神秘,或者说计算机写作本身没有这你想得这么神秘。

那为什么这两首诗看起来特别好?因为这是唐诗,唐诗的格式是固定的。同样的道理,为什么用chatgpt写周报写得好?因为周报的格式基本上是拉清单,那也是个固定的格式。包括,如果你读《华尔街日报》中文版,这里头我跟你讲,90%的内容都是计算机写的,只是你不知道。写完了以后人当然要给它一个主题,然后给它写的第一段话写个引子,然后给一个总结,起个标题,这是人要做的。

为什么写财经文章比较好?因为它有好多的事实在里头,格式也是固定的,所以这件事它做起来就很好。

我花这么长时间来讲chatgpt的科学原理,实际上就是想说它并不神秘,不是一个什么很高深的机器在背后。一方面,chatgpt依靠的是一个语言模型,而这个语言模型1972年就有了,只是今天它的计算能力非常强,靠蛮力计算。

那么,chatgpt训练一次要耗多少电?大概可能是3000辆特斯拉的电动汽车,每辆跑到20万英里,把它跑死,这么大的耗电量,才够训练一次,这个非常花钱的一件事。
chatgpt对我们到底有什么影响?

那么接下来讲讲,chatgpt对人有什么影响。

这就要回到历史上来看了,每一次技术革命,其实它对人都会有一些影响。不过,chatgpt它不算是一项新的技术革命,因为这我刚才讲了,这个过程很长,从20世纪70年代到90年代,我们做了很多事,90 年代到现在又有很多人做了很多事。这里头最大进步其实不是这个语言模型本身,实际上是后来2000年左右产生的深度学习,使得训练语言模型能比以前准确了,不是简单的做统计。

今天训练语言模型早已经不是简单做统计了,这才是chatgpt能产生比较好的结果的一个原因。

至于说chatgpt对人能产生什么样影响,这个问题我先不直接回答你,我先问你,刚才给大家看这两首唐诗,你有没有发现一个什么特点?对了,这两首诗写得不错,但是你原来对唐朝了解,不会因为多了这两首诗会有更新的了解。因为,chatgpt它某种程度上有点像鹦鹉学舌,你先要说一段话,它才能跟着学。它说出来的声音可能很好听,但是它并不提供更多的信息。

今天互联网上90%的内容都属于这一类——不提供更多的新信息,也不是原创内容,也不是自己的感悟,无非是东抄抄,西凑凑。目前,抖音、快手这类短视频,我觉得99%的内容都属于这一类,没有营养,你读完以后可能觉得挺有意思,但实际上你在上面读了再多,其实对你没有任何帮助。

如果说chatgpt真的威胁到了谁,我觉得威胁到的就是这一类人的工作,就是说这个抖音上头那个做短视频的,或者发布一些内容的,chatgpt会做得比他们好很多。你就想这样一件事儿,假设说,有一群人天天把那唐诗三百首里头的句子翻来覆去的捯饬,也能捯饬出一些诗,那么chatgpt捯饬起来肯定比人快得多,所以这项技术会对这一批人会有影响。

所以,chatgpt的工作相当于什么呢?举例子,托勒密创造出这个模型以后,那么每过一段时间,他们欧洲就会编一个大概几十年的一个日历,然后上面标上哪天有日食,哪天行星会怎么运动等等。那么人们根据这些规律,印好多本这个书,这个chatgpt就相当于有好多本书,你拿着以后一看,说,喔,某年月日会发生月食,答案就会很清楚。但是,背后真正有意义的工作不是印书这个问题,而是问题背后的科学问题:托勒密这个规律。

所以我认为,从历史上看chatgpt其实不算是一次技术革命。

你要识破这些所谓的阴谋家或者想割你韭菜的人的那些把戏。

就是说,如果再来一个人假装哥伦布说他是神的代表,然后他能祈祷上天能让这月亮出来,你不要信。所以你需要了解chatgpt背后的一些科学原理。最简单的一些原理,像今天我讲的这些,你还是需要有所了解。

[ Last edited by 欢乐颂叶蓁 on 2024-3-21 at 11:34 ]
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

苏东坡二世

新虫 (正式写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
是啊,不然现在“无良小编”这个称号为什么会这么流行呢。。。
2楼2024-03-21 07:35:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zju2000

金虫 (著名写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
2楼: originally posted by 苏东坡二世 at 2024-03-21 07:35:21
是啊,不然现在“无良小编”这个称号为什么会这么流行呢。。。

我觉得很多概念在中国被过度的炒作,不仅是因为一些人文社科出身的媒体人虽然科学素养低下却仍然想着博眼球争流量赚钱谋生,另一方面还在于商业资本为了赚热钱在背后运作专业化的“炒作”。同时国内人热衷于投机,于是。。。但这些炒作的概念却从来都不被学术界认可。同事们经常饭后议论,清华的小沈阳是个学术界异类,特爱喊上几个专业上毫不相关的“专家”搞一些所谓的研讨会,听了后发现那几个专业上毫不相关的“专家”完全是自说自话(自吹自擂),相互之间根本听不懂也不愿意听。。。
3楼2024-03-21 07:44:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sjtu2012

银虫 (著名写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
不能再同意:这个“坏”在于,这些概念实际上是被过度的炒作了,在这个过程中,有很多浑水摸鱼的人从中赚钱。就比如说区块链,当时炒得那么热,但如今这个事已经很少有人讨论了,对吧?这是第一个。第二个就是元宇宙,目前美国只有 facebook一家还在坚持做。那到了中国,很多人就在讨论说,我们是不是将来会生活在一个完全虚拟的世界。最后,大概去年底到今年初,facebook在这个领域几百亿美元投下去,一个响也没听着,最后开始了大规模的裁员。现在学术界都知道元宇宙就是个骗人的概念而已。到了现在,被热炒的一个话题就是chatgpt,有的人兴奋,有的人恐惧,还有我现在也看到在中国还有很多人在浑水摸鱼,试图再割大家一次韭菜。
4楼2024-03-21 07:50:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xli1984

至尊木虫 (著名写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
现在靠AI吃饭的不要太多,想揭他们老底,小心人家联合起来先灭了你。
所有的AI,不管是不是“生成式”,说穿了就是“拟合”,或者用更拟人的说法,叫“模仿”,叫“鹦鹉学舌”,其实电脑还是那个电脑,依然是那个蠢得除了0和1之外啥也不懂的电脑。
所以这两年上头也回过味来了,不打算再白养着这么多搞AI的听他们瞎忽悠瞎吹牛比了,要搞“可解释的AI”
5楼2024-03-21 09:28:39
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sjtu2012

银虫 (著名写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
5楼: originally posted by xli1984 at 2024-03-21 09:28:39
所以这两年上头也回过味来了,不打算再白养着这么多搞AI的听他们瞎忽悠瞎吹牛比了,要搞“可解释的AI”

“可解释的AI”更扯就问一句“可解释的AI”当前搞出哪些结论出来了?
6楼2024-03-21 11:30:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dililafter

铁杆木虫 (著名写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
6楼: Originally posted by sjtu2012 at 2024-03-21 11:30:51
“可解释的AI”更扯就问一句“可解释的AI”当前搞出哪些结论出来了?...

搞个新概念又可以报项目拿基金了
7楼2024-03-22 09:18:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jurkat.1640

铁杆木虫 (文坛精英)


小木虫: 金币+0.5, 给个红包,谢谢回帖
就是一个玩具,但是可以助力现在的网红经济和诈骗经济。
8楼2024-03-22 11:07:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

欢乐颂叶蓁

新虫 (小有名气)

一定要破除这种陋习!
9楼2024-04-04 16:26:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

欢乐颂叶蓁

新虫 (小有名气)

引用回帖:
7楼: Originally posted by dililafter at 2024-03-22 09:18:42
搞个新概念又可以报项目拿基金了...

一定要破除这种陋习!
10楼2024-04-28 08:33:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 欢乐颂叶蓁 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考博] 材料方向24博士申请/一作SCI三篇 +4 白天不碰 2024-04-24 6/300 2024-04-30 20:05 by zcczz
[基金申请] 今年面上预计又打酱油了 +6 speedxyl 2024-04-30 8/400 2024-04-30 17:21 by 1501311
[考博] 申请25年博士,求推荐学校及博导 +4 明开夜合20 2024-04-28 7/350 2024-04-30 14:23 by 明开夜合20
[找工作] 江苏理工学院要慎选 +8 jjchenshui 2024-04-27 10/500 2024-04-30 10:29 by 半生梦君
[硕博家园] 科研好难啊,想退学去打工。 +25 byywnyl 2024-04-27 28/1400 2024-04-30 09:41 by 安塔瓦拉多
[考博] 2024申博 化学 一作sci两篇 +3 zzzjjjttt 2024-04-29 3/150 2024-04-30 09:29 by yanrding
[分析] C18色谱柱可以分析单糖,二糖,低聚糖(3-7)吗 +5 备安网公 2024-04-26 6/300 2024-04-30 09:25 by shuiliu
[论文投稿] optics express投稿求助 +4 带带大周 2024-04-25 6/300 2024-04-29 16:52 by laozhao02
[基金申请] 优青已经开始了么? +4 majunge000 2024-04-27 4/200 2024-04-29 15:46 by 潘小丫
[论文投稿] 环境类微生物英文论文投稿 50+3 lyyyyds0 2024-04-26 8/400 2024-04-29 15:15 by lyyyyds0
[考研] 312求调剂 +4 平平无奇小Q 2024-04-26 5/250 2024-04-29 07:33 by 晓目崇
[论文投稿] LWT投 +5 AChen92 2024-04-26 5/250 2024-04-29 07:16 by lizhengke06
[有机交流] 以2氟甲苯为原料做2氟4溴甲苯 +3 高树桩 2024-04-24 7/350 2024-04-28 14:37 by 高树桩
[基金申请] 基金开始函评了吗? +18 wych1103 2024-04-25 18/900 2024-04-28 13:18 by peterlizb
[有机交流] 锂盐的合成 4+3 liurui1203 2024-04-27 3/150 2024-04-28 10:45 by 591950582
[有机交流] 如何分离原料与产品 5+4 qwerasdf587 2024-04-24 16/800 2024-04-28 09:22 by 光脚板bbv
[教师之家] 大学直属学院卸任的副院长退休后还享受副处级的养老待遇吗? +6 苏东坡二世 2024-04-27 6/300 2024-04-28 08:35 by ou0551
[论文投稿] AC审稿 +3 马winner 2024-04-26 7/350 2024-04-27 23:33 by topedit
[考研] 没学上 +7 季向阳 2024-04-26 13/650 2024-04-27 20:38 by 一条咸鱼.
[考研] 学硕专硕 +5 小蜗牛* 2024-04-26 5/250 2024-04-26 16:43 by 鱼翔浅底1
信息提示
请填处理意见