《What if A.I. Doesn’t Get Much Better Than This?》原文翻译
作者:卡尔·纽波特 (Cal Newport)
OpenAI新发布的GPT-5,是最新一个表明大型语言模型发展已陷入停滞的产品。
如今,萦绕在人工智能技术周围的欣喜若狂与深切恐惧,大部分可以追溯到2020年1月,当时OpenAI的一个研究团队发表了一份长达30页、题为《神经语言模型的缩放定律》的报告。该团队由人工智能研究员贾里德·卡普兰(Jared Kaplan)领导,成员包括如今担任Anthropic公司CEO的达里奥·阿莫迪(Dario Amodei)。他们研究了一个相当技术性的问题:当你增加语言模型的规模和训练强度时,其性能会发生什么变化?
当时,许多机器学习专家认为,语言模型在达到一定规模后,实际上会开始死记硬背训练数据中的答案,这会导致它们在实际部署中用处不大。但OpenAI的论文指出,这些模型会随着规模的增长而变得越来越好,并且这种改进可能会遵循一种幂律(Power Law)——一条类似于曲棍球棒的陡峭曲线。这意味着:如果你持续构建更大规模的语言模型,并用更大的数据集来训练它们,它们将开始变得出奇地优秀。在该论文发表几个月后,OpenAI似乎就通过发布GPT-3验证了这套“缩放定律”,GPT-3的规模比其前代GPT-2大了十倍,性能也实现了质的飞跃。
突然之间,通用人工智能(Artificial General Intelligence, AGI)——即在各种任务上表现与人类相当甚至超越人类的理论概念——似乎近在咫尺,诱人无比。如果缩放定律成立,人工智能公司或许只需向语言模型投入更多资金和计算能力,就能实现AGI。不到一年,OpenAI的首席执行官萨姆·奥特曼(Sam Altman)发表了一篇题为《万物皆有摩尔定律》(Moore’s Law for Everything)的博文,文中称人工智能将接管“越来越多现在由人类从事的工作”,并为资本所有者创造难以想象的财富。他写道:“这场技术革命是不可阻挡的。世界将发生如此迅速和剧烈的变化,以至于需要同样剧烈的政策变革来分配这些财富,让更多人能够追求他们想要的生活。”
人工智能界曾一度坚信,他们必然能通过扩大规模的方式走向AGI,这种信念之深,怎么强调都不过分。2022年,纽约大学心理学和神经科学荣休教授、人工智能企业家加里·马库斯(Gary Marcus)对卡普兰的论文提出异议,他指出,“所谓的缩放定律并非像万有引力那样的普适性‘定律’,而仅仅是一些可能不会永远成立的观察结果。”随之而来的是猛烈而迅速的负面反应。“我写过的任何一篇文章,都没有像这篇一样受到如此多、如此知名的人物的嘲笑,从萨姆·奥特曼和格雷格·布罗克曼到杨立昆(Yann LeCun)和埃隆·马斯克,”马库斯后来反思道。他最近告诉我,他的言论基本上将他“逐出”了机器学习的世界。不久之后,ChatGPT的用户数达到一亿的速度超过了历史上任何数字服务;2023年3月,OpenAI发布的下一代模型GPT-4在规模曲线上实现了巨大飞跃,甚至启发微软的一篇研究论文将其命名为《通用人工智能的火花》(Sparks of Artificial General Intelligence)。在接下来的一年里,人工智能领域的风险投资支出跃升了80%。
然而,此后,进展似乎放缓了。OpenAI在两年多的时间里没有推出任何新的重磅模型,而是专注于发布一些普通公众难以跟上的专门版本。行业内开始有声音质疑,人工智能的缩放定律是否开始失灵。“2010年代是规模化的时代,现在我们又回到了奇迹与探索的时代,” 该公司的创始人之一伊尔亚·苏茨克维(Ilya Sutskever)在11月告诉路透社,“每个人都在寻找下一个突破口。” 同期一篇 TechCrunch 的文章总结了当时普遍的情绪:“现在似乎所有人都承认,你不能指望仅仅通过在预训练大型语言模型时使用更多算力和数据,就让它们变成某种无所不知的数字之神。” 但这些观察基本上被其他人工智能领袖制造头条新闻的言论所淹没。阿莫迪最近告诉安德森·库珀:“在几乎所有智力任务上,人工智能正开始超越人类。” 在接受 Axios 采访时,他预测在未来一到五年内,半数的入门级白领工作可能会被“消灭”。今年夏天,奥特曼和Meta的马克·扎克伯格(Mark Zuckerberg)都声称他们的公司即将开发出超级智能。
然后,就在上周,OpenAI终于发布了GPT-5,许多人曾希望它能引领人工智能能力的下一次重大飞跃。早期评测者发现了一些值得称赞的功能。当知名科技博主Mrwhosetheboss让它创建一个用宝可梦当棋子的国际象棋游戏时,得到的结果明显优于行业领先的编码模型GPT-o4-mini-high;他还发现GPT-5能为他的YouTube频道编写比GPT-4o更有效的脚本。Mrwhosetheboss尤其感到兴奋的是,GPT-5会自动将查询分发给适合该任务的模型,而无需用户手动选择要尝试的模型。然而,他也发现,GPT-4o在生成YouTube缩略图和生日派对邀请函方面显然更胜一筹——而且他能毫不费力地诱导GPT-5编造虚假事实。几小时内,r/ChatGPT的Reddit子版块上,用户开始对新模型表示失望。一个帖子称其“即便作为付费用户,也觉得是垃圾中的垃圾。” 在一次问答环节(A.M.A.)中,奥特曼和其他OpenAI工程师发现自己处于守势,忙于回应各种抱怨。马库斯将这次发布总结为“姗姗来迟、言过其实、令人失望。”
在GPT-5发布之后,人们越来越难以对那些关于人工智能的夸张预测信以为真,而像马库斯这样的批评者的观点则显得日益温和。这些声音认为,这项技术固然重要,但尚未准备好彻底改变我们的生活。他们挑战我们去思考一种不同的近期未来——在这个未来里,人工智能的水平可能不会比现在好太多。
OpenAI并不想等将近两年半才发布GPT-5。据 The Information 报道,到2024年春季,奥特曼就告诉员工,他们下一个代号为“猎户座”(Orion)的主要模型将比GPT-4有显著提升。然而到了秋天,结果却令人失望。“尽管‘猎户座’的性能最终确实超过了之前的模型,” The Information 在11月报道,“但其质量提升的幅度,与GPT-3到GPT-4之间的飞跃相比,要小得多。”
“猎户座”的失败加剧了行业内悄然蔓延的恐惧:人工智能的缩放定律或许根本就不是一条定律。如果构建越来越大的模型带来的回报正在递减,科技公司就需要新的策略来增强其人工智能产品。他们很快锁定了一个可以被称为“训练后优化”(post-training improvements)的方向。所有领先的大型语言模型都要经历一个“预训练”(pre-training)过程,在这个过程中,它们基本上通过消化整个互联网来变得智能。但在此之后,对模型进行微调也是可能的,以帮助它们更好地利用已经吸收的知识和能力。一种训练后优化技术是应用机器学习工具“强化学习”(reinforcement learning),教导一个预训练好的模型在特定类型的任务上表现得更好。另一种技术则允许模型花费更多计算时间来为要求更高的查询生成回应。
这里一个有用的比喻是汽车。预训练可以说是生产出车辆本身;而训练后优化则是对它进行改装升级。在缩放定律的论文中,卡普兰和他的合著者预测,随着预训练过程的扩大,你生产出的汽车动力会越来越强;如果说GPT-3是轿车,那么GPT-4就是跑车。然而,一旦这种进步停滞,行业便将注意力转向了帮助已有的汽车表现得更好。训练后优化技术把工程师变成了机械师。
科技领袖们很快就表示,希望训练后优化的方法能像传统的规模化一样迅速提升他们的产品。“我们正在看到一种新缩放定律的出现,”微软CEO萨提亚·纳德拉(Satya Nadella)在去年秋天的一次会议上说。风险投资家安杰尼·米达(Anjney Midha)同样谈到了“缩放定律的第二纪元”。12月,OpenAI发布了o1,它利用训练后技术使模型在分步推理和编写计算机代码方面表现更佳。很快,该公司又接连推出了o3-mini、o3-mini-high、o4-mini、o4-mini-high和o3-pro,每一款都通过定制的训练后技术组合进行了“改装”。
其他人工智能公司也采取了类似的策略转变。Anthropic在其2月发布的Claude 3.7 Sonnet中试验了训练后优化,并随后将其作为Claude 4系列模型的核心。埃隆·马斯克的xAI公司一直追求规模化策略,直到其在冬季推出的Grok 3。该模型在惊人的10万块H100 GPU芯片上进行了预训练——这比据报道用于训练GPT-4的算力多出许多倍。当Grok 3未能显著超越其竞争对手后,该公司也转向了训练后优化方法来开发Grok 4。GPT-5则完全符合这一发展轨迹。与其说它是一个全新的模型,不如说是一次对近期经过训练后优化的产品进行提炼并集成为一个整体的尝试。
那么,这种训练后优化的方法是否让我们重回通往AGI之类的轨道了呢?OpenAI发布GPT-5的公告中包含了二十多张图表,涵盖了“Aider Polyglot多语言代码编辑”和“ERQA多模态空间推理”等指标,以量化该模型相比其前代产品的优势。一些人工智能基准测试确实捕捉到了有用的进步。GPT-5在专注于编程的基准测试上得分高于之前的模型,早期评测似乎也认同它能生成更好的代码。新模型写出的文字也更自然流畅,这在基准测试中也有所体现。但现在这些变化给人的感觉很狭隘——更像是软件更新带来的定向改进,而非早期生成式人工智能突破中那种能力的广泛扩展。你不需要柱状图就能看出GPT-4比之前的一切都前进了一大步。
其他的基准测试可能并未衡量其所声称的能力。从o1发布开始,人工智能公司就大肆宣扬在分步推理指标上的进展。但今年6月,苹果公司的研究人员发表了一篇题为《思考的幻觉》(The Illusion of Thinking)的论文,发现最先进的“大型推理模型”在谜题的复杂性超出某个适度阈值后,其“性能会崩溃至零”。作者写道,包括o3-mini、Claude 3.7 Sonnet的“思考”模式和DeepSeek-R1在内的推理模型,“仍然未能发展出可泛化的问题解决能力。” 上周,亚利桑那州立大学的研究人员得出了一个更直白的结论:人工智能公司所谓的推理“是一种脆弱的海市蜃楼,一旦超出训练分布范围就会消失。” 在这些基准测试上取得高分,与解决我们在工作中遇到的那种日常问题所需的推理能力是两码事。“我没听到多少使用人工智能的公司说2025年的模型比2024年的模型对他们更有用,尽管2025年的模型在基准测试上表现更好,”马库斯告诉我。训练后优化似乎并没有像曾经的规模化那样全面地增强模型。改装你的凯美瑞或许能带来很多实用性,但再怎么调校也无法把它变成一辆法拉利。
我最近请马库斯和另外两位持怀疑态度者预测未来几年生成式人工智能对经济的影响。“这是一个五百亿美元的市场,而不是一个万亿美元的市场,” 科技分析师、《Better Offline》播客主持人埃德·齐特伦(Ed Zitron)告诉我。马库斯表示同意:“一个五百亿美元的市场,也许一千亿。” 曾合著一篇著名的早期语言模型批判文章的语言学教授艾米丽·本德(Emily Bender)告诉我,“其影响将取决于有多少管理层人士会听信技术推销者的炒作,并以此为基础重塑他们的工作场所。” 她补充道,“这种情况发生得越多,每个人的处境就会越糟。” 这类观点曾被描绘为不切实际——内特·西尔弗(Nate Silver)曾回复埃德·齐特伦的一条推文写道:“有种‘老头冲着云彩喊’的感觉”——而我们却欣然接受了科技公司CEO们宏伟的愿景。也许,这种情况正开始改变。
如果这些对人工智能的温和看法是正确的,那么在未来几年,人工智能工具将取得稳定但渐进的发展。许多人会以常规但有限的方式使用人工智能,无论是查找信息,还是加速某些烦人的任务,比如总结报告或撰写活动议程的初稿。某些领域,如编程和学术界,将发生巨大变化。少数职业,如配音和社交媒体文案,可能基本上会消失。但人工智能或许不会大规模地颠覆就业市场,而像超级智能这样更夸张的想法可能会显得不那么严肃。
继续相信人工智能的炒作可能会带来其自身的风险。在最近的一篇文章中,齐特伦指出,美国股市约35%的价值——因此也是许多人退休投资组合的很大一部分——目前都与所谓的“七巨头”科技公司挂钩。根据齐特伦的分析,这些公司在过去18个月里,在与人工智能相关的资本支出上花费了5600亿美元,而他们的人工智能收入仅为约350亿美元。“当你看到这些数字时,你会觉得自己疯了,”齐特伦告诉我。
然而,即使是我们可能称之为人工智能温和派的人物,也不认为公众可以放松警惕。马库斯认为,我们过去过分强调生成式人工智能是受到了误导,但他也认为,借助新的技术,AGI最早可能在2030年代实现。即便语言模型永远不会让我们的工作自动化,但对人工智能重新燃起的兴趣和投资,可能会导向更复杂的、并可能实现自动化的解决方案。与此同时,我们应该利用这段喘息之机,为那些可能仍然迫在眉睫的颠覆做好准备——例如,通过制定有效的人工智能法规,以及发展新兴的数字伦理领域。
2020年那份缩放定律论文的附录中,有一个名为“注意事项”(Caveats)的部分,后续的报道往往忽略了它。作者写道:“目前,我们对所提出的任何缩放定律都没有坚实的理论基础。与模型规模和计算量相关的缩放关系尤其神秘。” 实践中,缩放定律一直有效,直到它不再有效。教计算机思考的整个事业至今仍然神秘莫测。我们应当少一些傲慢,多一些谨慎。
GPT-5,是最新一个表明大型语言模型发展已陷入停滞的产品。
GPT-5 给人的 “突破不大” 感,主要源自 o 系列的存在。 GPT-2 → GPT-3 → GPT-4 中间没有中继,所以 GPT-3 和 GPT-4 才显得跳跃式; GPT-4o → GPT-5 则被 o 系列消解了新鲜感,所以 GPT-5 即便是 Thinking,也像是 o3 的优化版。


