鹤岗市网站建设_网站建设公司_VS Code_seo优化
2026/1/9 16:53:56 网站建设 项目流程

前Google Brain(DeepMind)科学家、现Cohere的研究副总裁Sara Hooker发了一篇论文。

Sara Hooker论文表示,AI正经历着一场静悄悄却惊心动魄的观念革命,那个统治了过去十年、被视为金科玉律的缩放定律Scaling,正在显露出疲态,甚至走向慢性死亡。

算力收益递减,重点正在转向推理时算力(Inference-time compute)。最智能的系统将越来越由其与世界交互的能力来定义,AI落地的研究重点也将转向模型如何交互。

意外的发现与算力崇拜的兴起

历史上的伟大发明往往源于对现有技术的意外挪用。

1945年,自学成才的美国工程师珀西·斯宾塞在雷达设备旁发现口袋里的巧克力融化了,这个与雷达初衷无关的偶然发现最终促成了微波炉的诞生。

人工智能领域的故事与之有着惊人的相似性。

GPU在20世纪70年代诞生之初,仅仅是为了加速视频游戏渲染和电影图形处理。

直到2000年代,就像当年的磁控管一样,GPU被重新利用到了一个完全未曾设想的领域——训练深度神经网络。

GPU在并行处理矩阵乘法方面拥有超越CPU的天然优势,而矩阵乘法恰恰是深度神经网络底层的核心数学运算。

这种每秒浮点运算次数的巨大提升,配合将训练任务巧妙分配到多个GPU上的技术,解开了深层网络训练的枷锁。

网络的深度被证明是至关重要的。

从2011年到2015年,随着网络层数不断加深,ImageNet图像识别任务的性能出现了跨越式的提升。

一个极具冲击力的对比是,2012年谷歌曾使用16000个CPU核心来训练模型识别猫,而仅仅一年后,斯坦福大学的研究人员仅用3个GPU就完成了同样的任务。

这场算力的胜利点燃了整个行业的狂热。

过去十年,肯·汤普森那句名言“当你有疑问时,使用蛮力”被奉为圭臬,理查德·萨顿更是将其总结为“苦涩的教训”:计算机科学的历史告诉我们,利用通用算力的方法总是能击败那些试图利用人类领域知识的方法。

这种观点极大地打击了计算机科学家的自尊心,它暗示着与其费尽心机地将人类知识编码进算法,不如直接把海量数据和算力扔给模型,让它自己去学习模式。

我们被困在了一个痛苦而简单的摩尔定律变体中:增加模型参数,增加训练数据。

这种对缩放的普遍信仰为工业实验室带来了巨额资本,也从根本上重塑了该领域的科研文化。

学术界因为缺乏算力资源而被边缘化,无法参与前沿突破;工业界为了保持商业优势停止了论文发表。

这种单一的路径依赖让人产生了一种错觉,认为未来的所有创新和性能提升都将单纯来自于算力规模的扩大。

上图展示了2016年至2023年间精选AI模型的估算训练成本。

过去十年的特征非常明显:模型规模呈爆炸式增长,参与前沿研究的门票价格也随之水涨船高。算力驱动进步的信念造成了严重的资源集中。

这种对算力的依赖加剧了地缘上的不平等。如上图所示,机器学习模型的突破高度集中在少数几个拥有巨额资本和硬件资源的地区,主要是美国和中国。

学术界和资源较少的国家被挡在高墙之外。

这种现状还误导了政策制定。无论是欧盟的AI法案还是其他监管措施,都隐含地假设模型会永远变得更大,并将算力阈值作为监管的主要依据。

这种思维定势忽略了一个正在发生的关键转变:算力与性能之间的关系正在变得极不稳定且难以预测。

效率反击战与缩放法则的裂痕

将整个领域的发现文化重新定位在“更大就是更好”的假设之上是危险的。

数据正在讲述一个不同的故事。

算力与性能之间的关系不再是简单的线性增长。

虽然过去十年的证据表明扩大规模是合理的,因为它能带来令人信服的整体性能提升,而且对于季度规划来说,提议训练一个更大的模型比提出一种新的优化技术风险更小。

但这种依赖算力的做法忽略了底层逻辑的转变。

现在的实际情况是,更大的模型并不总是意味着更好的性能。

所谓的“苦涩教训”解释不了为什么拥有1800亿参数的Falcon模型会被像Llama-3 8B、Command R 35B或是Gemma 3 27B这样的小模型轻松击败。

它也解释不了为什么Aya 23 8B和Aya Expanse 8B能够在参数量仅为BLOOM 176B的4.5%的情况下,实现超越后者的性能。

这些并非孤例,而是一个系统性的趋势。

上图左侧显示了提交给Open LLM排行榜的130亿参数以下模型的得分随时间变化情况,即使在同等的小规模下,性能也在飞速增长。

右侧图表则更加直观地揭示了一个惊人的事实:随着时间推移,越来越多的小型模型在性能上超越了那些体积庞大的旧模型。

要理解这一现象,我们需要审视决定计算回报率的关键变量。

在可用算力面临收益递减的时代,优化算法和架构的突破才是决定单位算力回报率的关键。

我们首先要问一个根本性的问题:为什么我们需要这么多的权重?

模型大小通常由可训练参数的数量来量化,这个指标在过去十年里呈指数级增长。

早期的Inception网络只有2300万个权重,而现在的Qwen3等模型拥有数千亿参数。

这种增长是由经验收益驱动的,但在增加额外权重与泛化能力之间的关系上,我们的理解仍然非常匮乏。

一个令人费解的现象是,研究表明我们可以在训练结束后移除网络中的大部分权重,而不会导致性能显著下降。

许多研究证实,通过剪枝技术可以去除大部分参数。

如果我们在训练后可以摆脱它们,为什么一开始非要拥有它们?

有研究发现,网络中只有一小部分权重是预测其他权重所必需的,这表明学习到的特征空间存在高度的冗余。

这种巨大的冗余可能更多地反映了我们当前深度学习技术的低效,以及在起始网络较小时优化过程的不稳定性。

如果我们拥有更好的学习技术,我们可能只需要现在的零头大小的网络。

增加模型规模是学习长尾知识的一种极其昂贵的方式。

虽然深度神经网络能够高效地在训练早期学习到常见和频繁的特征,但它们需要惊人的算力和时间来学习那些不频繁的特征。

这是因为所有现代网络都是基于最小化平均误差来训练的。我们的训练机制通常要求所有样本在训练期间被展示相同的次数,因此不频繁属性的信号会在批量更新中被稀释。

现实世界中的大多数属性都是不频繁的,人类智能的独特之处正是在于我们能够高效地进行模式匹配并处理长尾和前所未见的实例。

这恰恰是深度神经网络最挣扎的地方。

目前的做法基本上是花费绝大部分算力去死记硬背那些长尾知识,这就像是为了去月球而造了一架梯子,方向虽然没错,但方法极其笨拙。

数据质量的提升正在显著降低对算力的依赖。

大量研究表明,通过去重、数据剪枝或数据优先级排序等方法来更好地整理训练语料库,可以弥补模型规模的不足。

这表明可学习参数的数量并不是提高性能的绝对约束。

对数据质量的投资可以减少对更多权重的需求。

如果可以在不影响性能的情况下减小训练数据集的大小,训练时间就会减少,这意味着需要的算力更少。

新的算法技术也在补偿算力。

过去几年的进步很大程度上归功于算法的改进,而不仅仅是算力。

这包括将预训练扩展到指令微调、利用合成数据进行模型蒸馏(用大模型教小模型)、思维链推理、增加上下文长度、检索增强生成(RAG)以及通过人类反馈进行偏好训练。

所有这些技术都在降低对沉重权重或昂贵长时间训练的需求。在同等算力水平下,这些优化技巧能显著提高模型性能。

架构在决定可扩展性方面起着至关重要的作用。

新架构的引入可以从根本上改变算力与性能之间的关系,并打破现有的缩放定律。

例如,卷积神经网络(CNN)之于视觉,Transformer之于语言建模,都曾引发了这样的范式转移。

只要我们还受困于Transformer架构,继续盲目堆砌算力就变得毫无意义。

当前的架构已经显示出边际收益递减的所有迹象。

虽然过去十年的进步围绕着深度神经网络,但下一步的重大飞跃很可能需要一种全新的架构。

深度神经网络在持续学习方面表现特别糟糕,因为我们依赖全局更新,导致新信息会干扰旧知识(灾难性遗忘),这与人脑不同区域的专业化分工形成了鲜明对比。

预测的幻觉与未来的方向

沃伦·巴菲特曾说:“不要问理发师你是否需要理发。”

同理,不要问计算机科学家或经济学家他们是否能准确预测未来。

对“缩放定律”的迷信是行业傲慢压倒常识的典型案例。

缩放定律试图预测规模与性能之间的关系,它之所以流行,是因为它为大规模资本支出提供了理论依据。

如果你能预测算力投入带来的能力提升,你就能证明巨额投资的合理性。

然而,虽然性能通常随规模增长,但我们准确预测其增长幅度的记录却令人惊讶地糟糕。

缩放定律的一个最大局限是,它们通常只在预测模型的预训练测试损失(test loss)时有效,这只是衡量模型预测下一个文本片段能力的指标。

当涉及到下游任务的实际性能时,结果往往是模糊或不一致的。

讽刺的是,业界常用“涌现属性”这个词来描述这种差异。

所谓的“涌现”,实际上是“系统复杂度增加后突然出现且无法预测的属性”的学术委婉语。

承认存在不知从何而来的涌现属性,等于承认缩放定律并没有让我们真正预知未来。

即使局限于预测测试损失,缩放结果在不同假设下的可复现性也存在问题。

许多下游能力显示出不规则的缩放曲线或非幂律缩放。

对于需要预测未来的复杂系统,微小的误差会随着时间步长的依赖而被放大。

由于分析通常基于不到100个数据点(每个数据点代表一个昂贵的模型),许多报告的幂律关系缺乏统计学支持。

缩放定律在某些领域(如代码生成)表现尚可,但在其他能力上则显得极其不稳定。

那些将不成比例的重点放在缩放定律上的前沿AI公司,很可能在那些能解锁未来收益的其他创新方向上投资不足。

计算机科学界曾将算力视为解决所有问题的“银弹”。

但现在我们观察到了算力趋势的分化。

一方面,短期内模型可能会继续变大,试图从现有的架构中榨取最后一点价值;另一方面,算力与性能之间的关系正变得日益紧张。

引领创新的前沿实验室不会仅仅押注于算力。真正的进步将来自于优化空间的根本性范式转移。

一个新的优化领域正在开启:无梯度探索。

传统上,如果你想要更高的性能,你需要更多的训练。

现在的重点正在转向推理时算力。

包括搜索、工具使用、智能体群集和自适应计算在内的策略,允许在不改变模型本身参数的情况下,通过在推理阶段花费更多算力来提高性能。

这与过去30年的AI进步截然不同,这些技术大多是无梯度的,不涉及参数更新。

初步估计显示,这些技术可以带来5到20倍的性能提升,而其算力足迹相对于预训练来说微不足道。

数据空间正在变得可塑。

历史上,高质量标注数据因稀缺和昂贵而被视为静态资源,像MNIST和ImageNet这样的冻结快照构成了AI进步的基础。

这种静态数据集不仅成本高昂,而且在推理时存在分布不匹配的问题。

一场根本性的革命正在发生:合成数据的生成成本已低至我们可以将其视为可优化的变量。

我们可以引导合成数据具有理想的属性,让那些数据覆盖有限的“隐形世界”变得可见。

我们可以有意地将分布偏向我们希望代表的方向,而不是被动接受世界的随机样本。这打破了机器学习中独立同分布(IID)的基本假设。

设计与接口的角色将被重新定义。

最智能的系统将越来越由其与世界交互的能力来定义。

这意味着关心智能的研究人员必须开始痴迷于模型如何交互。

这不再仅仅是用户体验设计师的领域,而是所有计算机科学家应当关注的核心。

未来的进步将需要构建涉及多个组件的系统,而不是寻找一个统治一切的单一算法。

算力收益递减的现实正在让计算机科学家的工作重新变得有趣。

我们终于可以偏离那条通过堆砌算力获得可预测收益的枯燥老路。

艾伦·图灵的那句:我们只能看到前方很短的距离,但我们可以看到那里有大量工作要做。

在这个后缩放时代,这句话显得尤为贴切。

参考资料:

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5877662

https://www.sarahooker.me/

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询