导语
大语言模型已成为人工智能发展的重要里程碑。既有的规模法则表明,随着模型规模的扩大,LLM的性能会持续提升,但这也对训练与部署带来显著挑战。尽管业界不断尝试提升模型效率,却仍缺乏关于不同规模LLM的效率发展趋势与评价体系的统一共识。为解决性能与效率之间的张力,本文提出“能力密度”这一概念,用以衡量模型在单位参数上所体现的有效能力,从而在性能与效率两个维度上提供统一的评价框架。我们进一步给出一项经验性发现,即“密度定律”:LLM的能力密度随时间呈指数增长。基于多个主流基准的评估结果显示,开源LLM的最大能力密度大约每3.5个月翻倍。这意味着,实现同等性能所需的参数规模与推理成本均在指数下降,为高效LLM的开发策略提供了新的启示。
关键词:大语言模型(LLMs)、规模法则(Scaling Law)、能力密度(Capability Density)、密度定律(Densing Law)、效率评估(Efficiency Evaluation)
论文题目:Densing law of LLMs
论文链接:https://www.nature.com/articles/s42256-025-01137-0
发表时间:2025年11月6日
论文来源:Nature Machine Intelligence
能力密度的指数跃迁,正在悄悄改变 AI 的未来
近两年,大模型的突飞猛进让人切身感受到“技术狂飙”,然而一个更耐人寻味的现象也随之浮现:模型能力不断提高,推理成本却在飞速下降;小模型越来越频繁地逼近甚至超越大模型;而“继续堆参数”似乎不再是性能提升的唯一途径。2025年11月6日发表于Nature Machine Intelligence的论文《Densing Law of LLMs》给出了一种颠覆性的解释——大模型正在从拼“规模”转向拼“密度”。研究发现,LLM的“能力密度”(capability density)正以指数速度增长,约每3.5个月翻一倍,这意味着达到同等性能所需的参数量大幅减少,推理成本呈指数级下降,端侧智能(在手机、PC等本地设备运行大模型)将比预期更早成熟。这不是简单的性能提升,而是一场关于效率的革命。让我们从这篇可能深刻影响未来五年的论文开始,重新理解大模型的进化方向。
过去衡量模型能力,业界普遍遵循“参数越大,性能越强”的直觉,但随着大量开源模型的涌现,这一直觉逻辑开始失灵,出现7B模型逼近甚至匹敌70B模型,4B模型在部分任务上超过13B模型,手机端模型也逐渐具备ChatGPT3.5的水平,而训练数据质量与训练策略的重要性日益凸显。这些现象共同指向一个事实——参数量已无法充分解释模型能力的差异,规模不再等同于质量。因此,真正需要关注的已不再是“模型有多大”,而是“模型的效率有多高”。
什么是“能力密度”?简单来说,它衡量的是模型“每个参数的含金量”。其定义为:能力密度 = 模型的有效能力 ÷ 实际参数量。这里的“有效能力”并非模型自身的参数规模,而是一个反推值:如果某模型达到特定性能,那么一套参考模型需要多少参数才能取得相同表现,这个等效参数量记为 N̂(此处的参考模型为研究者自建的一系列不同参数规模、结构一致、训练流程一致的小参数规模模型)。于是能力密度可写为 ρ = N̂ / N,用来刻画模型训练得是否“紧实”。例如,一个3B模型若达到参考模型6B的能力,则密度 ρ = 6 / 3 = 2,代表其单位参数效率极高;反之,若一个7B模型只能达到参考模型3B的水平,则 ρ < 1,说明其参数利用率偏低。本质上,能力密度回答的就是那一句:模型的每个参数到底“值不值钱”?
密度定律:能力密度正以指数方式增长
本研究中最重要的发现之一,是大模型的能力密度随时间呈现稳定的指数增长趋势。研究者选取五十余个近年来发布的开源基础模型,覆盖多个系列(如 Llama、Mistral、Gemma、Phi、DeepSeek、MiniCPM 等),并在多个主流基准(MMLU、BBH、MATH、HumanEval、MBPP)上进行统一评估。结果显示,模型的最大能力密度大约每 3.5 个月翻一倍,这一趋势在不同任务和不同模型之间都十分一致。
图 1|近年来开源大模型的能力密度趋势。每个点代表一个模型,圆点越大参数量越大。从图中可以看到,随着时间推移,能力密度的上界呈现清晰的指数增长。
这一指数增长趋势意味着:未来达到相同性能所需的参数量将持续减少。换言之,人们惯常认为的“大模型能力强、但成本高”的认知,将在未来不断被弱化。更令人兴奋的是,这种指数增长在新模型中体现得更为突出,特别是数据质量、训练策略更为精细的小模型,往往展现出远超其规模的能力密度。
能力密度提升的一个自然结果,是实现相同性能所需的实际参数量不断减少。与此同时,推理成本也正在以类似的指数速度下降。文章对多个高性能模型的API调用价格进行了整理,并展示了一个同样令人惊讶的趋势:模型的推理价格大约每2.6个月减半。2022 年 GPT-3.5 的价格约为每百万token需要20美元,而到了 2024 年,Gemini Flash的推理价格仅为0.075美元,相当于下降了超过260倍。
图 2|近年来几个主流语言模型的推理价格变化。性能优于 GPT-3.5 的大语言模型(LLMs)的应用程序接口(API)定价。线条连接各时间点定价最低的模型,最便宜模型的API定价呈指数下降。
推理成本的下降不仅来自模型能力密度的提升,也来自底层推理技术的优化,例如 FlashAttention、PagedAttention、量化推理格式、稀疏激活架构等。随着模型本身越来越“紧实”,推理成本的下降幅度也将持续扩大。
当密度定律遇上 Moore 定律:端侧智能将提前爆发
当能力密度的指数增长与硬件性能的指数增长叠加时,一个更加激进的趋势会出现。过去数十年里,硬件晶体管密度大约每两年翻一倍;如今,大模型的能力密度每3.5个月翻一倍。两者的乘积效果意味着:在固定价格的硬件上,能够运行的“有效模型规模”约每88天翻一倍。
这预示着什么?预示着过去需要云端大模型才能实现的能力,未来将能在手机、电脑、平板等设备上高效运行。端侧 AI 的普及速度可能远超过我们目前的想象,隐私计算、低成本部署、离线大模型应用将因此迎来爆发式发展。
图 3|大模型的高性能正向小规模模型迁移,同时端侧可运行模型的能力快速提升(图片源于网络)。红色虚线区域代表接近GPT-4V水平的模型带宽,随着时间推移,越来越小的模型逐渐逼近这一性能区间;下方蓝色虚线趋势线展示了能够在端侧设备运行的模型能力不断上升。
高密度模型不是“压”出来的,而是“练”出来的
在参数规模快速被重新评估的背景下,一个看似合理的猜想是:既然参数越少越高效,那么剪枝、蒸馏、量化等模型压缩技术应该更容易得到高能力密度的小模型。但论文的实验结果却指向相反方向——压缩后的模型能力密度整体上并不比原模型高,甚至往往更低。其根本原因在于,压缩过程虽然减少了模型的实际参数量,却没有让模型获得足够的再训练,从而无法让这些“更轻”的参数真正承担起更高的能力负载。尤其是量化,虽然降低了内存和推理成本,但不可避免地带来一定的性能损失。因此,真正高密度的小模型,并不是“从大模型压缩而来”,而是“从一开始就为高密度而训练”的结果。
能力密度之所以能够持续提升,主要源于三方面的共同推动。首先,训练数据的规模与质量显著提高。以Llama系列为例,Llama-3 所使用的15万亿token数据不仅规模远超Llama-1的1.4万亿token,且在清洗与筛选流程上更加精细,这使模型能够在同样结构下学习到更丰富、更可靠的知识。其次,模型结构日益高效。以稀疏专家模型(MoE)为代表的新架构,使模型在推理时仅激活部分专家,从而以更低的计算量获得更强的表达能力,大幅提高“参数的利用率”。最后,训练算法不断演进。无论是将强化学习前移到预训练阶段,还是利用高质量的合成数据和“弱到强”(weak-to-strong)训练策略,这些方法都让模型能够在固定参数量下挖掘出更高的能力上限。这些因素共同作用,使得模型在“单位参数上可以学习到更多能力”,从而推动能力密度不断攀升。
当然,谨慎来说能力密度的增长不可能无限持续。信息论告诉我们,每个参数能够存储的信息量是有限的,模型参数的表达能力也有理论上界。随着模型的训练方式、数据质量和结构不断提升,能力密度的增长最终将遇到瓶颈。届时,如果要继续突破当前框架的限制,可能需要依赖全新的技术范式,例如量子计算、类脑计算或其他尚未成熟的计算架构。尽管如此,在可预见的未来几年中,能力密度仍会保持高速增长,模型变“密”的趋势不会减弱。
密度定律不仅是一个科学观察,更是一个具有产业指导意义的趋势。对于模型研发而言,它提示我们,未来的竞争不再是单纯扩大参数规模,而是追求“更高密度”的训练方法与更高质量的数据;对于企业而言,可以据此预测未来模型成本的下降趋势,从而更合理安排AI投入;对于硬件和应用产业,则意味着端侧智能将迎来快速扩张,本地运行大模型将从技术挑战变成新常态。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。