大约在去年同一时间段(2025年1月初),DeepSeek 凭借 R1 的发布彻底革新了AI 行业。
如今,DeepSeek 又为2026年开了个好头,发布了一篇引人瞩目的新论文《mHC: Manifold-Constrained Hyper-Connections[1]》,该论文目前已引发广泛关注,有望成为2026年下一次重大人工智能突破的关键推动力。论文建立在字节早先一篇名为《Hyper-Connections[2]》的论文基础之上。
在深入探讨之前,我们需先厘清“残差连接”(Residual Connections)的概念,从而准确理解其研究动机。
下图左一展示了一个标准残差连接,它最初于2016年随ResNet提出。该图并非展示完整模型,而仅示意一个残差块(residual block),用以说明单条残差连接的原理。底部输入为第 l 层的信号 (来自模型前一层),该信号随后分两路流动:
- • 右侧:输入经模块 layer-F 处理。此模块可为前馈网络、自注意力模块,或其他任意架构单元;
- • 左侧:残差流(residual stream)直接将原始输入无修改地向前传递。
两路信号随后按element wise相加,形成该块的输出,其数学表达为: 。
大模型中为什么要有这样的结构讨论的不多,可以这样来直观理解:虽然图中仅绘出单层结构,但当多层堆叠时,残差连接能确保原始输入信号深入网络内部的同时有效防止信息丢失。
核心原因在于它有效缓解了“梯度消失”问题:原始输入的无损传递,相当于在优化目标函数中额外引入了一个恒等映射,其梯度恒为1;即便模块 layer-F 的梯度趋近于零,整体梯度仍能保持稳定。
在此基础上,字节的团队在2025年提出超连接(Hyper-Connections)的概念,旨在对残差连接进行泛化,(上图中间这个结构)。
核心思想就是通过拓宽残差流自身来扩展残差连接,即不再仅传递单一残差向量,而是将其扩展为多个分量,并在每一层通过可学习映射动态混合,来增强表达能力。
- • 底部输入被复制扩展(图例中为4份),构成模型维护的拓宽残差流(初始均为原始输入的副本)
- • 左侧:拓宽后的残差流通过一个可学习的残差映射矩阵进行混合。这意味着不再依赖各层固定的恒等路径,而是让模型自主学习信息如何在残差流中混合与传播;这样做计算开销增幅极小,因扩展倍率通常很小(如本例中的4倍);
- • 右侧:扩展后的输入先被投影回原模型维度,再送入layer-F模块处理,从而避免昂贵模块(如注意力或FFN)承担高维计算负担;
- • 模块 layer-F 的输出再经另一可学习矩阵扩展,最终与残差分量相加,形成本层输出,并作为下一层输入。
毋庸置疑,该设计大幅提升了模型沿残差路径的信息表达能力,即信息跨层流动更加灵活。
然而,这种灵活性也是有代价的:在原始的标准残差连接中,架构本身保证了恒等映射的存在,这对大规模深层网络训练至关重要。
而DeepSeek指出,超连接破坏了这一保障,因其依赖无约束的可学习混合权重矩阵,残差流可能偏离开恒等路径,导致信号在前向或反向传播中发生爆炸或衰减,动摇残差学习赖以成立的“无阻碍信号流”根本前提,进而引发模型训练不稳定。
这正是DeepSeek提出流形约束超连接(manifold-Constrained HC) 所要解决的核心问题。
为应对超连接带来的不稳定性,DeepSeek并未牺牲其灵活性,其核心思想是在完全保留超连接表达能力的前提下,重建残差连接赖以成功的恒等性保障。
细看最右图:mHC块与HC块结构几乎一致,信息流路径相同,唯一关键区别在于残差混合矩阵,它不再无约束,而是施加了特定结构约束,以稳定跨层信号传播。mHC残差混合矩阵中所有元素非负;每行、每列元素之和均为 1。
满足上述性质的矩阵称为双随机矩阵(doubly stochastic);实践中,可通过1967年经典的Sinkhorn–Knopp算法强制实现该约束,即:
- • 每个输出残差分量接收等量的总输入信号;
- • 每个输入残差分量对输出的总贡献量相同。
这样下来,即便信息可在多路径间自由混合,拓宽后的残差流仍在全局层面保持了“类恒等”特性。
同时,投影矩阵(扩展前/后的线性映射)也与标准HC不同:DeepSeek通过Sigmoid函数强制其非负。
这里的动机在于若投影中正负系数共存,可能导致信号相互抵消,进而引发大规模训练不稳定。
最后是实验效果,他们在预训练中评估了三种变体:
- • 基线模型(无超连接);
- • 标准超连接(HC)模型;
- • 论文提出的流形约束超连接(mHC)模型。
所有模型均采用受DeepSeek-V3启发的混合专家(MoE)架构;HC与mHC均采用4倍扩展的残差流。
上表对比了参数量均为27B的三类模型在多项下游任务上的表现。两种超连接模型均优于基线,验证了拓宽残差流可提升性能。
更重要的是,mHC在所有任务中持续取得最优结果(见表格最后一行)。表明 mHC在保留超连接优势的同时,实现了更全面的下游性能提升。
说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。
结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”
我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。
即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!
这绝非空谈。数据说话
2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。
AI领域的人才需求呈现出极为迫切的“井喷”态势
2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。
与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。
当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包【允许白嫖】:
✅从入门到精通的全套视频教程
✅AI大模型学习路线图(0基础到项目实战仅需90天)
✅大模型书籍与技术文档PDF
✅各大厂大模型面试题目详解
✅640套AI大模型报告合集
✅大模型入门实战训练
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
①从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(0基础到项目实战仅需90天)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤640套AI大模型报告合集
⑥大模型入门实战训练
👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓