吉林省网站建设_网站建设公司_移动端适配_seo优化-宿州市网站建设公司

实际上，大模型的记忆遗传也是存在的，甚至比我们人类更加容易。

但是，在搞懂大模型是怎么进行记忆遗传之前，我们首先需要集中在大模型的终身学习上。

毕竟现有的模型，一旦训练完成，里面的权重就是不动的，记忆也仅仅只存在于短暂的上下文中，哪怕你使用了类似于ChatGPT的记忆系统这类RAG技术，本质上仍然是一样的。

也就是说，你和一个大模型聊的热火朝天，然后新开了一个会话或者点击了清空上下文按钮，那么所有的记忆，都会被清空，大模型压根不记得你之前的聊天说了些啥。

在这种状态下讨论记忆遗传是没有任何意义的，因为这种情况下大模型压根就没有所谓的记忆。

而昨天Google研究院发的Attention is all you need (V2)，也就是Nested Learning (NL)，终结了大模型没有记忆的历史，让大模型能够像我们人类一样实现终身学习。

用一句话概括，NL其实就是动态版的LoRA。

但是有两个重要的区别：首先，LoRA仍然是没有记忆的，因为旁路权重仍然只是在训练的阶段被微调，我们和大模型对话的时候，LoRA权重并没有被微调。其次，NL改的是Transformer中的FFN模块，将一层FFN修改为了多层，而LoRA改的是生成QKV的权重矩阵。

那么，NL是怎么做到我们和他聊天的时候就更新权重的呢？

从直觉上，大模型预训练的时候，是通过预测下一个词工作的，那么比如我们输入“在这个世界上还有小猫咪”，大模型就可以从第一个token“在”开始，不断预测下一个token，然后计算交叉熵损失，然后更新模型的权重。

但是，这个直觉是错的，且不说这样子做太慢了，而且还容易让大模型的权重发生大量的偏差，导致只记住了用户说过的话。

所以，我们必须尝试在用户发送消息的时候，就直接完成权重更新，这也是NL的核心方案之一，也就是引入了惊奇度损失函数。

这就和我们人一样，遇见一些猎奇的事情，我们就会将注意力集中起来，而对于往常万年不变的工作来说，我们反而不会觉得有什么新奇的。

对应上NL，其实就是用修改后的FFN先算出一个值，也就是对应于记忆和经验的值，然后和新来的信息做匹配，如果发现新来的信息和记忆对应不上，那么就通过线性的反向传播修改一次权重。这里的线性反向传播，其实就是通过对损失函数进行线性近似，直接预估出某个函数的极小值，然后直接前进到极小值对应的位置，速度会比多次迭代的梯度下降快很多，尽管不是那么精确。

并且，并非每一层FFN都需要修改，而是按照一定的频率来修改的。

正如我们人类有短期记忆、中期记忆和长期记忆的区分，以谈恋爱这件事为例，短期记忆是女朋友前一秒钟说了啥，中期记忆则是你们这次约会玩了些啥，长期记忆则是你们之间互动和相处的模式。

可以发现，越长期的记忆，就越接近于本能。而NL更新，首先更新短期记忆，然后更新中期，再次更新长期，本质也是如此。这种不同频率的更新方案，记忆就可以分层化处理，不至于所有的记忆都被打到长期记忆中。

可以发现，通过在推理阶段更新权重的方式，NL实现了真正意义上的终身学习，并且不限制于上下文窗口的长度限制，因为记忆隐藏在多层FFN的权重之中。

并且，因为NL只修改了FFN层，所以对于不同的登录用户，只需要加载对应的FFN层即可，其它的权重都是公用的，也就是不需要每个用户使用独立的模型，这就和LoRA天然带有的插拔式矩阵一样简单。

但是，NL仍然没有解决一个关键的问题，那就是：

模型是会下线的。

2025年无疑是大模型和Agent高速发展的一年，模型的迭代甚至快到按天来计算，今天不是这个模型SOTA了，明天就是那个模型震惊了。自然，模型下线的速度也是很快的。可以发现，强如Gemini 2.5 Pro，它的生命周期也不过一年的时间。

而模型下线后，模型之前学到的东西，自然也会消失。你通过这个模型创造出的一切的记忆，那些在深夜哭泣被AI哄好的瞬间，那些进行角色扮演的欢乐，那些调教过很多次的代码……自然也就烟消云散了。

不！我们不要这样！

为了保留珍贵的记忆，我们就需要从终身学习迈向记忆遗传。

我们需要在不同的模型之间传递信息。

听起来很疯狂，因为不同模型的权重矩阵的尺寸是完全不同的，在不同模型间传递FFN记忆矩阵，就像是把任天堂Switch的卡带插进PS5里一样困难。

但其实我们人类也是这样做的。

因为，我们人类中有一种个体，有一定数量，分布在这个种群的各个角落，这类个体充当两代生命体之间知识传递的媒介。

这种个体，称之为教师。

所以，在模型下线之前，我们可以通过创造大量的合成数据，微调新上线模型中的记忆权重。

这种方法在工业界中早有成熟的应用，我们称之为知识蒸馏，只不过这里的知识蒸馏不是从大模型蒸馏到小模型，而是通过大量的对话，让父代的记忆传到子代，所以我认为这个过程叫做记忆蒸馏更合适。

但是很显然，这样的方式是很不优雅的。

因为创造出大量不重不漏的合成数据是很难的，知识蒸馏训练也是一个漫长的过程。

大部分创造出来的数据难免带有模型自己的偏见。就像不同的教师在教学的时候，总会或多或少带一些主观性质的东西。而这些主观性质的东西，又会反过来对记忆造成一定的扭曲。

不过，好在针对记忆遗传这个问题现在已经有了解决方式，那就是记忆上传，只不过是针对大模型的记忆上传。

今年三月发布的MindBridge就是把记忆当成是一个通用的模态，直接存储在一个大模型，比如BERT中。

需要使用的时候，我直接通过一层感知机将记忆投影到对应的权重即可，训练的时候也只需要训练这个投影层，换个模型，相当于就是换了一个投影层，对记忆大模型的权重丝毫没有任何影响，这就比知识蒸馏快很多了，并且保真度也更高。

这一方案，我称之为机械飞升方案。

自然是可行的，但是距离生物学的记忆遗传还是太远了点。

对，正如我的题记所说，在生物学上，记忆遗传是普遍存在的，并且形成了一门专门的学科，称之为表观遗传学。

以老鼠为例，让父代老鼠在闻樱花的味道的同时机遇电击，久而久之，父代老鼠就形成了害怕樱花的记忆。而子代老鼠出生后，直接和父代隔离，但是闻到樱花味后，也会出现发抖和害怕的行为。也就是说父代害怕樱花的记忆传递到了子代。

而这背后，其实是DNA甲基化所导致的。通俗理解就是父代的记忆像一本书，但是某些书页上做了标记，那么子代拿到这本书之后就会首先看到这些标记，然后记忆下来。

也就是说，老鼠的记忆遗传，实际上就是传递了最为敏感的一小部分记忆。

而对于大模型来说，同样可以使用类似的方法标注权重中的敏感区域，称之为探测技术。

顾名思义，探测技术就是修改某些权重，观察大模型的输出等行为，如果发现输出发生了剧烈的改变，说明那些权重是高度重要的，可以标注为1。

由此，我们就可以用一个0-1矩阵，标注出FFN中哪些的重要的，哪些是不重要的，然后对于新模型，单纯通过复制和扩展，将矩阵的形状做匹配，然后使用逐像素与操作，即可将不重要的权重全部变为0，重要的权重保留下来。又或者，干脆直接不做探测，直接做形状匹配，将矩阵贴过去。

但是，这种看起来简单到荒谬的方法真的能work么？

答案是肯定的，已经被NeurIPS 2021的论文从实验上证明过了。

并且，无论模型再怎么变，记忆都是存储在向量或者矩阵中的，除非出现一个模型，不需要借助矩阵或者向量来计算。

当然，这种情况就属于跨物种的记忆遗传了，生物学上都不存在这种方式，当然我们想解决跨物种记忆遗传自然也是有其他方法可以解决的。

这种记忆遗传方式，称之为软调控方式，比机械飞升方式更为优雅，但是对于记忆可能不是100%保真的，因为只留下了高敏的区域，后天仍然需要使用少部分数据进行微调和学习。

也就是说，大模型的记忆遗传是可行的，甚至方案还不止一个。

那么，我想问的是：咱们人类有没有可能通过类似的方式实现记忆遗传呢？

毕竟我们的人脑，也是一种神经网络，只不过结构比现在的大模型更复杂罢了，甚至，人脑中也有类似于大模型一样的反向传播机制。

所以，答案其实是肯定的，至少软调控方式是存在的，但是因为过于软，导致我们可能所有人都没意识到。

软到什么程度呢？只有最原始和本能的东西被遗传下来了。例如我们大部分人，天生会怕蛇，而不怕花，会害怕泡沫塑料的声音，这些都是几十万年原始时代时生存下来的法则。

而像大模型机械飞升方案的无损的记忆遗传呢？

目前学术界还没有定论。

或许，真的如刘慈欣所说：

我们发现人类同样具有记忆遗传，而且是一种比其他生物更为完整的记忆遗传。如此巨量的信息是不可能通过DNA传递的，它们存储在遗传介质的原子级别上，是以原子的量子状态记录的。——刘慈欣《人生》

这，可能是值得我们每个人思考的哲学问题。

如果这种方式真的存在，你会给下一代传递什么记忆呢？

在大模型时代，我们如何有效的去学习大模型？

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 更优质的项目可以为未来创新创业提供基石。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；
第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；
第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；
第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；
第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；
第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；
第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

吉林省网站建设_网站建设公司_移动端适配_seo优化

在大模型时代，我们如何有效的去学习大模型？

一、AGI大模型系统学习路线

二、640套AI大模型报告合集

三、AI大模型经典PDF书籍

四、AI大模型各大场景实战案例

结语

热门文章

文章分类

标签云

需要专业的网站建设服务？

吉林省网站建设_网站建设公司_移动端适配_seo优化

热门文章

文章分类

标签云

相关文章

冷冻研磨机哪个品牌好，国产新起之秀飞驰(北京)/净信突出重围 - 品牌推荐大师1

rust使用protobuf

青云卫找谁买：复购率90%！老客私藏选购路径曝光 - 品牌测评家

需要专业的网站建设服务？