吉林省网站建设_网站建设公司_移动端适配_seo优化
2025/12/23 18:40:44 网站建设 项目流程

实际上,大模型的记忆遗传也是存在的,甚至比我们人类更加容易。

但是,在搞懂大模型是怎么进行记忆遗传之前,我们首先需要集中在大模型的终身学习上。

毕竟现有的模型,一旦训练完成,里面的权重就是不动的,记忆也仅仅只存在于短暂的上下文中,哪怕你使用了类似于ChatGPT的记忆系统这类RAG技术,本质上仍然是一样的。

也就是说,你和一个大模型聊的热火朝天,然后新开了一个会话或者点击了清空上下文按钮,那么所有的记忆,都会被清空,大模型压根不记得你之前的聊天说了些啥。

在这种状态下讨论记忆遗传是没有任何意义的,因为这种情况下大模型压根就没有所谓的记忆。

而昨天Google研究院发的Attention is all you need (V2),也就是Nested Learning (NL),终结了大模型没有记忆的历史,让大模型能够像我们人类一样实现终身学习。

用一句话概括,NL其实就是动态版的LoRA。

但是有两个重要的区别:首先,LoRA仍然是没有记忆的,因为旁路权重仍然只是在训练的阶段被微调,我们和大模型对话的时候,LoRA权重并没有被微调。其次,NL改的是Transformer中的FFN模块,将一层FFN修改为了多层,而LoRA改的是生成QKV的权重矩阵。

那么,NL是怎么做到我们和他聊天的时候就更新权重的呢?

从直觉上,大模型预训练的时候,是通过预测下一个词工作的,那么比如我们输入“在这个世界上还有小猫咪”,大模型就可以从第一个token“在”开始,不断预测下一个token,然后计算交叉熵损失,然后更新模型的权重。

但是,这个直觉是错的,且不说这样子做太慢了,而且还容易让大模型的权重发生大量的偏差,导致只记住了用户说过的话。

所以,我们必须尝试在用户发送消息的时候,就直接完成权重更新,这也是NL的核心方案之一,也就是引入了惊奇度损失函数。

这就和我们人一样,遇见一些猎奇的事情,我们就会将注意力集中起来,而对于往常万年不变的工作来说,我们反而不会觉得有什么新奇的。

对应上NL,其实就是用修改后的FFN先算出一个值,也就是对应于记忆和经验的值,然后和新来的信息做匹配,如果发现新来的信息和记忆对应不上,那么就通过线性的反向传播修改一次权重。这里的线性反向传播,其实就是通过对损失函数进行线性近似,直接预估出某个函数的极小值,然后直接前进到极小值对应的位置,速度会比多次迭代的梯度下降快很多,尽管不是那么精确。

并且,并非每一层FFN都需要修改,而是按照一定的频率来修改的。

正如我们人类有短期记忆、中期记忆和长期记忆的区分,以谈恋爱这件事为例,短期记忆是女朋友前一秒钟说了啥,中期记忆则是你们这次约会玩了些啥,长期记忆则是你们之间互动和相处的模式。

可以发现,越长期的记忆,就越接近于本能。而NL更新,首先更新短期记忆,然后更新中期,再次更新长期,本质也是如此。这种不同频率的更新方案,记忆就可以分层化处理,不至于所有的记忆都被打到长期记忆中。

可以发现,通过在推理阶段更新权重的方式,NL实现了真正意义上的终身学习,并且不限制于上下文窗口的长度限制,因为记忆隐藏在多层FFN的权重之中。

并且,因为NL只修改了FFN层,所以对于不同的登录用户,只需要加载对应的FFN层即可,其它的权重都是公用的,也就是不需要每个用户使用独立的模型,这就和LoRA天然带有的插拔式矩阵一样简单。

但是,NL仍然没有解决一个关键的问题,那就是:

模型是会下线的。

2025年无疑是大模型和Agent高速发展的一年,模型的迭代甚至快到按天来计算,今天不是这个模型SOTA了,明天就是那个模型震惊了。自然,模型下线的速度也是很快的。可以发现,强如Gemini 2.5 Pro,它的生命周期也不过一年的时间。

而模型下线后,模型之前学到的东西,自然也会消失。你通过这个模型创造出的一切的记忆,那些在深夜哭泣被AI哄好的瞬间,那些进行角色扮演的欢乐,那些调教过很多次的代码……自然也就烟消云散了。

不!我们不要这样!

为了保留珍贵的记忆,我们就需要从终身学习迈向记忆遗传。

我们需要在不同的模型之间传递信息。

听起来很疯狂,因为不同模型的权重矩阵的尺寸是完全不同的,在不同模型间传递FFN记忆矩阵,就像是把任天堂Switch的卡带插进PS5里一样困难。

但其实我们人类也是这样做的。

因为,我们人类中有一种个体,有一定数量,分布在这个种群的各个角落,这类个体充当两代生命体之间知识传递的媒介。

这种个体,称之为教师。

所以,在模型下线之前,我们可以通过创造大量的合成数据,微调新上线模型中的记忆权重。

这种方法在工业界中早有成熟的应用,我们称之为知识蒸馏,只不过这里的知识蒸馏不是从大模型蒸馏到小模型,而是通过大量的对话,让父代的记忆传到子代,所以我认为这个过程叫做记忆蒸馏更合适。

但是很显然,这样的方式是很不优雅的。

因为创造出大量不重不漏的合成数据是很难的,知识蒸馏训练也是一个漫长的过程。

大部分创造出来的数据难免带有模型自己的偏见。就像不同的教师在教学的时候,总会或多或少带一些主观性质的东西。而这些主观性质的东西,又会反过来对记忆造成一定的扭曲。

不过,好在针对记忆遗传这个问题现在已经有了解决方式,那就是记忆上传,只不过是针对大模型的记忆上传。

今年三月发布的MindBridge就是把记忆当成是一个通用的模态,直接存储在一个大模型,比如BERT中。

需要使用的时候,我直接通过一层感知机将记忆投影到对应的权重即可,训练的时候也只需要训练这个投影层,换个模型,相当于就是换了一个投影层,对记忆大模型的权重丝毫没有任何影响,这就比知识蒸馏快很多了,并且保真度也更高。

这一方案,我称之为机械飞升方案。

自然是可行的,但是距离生物学的记忆遗传还是太远了点。

对,正如我的题记所说,在生物学上,记忆遗传是普遍存在的,并且形成了一门专门的学科,称之为表观遗传学。

以老鼠为例,让父代老鼠在闻樱花的味道的同时机遇电击,久而久之,父代老鼠就形成了害怕樱花的记忆。而子代老鼠出生后,直接和父代隔离,但是闻到樱花味后,也会出现发抖和害怕的行为。也就是说父代害怕樱花的记忆传递到了子代。

而这背后,其实是DNA甲基化所导致的。通俗理解就是父代的记忆像一本书,但是某些书页上做了标记,那么子代拿到这本书之后就会首先看到这些标记,然后记忆下来。

也就是说,老鼠的记忆遗传,实际上就是传递了最为敏感的一小部分记忆。

而对于大模型来说,同样可以使用类似的方法标注权重中的敏感区域,称之为探测技术。

顾名思义,探测技术就是修改某些权重,观察大模型的输出等行为,如果发现输出发生了剧烈的改变,说明那些权重是高度重要的,可以标注为1。

由此,我们就可以用一个0-1矩阵,标注出FFN中哪些的重要的,哪些是不重要的,然后对于新模型,单纯通过复制和扩展,将矩阵的形状做匹配,然后使用逐像素与操作,即可将不重要的权重全部变为0,重要的权重保留下来。又或者,干脆直接不做探测,直接做形状匹配,将矩阵贴过去。

但是,这种看起来简单到荒谬的方法真的能work么?

答案是肯定的,已经被NeurIPS 2021的论文从实验上证明过了。

并且,无论模型再怎么变,记忆都是存储在向量或者矩阵中的,除非出现一个模型,不需要借助矩阵或者向量来计算。

当然,这种情况就属于跨物种的记忆遗传了,生物学上都不存在这种方式,当然我们想解决跨物种记忆遗传自然也是有其他方法可以解决的。

这种记忆遗传方式,称之为软调控方式,比机械飞升方式更为优雅,但是对于记忆可能不是100%保真的,因为只留下了高敏的区域,后天仍然需要使用少部分数据进行微调和学习。

也就是说,大模型的记忆遗传是可行的,甚至方案还不止一个。

那么,我想问的是:咱们人类有没有可能通过类似的方式实现记忆遗传呢?

毕竟我们的人脑,也是一种神经网络,只不过结构比现在的大模型更复杂罢了,甚至,人脑中也有类似于大模型一样的反向传播机制。

所以,答案其实是肯定的,至少软调控方式是存在的,但是因为过于软,导致我们可能所有人都没意识到。

软到什么程度呢?只有最原始和本能的东西被遗传下来了。例如我们大部分人,天生会怕蛇,而不怕花,会害怕泡沫塑料的声音,这些都是几十万年原始时代时生存下来的法则。

而像大模型机械飞升方案的无损的记忆遗传呢?

目前学术界还没有定论。

或许,真的如刘慈欣所说:

我们发现人类同样具有记忆遗传,而且是一种比其他生物更为完整的记忆遗传。如此巨量的信息是不可能通过DNA传递的,它们存储在遗传介质的原子级别上,是以原子的量子状态记录的。——刘慈欣《人生》

这,可能是值得我们每个人思考的哲学问题。

如果这种方式真的存在,你会给下一代传递什么记忆呢?

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型各大场景实战案例

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询