湖州市网站建设_网站建设公司_需求分析_seo优化
2025/12/21 23:09:52 网站建设 项目流程

许多流行的人工智能应用——如机器翻译、对话式人工智能和问答系统——都依赖于自然语言生成,即生成语法和语义连贯的新文本序列。

有时,调节语言生成器的输出是有用的:例如,在不同的场合,机器翻译模型可能需要产生更正式或更地道的翻译;对话式人工智能模型可能更侧重于传递信息或引出人类对话者的回应。

通常,构建能提供这种控制的自然语言生成模型意味着需要在相应类型的标注数据(正式或非正式的措辞,信息性或疑问性的话语)上对它们进行重新训练。但某中心Alexa AI组织的研究人员发明了一种方法,可以在无需重新训练的情况下调节语言生成器的输出。

他们为自然语言生成模型添加了三个所谓的“控制旋钮”,可以改变模型的输出。他们在名为“使用编码器-解码器Transformer进行零样本受控生成”的论文中描述了他们的方法,该论文已发布在arXiv上。论文的通讯作者、高级应用科学家Mahdi Namazifar为某机构科学回答了关于其团队工作的3个问题。

问:为自然语言生成模型添加“控制旋钮”意味着什么?
这个领域的普遍看法是,一旦你有了一个训练好的模型,如果你手动进入模型并做改动,会导致模型性能退化。与这种看法相反,我们在这项工作中所做的一件事正是如此:我们拿一个训练好的模型,手动操作模型的权重、模型的参数。我们证明,这不仅仅不会导致模型退化(我们看到可以保持生成的质量),而且如果你以一种系统化和直观的方式去做,还能通过这种方式实现控制。

研究人员注意力偏置“控制旋钮”的图示。由训练好的模型学到的注意力分布(下方蓝色条组)被重新加权并归一化以产生新的分布。

一个很好的例子是注意力偏置。注意力机制做出决定,在这一点上,我需要关注输入中的某个分布。我们证明,我们可以进入注意力模块,强制训练好的模型比通常更关注上下文的某些部分。

例如,如果你有一个对话模型,并且我们希望给用户的下一个回应更具信息性,我们实际上可以强制模型更关注我们提供的知识片段。再次,预期会是这会让模型完全失控,但我们非常惊讶地发现,这种情况并没有发生,事实上它实现了我们的设想,并且符合直觉。

问:另外两个旋钮是什么?
我们在这里引入的另一个旋钮是解码器混合。想象一下,你有两个不同的模型,它们有两个不同的解码器,这些解码器已经学会了不同的技能。例如,在一个对话系统中,解码器学会了根据对话历史如何回应。再想象一个具有完全不同任务的解码器——例如,一个自动编码器,给定输入的编码,能够重构输入。所以,这两个解码器学会了不同的技能。我们证明,通过混合它们,我们可以混合它们已学会的技能。这个可以回应;那个可以从输入中复制。例如,如果输入中有一些知识,那么结合这些技能就能让我们得到一个更具信息性的回应。

第三个旋钮是另一个有趣的旋钮。为了达到某些期望的控制效果,我们在这里提出的方法是用某些额外的输入来增强输入——这同样是直观设计的。例如,如果你希望生成的语言是一个问题,我们证明,如果我们获取一堆问题,以某种方式对它们进行编码,并用这种问题编码来增强我们的输入,模型就能够生成更多的问题;无论模型原本想生成什么,它都会以提问的方式生成。或者,如果你想根据某个特定主题生成,你会给它该主题的控制短语,这会推动模型按照该主题生成,或者带有某种情感,等等。

这有点类似于文献中已有的语言模型“引导”概念,但引导从未被证明适用于较小的语言模型。它被证明适用于具有数千亿参数的、计算成本非常高的语言模型。但我们证明,这种版本的“引导”可以让更小得多的模型(甚至小三个数量级的模型)以不同的方式使用引导的概念。同样,这个旋钮和其他两个旋钮完全不需要额外的训练和标注数据。

问:你们是否尝试过其他类型的控制旋钮?
基于编码器-解码器Transformer的自然语言生成模型有两套注意力机制。一个叫做自注意力,一个叫做交叉注意力。自注意力在模型生成时启动,它关注到此时为止生成的内容——“两秒钟前从我‘嘴里’说出的单词是什么?”。交叉注意力关注上下文——上一轮所说的所有内容,或者关于对话主题的某种知识等等。我们发现,对交叉注意力应用注意力偏置效果非常好,正如论文中所讨论的那样,但当我们将注意力偏置应用于自注意力时,我们基本上看到了我们一开始预期的结果,即模型开始生成基本上是乱码的东西,或者说模型开始退化。

研究人员模型的图示,包括三个有效的控制旋钮和一个是无效的(自注意力偏置)。

在深入探究之后,我们提出——基本上是作为一个假设——在这些模型中,这个自注意力模块负责生成语言的流畅性,这可能是它的主要功能。那么,为什么这很重要?我们证明,如果我们有另一个流畅的模型,并且我们用另一个流畅的模型替换模型的这部分,我们仍然能得到良好的生成结果。这告诉我们,也许在为我们拥有的任何任务训练模型时,我们不需要专注于训练这些部分。如果我们有一个能流畅生成的模型,我们可以直接使用那些权重和模块。

这样做的好处基本上在于计算成本的节省。我们看到,在某些情况下,我们可以用少44%的权重和参数来训练模型,仍然能得到相当有竞争力的结果,这非常重要,因为训练这些模型的成本非常高昂。训练时间将显著减少,并且我们可以使用更小的机器来训练相同的模型,这也减少了碳足迹。

这是这项工作的一个次要贡献,即关注一个它不起作用的案例。这个旋钮不起作用,当我们深入探究它为什么不起作用时,我们得出了一些新的发现。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询