EMNLP:提示工程是新的特征工程
某中心网络服务AI实验室的首席应用科学家 Miguel Ballesteros 表示,为了最大化效用,大型语言模型需要生成连贯且一致的输出,并识别以不同方式表达的提示。
提示的演变:从特征到指令
“过去,我们进行特征工程,你有一个统计模型,你添加不同类型的表示或特征,然后你需要与你的特征一起调整模型,” Ballesteros 说。“如今,随着大型语言模型的出现,新事物是提示及其各种变体的概念,将其作为启动模型的一种方式。”
像 GPT-3 这样的大型语言模型经过训练,能够根据上下文预测序列中的单词。足够大的模型,在足够多的数据上训练后,最终能够编码整个语言中的词序概率。提示是模型用于生成文本的输入基础。
“有时,提示本质上是一个词序列,就像提示你的计算机终端——一个命令,” Ballesteros 解释道。“但‘提示’也用来指软提示,一个向量;这些也被称为任务特定嵌入或任务嵌入。任务嵌入帮助模型执行模式切换。例如,一个指示要生成的文本应使用一种语言或另一种语言的向量,被称为语言向量。”
大型语言模型长期以来一直被用作自然语言处理模型的基础;在典型场景中,预训练的语言模型会在针对特定任务标注的数据上进行微调。
但提示是直接访问编码在大型语言模型中的知识的一种方式。毕竟,词之间的统计关系承载着语义信息:一个能够为提示“在1940年的选举中,富兰克林·德拉诺·罗斯福击败了……”找到最高概率结论的模型,实际上可以为用户提供关于世界的信息。
一致性与鲁棒性的挑战
问题是,虽然信息可能在其中,但提取它可能是一个时好时坏的事情:当被提示断言一个事实时,大型语言模型可能会浮现可靠的信息,也可能会胡言乱语。然而,Ballesteros 认为,这些只是新技术发展过程中不可避免的成长阵痛。
“提示工程是为自然语言生成寻找最适合特定模型的提示的过程,” Ballesteros 说。“然而,训练用于预测序列中下一个词的模型是可以改进的。存在允许更好结果的替代方案,甚至可能引入人在回路的组件,即对输出进行排名的人。什么是正确的回应,什么是错误的?这可以帮助模型将提示与正确的回应对齐,整合所有这些新的归纳偏差。”
然而,引导模型走向事实准确的输出并避免冒犯性语言,并没有解决另一个问题:两个不同的提示,对于人类读者来说显然表达了相同的语义内容,仍然可能引发大型语言模型的不同反应。
“需要更多关于如何构建和评估对提示具有鲁棒性的模型的工作,” Ballesteros 说。“‘提示工程’这个术语的存在意味着当前可用的模型只有在给出最佳命令时才能工作。有论文正在研究通用提示的理念——关于提示鲁棒性以及如何衡量提示释义鲁棒性的论文。”
少样本学习与任务组合
提示工程还为大型语言模型提供了一种进行少样本泛化的方式,即机器学习模型在一组通用任务上训练后,仅从少数几个示例中学习新的或相关的任务。
“你可以提供一个由示例支持的提示,” Ballesteros 解释说。“如果我想提取这次对话的摘要,并且我有另外三个对话的文本,我提供这些对话和一个人工摘要,模型将根据该上下文进行调整并生成更好的摘要。”
“这些模型还可以进行任务组合。在这个深度学习与大语言模型时代之前,你受限于你的数据。但现在有了提示的理念,大型语言模型实际上可以组合多个任务。我可以说,‘从一个两岁孩子的角度总结这份文档’或‘从一个科学家的角度总结这份文档’,模型应该产生非常不同的输出。模型学会根据输入中提供的词进行组合。例如,它们可以进行风格转换和摘要,甚至可以用多种语言进行。”
其他研究趋势
一些其他的研究趋势在 EMNLP 上引起了 Ballesteros 的注意。其中之一是推理。
“最近它变得非常活跃,”他说。“有一些有趣的论文展示了如何训练模型,使它们能够在回应提示之前生成一个思维链。思维链的生成有助于这些模型提供更好的答案,所以在某种程度上,就好像模型在自言自语。我在这里看到的挑战是如何自动评估在其输出中提供推理的模型。”
最后,尽管词序列预测在自然语言处理中取得了成功,但添加其他类型的结构信息仍可能带来更好的模型。
“模型依赖于关于词语的位置信息,而这种位置信息可以通过多种方式丰富——它们在句法树中的位置,或者它们是否在文档内的表格中,” Ballesteros 说。“有很多出色的工作正在研究如何使我们的模型意识到语言结构甚至文档结构,而不仅仅是依赖于简单的词序列。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码
