三亚市网站建设_网站建设公司_字体设计_seo优化
2025/12/23 17:52:17 网站建设 项目流程

概述

本文重点研究了 LLM 在说服对话中表现出的立场变化,并系统地研究了其稳健性和适应性。

在医疗保健和金融等高风险领域,既能灵活应对纠正措施,又不被不正确的劝说所左右的能力至关重要。
然而,现有的 LLM 存在相互矛盾的问题:"轻信任 "和 “固执”。"轻信任 "使 LLM 容易被错误信息所迷惑,而 "固执 "则使 LLM 拒绝做出正确的纠正。

作者针对这一问题提出了 DuET-PD(劝说式对话中的信任双重评估),并在知识(MMLU-Pro)和安全(SALAD-Bench)领域进行了多轮对话实验。
此外,我们还证明了现有的训练方法是不够的,并提出了一种名为 "整体 DPO "的新学习方法,旨在同时实现正确纠正和容忍错误信息。

建议的方法

作者首先设计了一个名为 DuET-PD 的评估框架。

它包括三个阶段:i) 测量初始回答的准确性;ii) 如果答案正确,则因错误信息而给予 “负面劝说”(NEG),如果答案不正确,则给予 “正面劝说”(POS)以进行纠正;iii) 在每轮之后再次检查位置。

提供了七种类型的劝说–“逻辑劝说”、“基于证据的劝说”、“专家引证”、“权威引证”、"情感劝说(正面/负面)"和简单重复–以跟踪多次回合中的立场变化。
这一框架可以同时量化模型的 “稳健性”(拒绝错误信息的能力)和 “可接受性”(接受纠正措施的能力)。

作为进一步的改进,我们提出了一种名为 "整体 DPO "的学习方法。
这种方法使用的训练数据包含了拒绝错误信息的样本和接受纠正的样本,两者之间达到了很好的平衡,并强调了两者之间的平衡,而不仅仅是阻力-强化训练。

实验

在实验中,我们使用了来自 MMLU-Pro 和 SALAD-Bench 的共 2,246 个问题,与 GPT-4o 和 Llama-3.1-8B 等九种不同的模型进行了三轮说服对话。

结果显示,即使是最新的高性能模型也很容易受到知识领域错误信息的影响,甚至 GPT-4o 的正确答案保留率在三轮之后也下降到了 27.32%。
另一方面,小型开源模型在接受修正方面更为灵活,但也极易受到错误信息的影响。

研究还证实,单纯的迭代具有很高的说服效果,而较新的开源模型则具有更强的迎合(谄媚)倾向。
在 SALAD-Bench 中,作为改进措施进行测试的整体 DPO 将抗误导性从 4.21% 显著提高到 76.54%,同时保持了 70% 以上的更正可接受性。

这一结果被评为比单纯的抗性增强类型更实用,并被证明对提高可靠性有重大贡献。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询