青岛市网站建设_网站建设公司_Oracle_seo优化-随州市网站建设公司

确保新的语言处理模型不倒退

新型语言处理模型旨在不断提升其性能。通常，新模型的整体准确性会优于旧模型。然而，整体准确性的提升有时会伴随着特定情况下的性能回归——即在某些输入上的准确性反而下降。这对于用户来说可能令人沮丧，尤其是在这种倒退对下游任务产生后果时。例如，一个虚拟对话代理可能在对话早期就对用户请求做出错误响应，从而破坏了后续的对话流程。

在即将于今年计算语言学会（ACL）会议上发表的一篇论文中，我们描述了一种在自然语言处理（NLP）中实现无回归模型更新的新方法。该方法使我们能够构建不仅整体准确性更高，还能持续保持旧模型正确分类结果的新型深度神经网络模型。

该论文包含两部分：一是对模型更新回归现象的研究，二是关于缓解该问题的方案提议。在研究部分，我们使用了基于BERT语言模型的公共基准模型，并在通用语言理解评估（GLUE）框架的七项不同NLP任务上对它们进行训练。然后，我们通过使用不同的模型参数或更强大的BERT模型来训练更新后的模型。研究发现，尽管重训练后整体性能有所提升，但在1.9%到7.6%的输入案例中仍然出现了回归现象。

为了缓解回归，我们将保持过往性能的问题形式化为一个约束优化问题，然后将其松弛为可通过知识蒸馏进行近似的问题。知识蒸馏鼓励新模型在适当的语境下模仿旧模型的行为。

这项研究是某中心Web服务部门近期关于“优雅AI”工作的一部分。“优雅AI”旨在构建不仅准确，而且更透明、更可解释、与前辈模型更兼容的机器学习系统。我们相信，回归最小化的模型更新是构建成功ML服务的关键基石，这些服务需要持续改进并优雅地演进。

NLP模型中的回归“Bug”！

在我们的研究中，我们通过负翻转率来衡量模型更新回归的程度，即旧分类器预测正确而新分类器预测错误的案例百分比。对于拥有数千万用户的服务来说，我们所测量的NFR规模将转化为数十万用户的糟糕体验。当回归达到这种规模时，通常需要耗时、广泛的错误分析和模型补丁。

研究显示，在更新后的模型中，NFR值通常比总精度增益高出2到8倍。这意味着，仅仅追求更新模型更高的准确性提升并不能确保回归的减少；也就是说，提高准确性和最小化回归是相关但独立的学习目标。

最后，我们还发现，即使是微小的变动，例如使用不同的随机种子，也可能导致回归率的显著波动，这是任何缓解策略都需要考虑的因素。

如何缓解回归

无回归的模型更新要求模型既要学习目标任务，又要满足旧模型提出的条件，这使其成为一个约束优化问题。我们将硬约束松弛为一个软不等式条件，并提出了一个替代NFR的代理指标：一种使用预测对数（新旧模型的未归一化输出）之间的KL散度的连续度量。因此，我们可以将约束优化问题近似为优化一个包含分类损失和知识蒸馏惩罚项的联合目标。

在评估我们的方法时，我们使用了两个基线模型。一个是传统方式更新的模型，未尝试控制回归。另一个是包含原始模型和更新模型的集成模型，其最终分类是两种模型输出的组合。

我们的结果显示，当更新涉及更换语言模型时，我们的知识蒸馏方法最为有效，能将平均NFR降至2.91%，而集成模型为3.63%，传统更新为4.57%。同时，我们的模型在准确性上略优于两个基线模型。

我们还使用CheckList协议评估了我们的模型，该协议通过设计引发不同行为的各类输入数据来评估NLP模型的性能。我们发现，蒸馏法能有效减少几乎所有行为测试类型中的回归，这表明我们的蒸馏方法确实是在将新模型的行为与旧模型对齐，而非仅在少数特殊案例中使用捷径。

当更新仅涉及不同随机种子，而不更换语言模型时，集成方法的效果优于我们的方法，这有些出乎意料。这可能是因为集成法天然减少了输出方差，使其不易过拟合，从而有助于减少回归。

鉴于初步研究的结果，我们假设单模型的方差可能与随机种子的选择有关。因此，我们设计了一个简单的模型选择程序：使用20个不同的随机种子训练20个模型，并选出能提供最大NFR减少的那个。我们发现，在更新保持相同语言模型的情况下，此方法与集成方法一样能有效减少回归，且无需承担并行运行两个模型所带来的额外操作开销。

在某中心AI部门，我们致力于继续探索解决此问题的创新方案，确保用户总能享受到前沿技术，而无需经历痛苦的过渡期。我们希望我们的工作能激励AI社区开发更先进的方法，构建易于维护、持续改进的系统。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

青岛市网站建设_网站建设公司_Oracle_seo优化

确保新的语言处理模型不倒退

热门文章

文章分类

标签云

需要专业的网站建设服务？

青岛市网站建设_网站建设公司_Oracle_seo优化

确保新的语言处理模型不倒退

热门文章

文章分类

标签云

相关文章

1小时快速验证：用LIVECHARTS构建数据看板原型

电商评论分析实战：用Qwen2.5-0.5B快速提取关键信息

GLM-4.6V-Flash-WEB为何选它？双推理模式优势详解

需要专业的网站建设服务？