【NTU博士论文】缓解捷径学习并提升视觉及视觉-语言模型的分布外泛化能力

张开发

• 2026/4/6 11:32:40 • 15 分钟阅读

分享文章

来源专知本文约1000字建议阅读5分钟缓解捷径学习对于提升 OOD 泛化至关重要。视觉模型与视觉-语言模型在训练数据与测试数据遵循相同分布的独立同分布IID基准测试中已取得显著成果。然而当面对分布外OOD数据即分布与训练数据存在差异的数据时其性能通常会出现大幅退化。导致泛化能力缺失的关键原因在于捷径学习Shortcut Learning——即模型倾向于依赖虚假相关性或表面特征进行预测。这些特征在训练集中具有预测性但并未反映结果背后的底层因果逻辑。捷径学习主要源于两个因素(1) 训练数据频繁包含在其他分布中并不成立的虚假相关性(2) 梯度优化算法倾向于损失景观中的平坦极小值Flat Minima而这些相关性往往对应于此类易于学习的极小值。因此模型通常会优先学习非因果模式而非稳健且可泛化的特征。因此缓解捷径学习对于提升 OOD 泛化至关重要。这一挑战可以从两个互补的视角予以解决。在数据层面通过数据增强和合成数据生成等干预技术可以打破虚假相关性并凸显不变特征Invariant Features。在模型层面通过架构设计扩大与因果特征相关的极小值范围同时抑制与捷径特征关联的极小值能够促使模型学习到更具泛化性的特征。上述方法协同作用共同促进了稳健表示的构建并提升了 OOD 泛化表现。本论文将捷径学习视为视觉及视觉-语言模型在分布外泛化中所面临的基础性挑战并在视频识别、视频生成以及视觉-语言理解等一系列任务中对其进行了深入研究。这些任务涵盖了从单模态判别到像素级生成再到跨模态推理的演进过程从而能够在表征与建模需求不断增加的情况下对捷径缓解策略进行系统的评估。在视频动作识别任务中我们引入了旨在缓解静态视觉线索所导致的捷径学习的数据增强技术。我们提出了StillMix该方法在保持视频动作标签不变的前提下将诱导偏差的静态帧混入训练视频中。这种增强手段破坏了静态特征与动作标签之间的虚假相关性从而增强了模型对 OOD 视觉表现的泛化能力。在小样本人体动作生成任务中我们提出了一种结合数据增强与模型设计的策略以缓解由外观线索驱动的捷径学习。我们引入了FLASH通过构建具有相同动作但外观不同的视频对并在两组视频间进行特征对齐以促进可迁移运动表示的学习。该方法降低了低数据量场景下的外观过拟合增强了运动泛化性。在视觉-语言组合理解任务中我们开发了合成数据生成技术以减少模型对粗粒度视觉-文本对齐的依赖。我们提出了SPARCL通过生成具有细微变化的模态数据并训练模型识别这些差异提升了模型捕捉超越表层相关性的组合语义的能力。综上所述这些研究贡献表明通过数据干预与模型设计来缓解捷径学习是提升视觉及视觉-语言任务 OOD 泛化能力的关键。关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

更多文章

前端开发 2026/4/6 11:32:40

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

来源：机器之心本文约2000字，建议阅读5分钟打开多机器人协助新路径。近年来，Decision-Coupled World Model 与 Model-based RL 在机器人领域取得了显著成功。通过学习环境动力学模型，智能体能够在内部模拟未来，从而进行…

张开发

前端开发 2026/4/6 11:27:01

PvZ Toolkit：植物大战僵尸PC版游戏体验增强的开源工具解决方案

PvZ Toolkit：植物大战僵尸PC版游戏体验增强的开源工具解决方案【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit PvZ Toolkit是一款专为植物大战僵尸PC版设计的开源工具，集成了…

张开发

前端开发 2026/4/6 11:27:01

Fooocus：让AI图像创作变得简单高效的开源方案

Fooocus：让AI图像创作变得简单高效的开源方案【免费下载链接】Fooocus Focus on prompting and generating 项目地址: https://gitcode.com/GitHub_Trending/fo/Fooocus Fooocus是一款基于Stable Diffusion XL架构的离线开源AI图像生成软件，它重…

张开发

前端开发 2026/4/6 11:26:01

从FCOS3D到PGD：深入解读单目3D检测中的深度估计演进（附核心代码图解）

单目3D目标检测：从直接回归到概率几何融合的深度估计革命当自动驾驶汽车仅凭单目摄像头判断前方车辆的精确距离时，每个像素的深度信息都关乎生死。这正是单目3D目标检测技术的核心挑战——如何从二维图像中准确还原三维世界。本文将带您深入探索两种代…

张开发

前端开发 2026/4/6 11:24:48

喜马拉雅VIP音频如何永久保存？这款跨平台下载器让你轻松建立个人音频库

喜马拉雅VIP音频如何永久保存？这款跨平台下载器让你轻松建立个人音频库【免费下载链接】xmly-downloader-qt5 喜马拉雅FM专辑下载器. 支持VIP与付费专辑. 使用GoQt5编写(Not Qt Binding). 项目地址: https://gitcode.com/gh_mirrors/xm/xmly-downloader-qt5 …

张开发

前端开发 2026/4/6 11:23:59

提升十倍效率：用快马AI生成ventoy启动盘批量管理神器

提升十倍效率：用快马AI生成ventoy启动盘批量管理神器最近在帮公司IT部门批量制作ventoy启动盘时，发现传统方式效率实在太低了。每次都要手动复制镜像、修改配置文件，遇到几十个U盘同时操作时，不仅耗时还容易出错。于是我用InsCo…

张开发

前端开发 2026/4/6 11:22:47

OpCore-Simplify终极指南：3步快速构建完美黑苹果EFI配置

OpCore-Simplify终极指南：3步快速构建完美黑苹果EFI配置【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的黑苹果配置而烦恼吗&…

张开发

前端开发 2026/4/6 11:21:34

开箱即用：丹青识画智能影像系统，快速体验AI书法艺术

开箱即用：丹青识画智能影像系统，快速体验AI书法艺术 1. 前言：当AI遇见传统书法在数字时代，我们每天都会拍摄大量照片，但如何让这些影像作品更具文化内涵和艺术价值？「丹青识画」智能影像系统给出了一个令…

张开发

前端开发 2026/4/6 11:19:27

如何解决Windows Defender导致的性能问题？专业工具全攻略

如何解决Windows Defender导致的性能问题？专业工具全攻略【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitcode.com/gh_mirrors/…

张开发

前端开发 2026/4/6 11:19:15

自动驾驶规划新范式：像人一样用‘矢量关系’思考，VAD三大安全约束详解

自动驾驶规划新范式：像人一样用‘矢量关系’思考，VAD三大安全约束详解想象一下，在高峰时段的城市十字路口，人类驾驶员能瞬间判断左侧公交车的变道意图，同时预判右前方自行车可能出现的摇摆——这种基于空间关系的直觉…

张开发

前端开发 2026/4/6 11:19:09

OpenXR Toolkit完全指南：3个步骤让你的VR体验焕然一新

OpenXR Toolkit完全指南：3个步骤让你的VR体验焕然一新【免费下载链接】OpenXR-Toolkit A collection of useful features to customize and improve existing OpenXR applications. 项目地址: https://gitcode.com/gh_mirrors/op/OpenXR-Toolkit 你是否曾经…

张开发

前端开发 2026/4/6 11:18:51

保姆级教程：在Apollo 8.0中，如何一步步从Routing结果生成Planning用的参考线？

从Routing到Planning：Apollo 8.0参考线生成全流程拆解在自动驾驶系统的决策规划模块中，参考线的生成质量直接影响最终轨迹的平滑度和安全性。本文将深入Apollo 8.0框架，逐步解析如何将Routing模块输出的宏观路径转换为Planning模块可用的高精…

张开发

【NTU博士论文】缓解捷径学习并提升视觉及视觉-语言模型的分布外泛化能力

最新文章

OpenClaw监控方案：千问3.5-9B任务执行日志与分析

2024年终极ESLint插件推荐：提升代码质量的15个必备工具

告别TwinCAT：手把手教你用IgH EtherCAT Master在LinuxCNC上搭建实时运动控制平台

TrueSkill评分系统：动态技能评估与多人竞技匹配的实践指南

5个实用技巧：smcFanControl让你的Intel Mac更凉爽

图像智能分析：Google Cloud Vision技术赋能企业级视觉应用开发指南

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

ICLR 2026 | 世界模型卡在多机器人协作？一个「顺序分解」思路打通

PvZ Toolkit：植物大战僵尸PC版游戏体验增强的开源工具解决方案

Fooocus：让AI图像创作变得简单高效的开源方案

从FCOS3D到PGD：深入解读单目3D检测中的深度估计演进（附核心代码图解）

喜马拉雅VIP音频如何永久保存？这款跨平台下载器让你轻松建立个人音频库

提升十倍效率：用快马AI生成ventoy启动盘批量管理神器

OpCore-Simplify终极指南：3步快速构建完美黑苹果EFI配置

开箱即用：丹青识画智能影像系统，快速体验AI书法艺术

如何解决Windows Defender导致的性能问题？专业工具全攻略

自动驾驶规划新范式：像人一样用‘矢量关系’思考，VAD三大安全约束详解

OpenXR Toolkit完全指南：3个步骤让你的VR体验焕然一新

保姆级教程：在Apollo 8.0中，如何一步步从Routing结果生成Planning用的参考线？

【NTU博士论文】缓解捷径学习并提升视觉及视觉-语言模型的分布外泛化能力

最新文章

OpenClaw监控方案：千问3.5-9B任务执行日志与分析

2024年终极ESLint插件推荐：提升代码质量的15个必备工具

告别TwinCAT：手把手教你用IgH EtherCAT Master在LinuxCNC上搭建实时运动控制平台

TrueSkill评分系统：动态技能评估与多人竞技匹配的实践指南

5个实用技巧：smcFanControl让你的Intel Mac更凉爽

图像智能分析：Google Cloud Vision技术赋能企业级视觉应用开发指南

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统