伊春市网站建设_网站建设公司_关键词排名_seo优化-江苏省网站建设公司

SCAN是一种受人类认知模式启发的视觉语言模型增强方法，模拟人类"系统1"快速决策和"系统2"精细思考的双系统协作。该方法无需额外训练，不依赖标注数据或参考样本，可在推理阶段即插即用。通过结合VLM的候选筛选能力和基于关键区分属性的推理分析，SCAN显著提升了VLM在细粒度识别任务上的性能，实验表明平均准确率可提升10%以上，为提升现有模型推理能力提供了新思路。

以 CLIP 为代表的视觉语言模型（VLM）在大规模图文数据上进行了预训练，具备强大的通用视觉识别能力。然而，在细粒度识别任务上，VLM 往往难以区分相近类别之间的细微差异，识别能力显著下降。

以 CLIP ViT-B/16 为例，在仅包含 10 个粗粒度类别的 CIFAR10 数据集上，其识别准确率可达到 90%；但在包含 200 个细粒度鸟类类别的 CUB 数据集上，准确率却只有约 50%。

为了提升 VLM 的细粒度识别能力，现有方法通常采用如下方式：i）引入可训练模块（Adapter/Prompt Tuning），并利用少量标注样本进行微调；ii）或是依赖参考样本构建类别原型缓存，通过检索原型信息辅助 VLM 进行识别。

虽然这些方法能够带来一定的性能提升，但对标注数据或参考样本的依赖在一定程度上削弱了 VLM 的通用性。

针对这一问题，在 AAAI 2026 的论文中，来自四川大学、南洋理工大学的研究团队受到人类认知模式的启发，提出了 SCAN（System-2 enhanced visual recognition），一种无需训练、不依赖标注数据或是参考样本、在推理时即插即用的 VLM 增强方法。

论文标题：

Endowing Vision-Language Models with System 2 Thinking for Fine-Grained Visual Recognition

论文链接：

https://pengxi.me/wp-content/uploads/2025/11/SCAN.pdf

代码链接：

https://github.com/XLearning-SCU/2026-AAAI-SCAN

研究背景

赋予 VLM 精细思考的能力

试想一下，如果需要从 200 种鸟类中判断一张图像所属的具体类别，人类会怎么做？

对于这类复杂的识别任务，人类通常难以直接做出精确判断，而是会经历一个从“粗步筛查”到“仔细辨别”的分析过程。

从认知科学的角度来看，这一分析过程依赖两个互补的认知系统，即快速决策的“系统 1” 和精细思考的“系统 2”。

💡 系统 1（快思考）：一种直觉驱动的思维模式，依赖经验进行快速决策，响应迅速但容易受偏差影响。例如，在看到上图中的鸟后，大脑会立即形成“这是一只黑色的鸟”的初步判断，并迅速排除外观明显不符的类别，将候选范围限定在“黑色鸟类”相关的若干类别中。

本文实验发现，VLM 具备类似系统 1 的快速决策能力。

如下图所示，尽管 VLM 在细粒度识别任务上的 Top-1 准确率不高，和人类一样难以直接做出精确判断，但其 Top-20 候选集中往往极大概率包含正确类别，即 VLM 能够通过快速决策稳定地筛选出合理的候选类别集合。

🧠 系统 2（慢思考）：一种分析驱动的思维模式，依赖精细思考处理复杂任务，决策更精确但耗时较长。

为了进一步确定具体类别，人类通常会查阅相关知识，获取候选类别的区分性特征，如羽毛纹路、头部颜色等，与图像中观察到的特征进行对比分析，并基于特征匹配程度推理出最终结果。

既然 VLM 天然具备类似系统 1 的快速决策能力，那能否通过增加一个具备精细分析能力的系统 2，模拟人类双系统协作的认知方式，来提升 VLM 的细粒度感知能力？

受此启发，论文提出了 SCAN（System-2 enhanCed visuAl recogNition），一个即插即用的测试时增强模块，在无需训练的前提下增强 VLM 的细粒度识别能力。

方法

SCAN 的核心思想是在不改变原有 VLM 的前提下，引入一个具备“系统 2” 慢思考能力的模块进行细致分析，从而提升 VLM 的细粒度识别能力。整体流程如下图所示。

（1）系统 1：基于 VLM 进行候选筛选

利用 VLM 在预训练阶段获得的通用识别能力，从所有类别中，排除与识别目标存在显著外观差异的类别，为后续推理提供合理的候选集合。

（2）系统 2：基于关键区分属性进行推理

为了进一步确定具体类别，人类通常会查阅相关知识，获取候选类别的区分性特征，并与图像中观察到的特征进行对比分析。

受此启发，论文中提出的系统 2 主要包含以下三个步骤。

推理关键区分属性：利用大语言模型（LLM）中内蕴的专业知识，自动生成一组能够区分候选类别的关键属性，如翅膀花纹，鸟喙形状等。

获取文本描述：类别名中蕴含的信息有限，利用 LLM 可以获得每个类别在特定属性下的外观描述，从而显式地表明细粒度类别之间的外观差异。此外，通过可视化 VLM 的注意力分布，发现在多模态信息处理的过程中，模型容易受到背景中无关纹理的干扰。

因此，对于待识别的图像，同样利用 LMM 基于特定属性进行描述，仅保留与类别区分相关的细节信息，过滤掉背景等无关因素。最终，如下图所示，获得了基于同一组区分属性的类别描述和图像描述。

文本空间下的分析推理：使用文本重排序模型将图像描述与候选集合中的类别描述进行比较推理，获得相似度分数。

（3）基于不确定度的系统 1&2 协同识别

通过系统 1 和系统 2 分别获得了快速决策和精细推理的相似度分数，核心问题在于如何确定二者的融合权重。

由于 VLM 对不同目标的识别能力存在差异，采用固定权重难以取得普遍最优的识别结果，更为理想的方式是能够根据 VLM 的预测结果进行动态调整。

现有方法基于证据理论，将模型为每个类别输出的 logit 视为“证据”，在预测类别的同时显式给出模型对预测结果的不确定度。但如下图（a）所示，在细粒度任务上，这种建模方式的区分能力有限。

在细粒度场景下，本文观察到：当不存在大量干扰类别时，VLM 往往能自信地给出预测，此时 Top-1 类别的相似度显著高于其余候选，即 Top1 与其他类别之间的相似度差值较大。

反之，当存在大量外观相近的干扰类别时，相似类别之间的相似度分数较为接近，Top1 与其他类别之间的相似度差值较小。

因此研究团队提出以 Top-1 与其余候选之间的相似度差值作为“证据”，设计了一种新的不确定度建模方法。如下图（c）所示，这种不确定度建模方式，在细粒度识别任务中，能够更清晰地区分预测正确与预测错误的情况。

实验

在 Flowers-102、CUB-200、Food-101 等八个细粒度数据集上，SCAN 能够在无需标注数据、无需参考样本、无需额外训练的前提下，显著地提升 VLM 的细粒度识别能力。

将 CLIP RN50 作为基座模型，引入 SCAN 能使平均识别准确率提升 15.70%（56.22%→71.92%）。
将 CLIP ViT-B/16 作为基座模型，引入 SCAN 能使平均识别准确率提升 10.53%（63.74%→74.27%）。

对于在更大规模数据上训练的 SigLIP 上，引入 SCAN 仍然能使平均识别准确率提升 3.35%，表明了 SCAN 作为一种即插即用方法的通用能力。

此外，对于在海量的生物数据上进行了针对性训练的 BioCLIP，它在 CUB 等生物数据集上识别能力远超 CLIP，SigLIP，达到了 78.48%。

在引入 SCAN 后，识别准确率仍能能提升至 79.13%（+0.65%），表明即使是经过精细训练的面向垂直领域的 VLM，仍然能通过 SCAN 提升推理时的识别能力。

进一步地，本文还与当前主流的多模态大模型进行对比。从下表中结果可以看出，即便是经过大量细粒度数据进行训练的 Qwen2.5-VL 仍劣于本文方法（SCAN）。

换言之，除了通过不断增大模型规模和训练数据量及多样性以期持续提升性能，在推理阶段中直接增强基础模型的能力亦不失为一种可行的方案。

总结

针对 VLM 在细粒度识别任务上的能力瓶颈，研究团队受到人类“系统 1 & 系统 2” 认知模式的启发，将 VLM 类比为快速决策的系统 1，通过引入一个具备精细思考能力的系统 2 来提升 VLM 的细粒度识别能力。

总体而言，SCAN 无需额外训练，也不依赖标注数据和参考样本，在推理阶段即插即用，即可为多类 VLM 带来性能提升。

相关实验结果不仅证明了 SCAN 的有效性和通用性，也表明在细粒度识别等具有挑战性的视觉任务中，除了通过扩大数据量和参数量构建更强大的预训练模型之外，同样有必要探索如何提升现有模型在推理时的能力。

伊春市网站建设_网站建设公司_关键词排名_seo优化

如何系统的学习大模型 AI ？

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

02.大模型 AI 学习和面试资料

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

热门文章

文章分类

标签云

需要专业的网站建设服务？

伊春市网站建设_网站建设公司_关键词排名_seo优化

热门文章

文章分类

标签云

相关文章

2026年大模型应用开发完整学习路径，程序员突破职业危机必看！转AI大模型开发学习顺序真的很重要！！

大模型产品经理完整学习路线，从零基础到实战全覆盖，附免费学习资源_2026最新

数据库核心概念深度解析：从基础原理到 SQL 分类

需要专业的网站建设服务？