AI看图能力可能是“演出来的”:它在没看图时,也能答对80%

张开发
2026/4/7 1:12:02 15 分钟阅读

分享文章

AI看图能力可能是“演出来的”:它在没看图时,也能答对80%
很多人已经默认一件事AI已经“看得懂图片”了。但一项来自斯坦福的最新研究直接给这个共识泼了一盆冷水很多时候它根本没看图。更离谱的是即使不给它图片它依然能答对70%~80%的题目。一、一个很反直觉的实验不给图让AI“看图”研究人员做了一个非常简单的实验他们把常见的“看图问答任务”里的图片——直接删掉。然后只给模型留下问题文本上下文提示比如“这张X光片显示了什么问题”但实际上没有任何图片。结果呢AI的表现一本正经地开始“看图”模型不仅没有报错反而描述图像细节给出合理解释甚至做出医学诊断而且准确率仍然高达70%~80%。这说明一件事很多所谓“视觉理解能力”其实是语言推理在撑着。二、研究者给它起了一个名字Mirage Effect海市蜃楼效应这个现象被命名为Mirage Effect幻景效应 / 海市蜃楼效应它和熟悉的“幻觉Hallucination”还不一样。幻觉 vs 幻景这是关键区别传统幻觉在已有事实框架内编造细节比如引用不存在的论文幻景效应连“输入都不存在”却假装存在也就是说模型不是“看错了图”而是在没有图的情况下假装自己看过图这其实更严重。因为它动摇的是模型是否真的在使用视觉信息三、为什么会这样——因为“题目本身就泄露了答案”问题的本质在于很多benchmark测试集设计得太“好猜了”。比如问题是“这张皮肤图片最可能的诊断是什么”即使没有图片模型也可以靠训练经验猜黑色斑点 → 黑色素瘤红色炎症 → 湿疹换句话说模型是在做“统计猜测”而不是视觉理解更夸张的是医学场景最严重研究发现在医疗任务中AI不仅“看不存在的图”还更倾向于给出严重疾病诊断比如癌症脑损伤异常心电图这就非常危险了。因为在真实场景中这可能直接影响决策。四、Benchmark正在“系统性高估AI能力”这项研究其实是在指出一个更大的问题我们可能一直在用错误的方式评估AI。原因是当前很多多模态评测图片 问题 是强关联的问题本身已经包含大量线索模型可以绕过视觉模块结果就是你以为它在“看图”其实它在“读题”。一个更离谱的结果研究中提到有模型甚至在完全没有图像输入的情况下拿到了某些视觉基准测试的第一名。这基本可以说明这个benchmark已经失效了。五、这件事真正可怕的地方我们太容易把“像理解”当成“真的理解”。AI可以用非常专业的语言描述给出结构完整的推理表现得极其自信但实际上它可能根本没有接触核心信息。六、AI正在变成“最会考试的学生”一个很形象的比喻AI像一个极其会考试的学生。它可以通过题干猜答案利用模式匹配拿高分用漂亮的语言包装结果但问题是它可能没有真正掌握知识本身。七、比“幻觉”更危险的是“看起来没问题”很多人担心AI幻觉。但幻觉其实有一个好处有时候你还能察觉不对劲。而“幻景效应”的危险在于它看起来完全合理。逻辑完整语言专业结论可信但前提是假的。最后一句总结AI最大的问题可能不是它会胡说而是它可以在“没有输入”的情况下说得特别像真相。

更多文章