AI看图能力可能是“演出来的”：它在没看图时，也能答对80%

张开发

• 2026/4/7 1:12:02 • 15 分钟阅读

分享文章

很多人已经默认一件事AI已经“看得懂图片”了。但一项来自斯坦福的最新研究直接给这个共识泼了一盆冷水很多时候它根本没看图。更离谱的是即使不给它图片它依然能答对70%~80%的题目。一、一个很反直觉的实验不给图让AI“看图”研究人员做了一个非常简单的实验他们把常见的“看图问答任务”里的图片——直接删掉。然后只给模型留下问题文本上下文提示比如“这张X光片显示了什么问题”但实际上没有任何图片。结果呢AI的表现一本正经地开始“看图”模型不仅没有报错反而描述图像细节给出合理解释甚至做出医学诊断而且准确率仍然高达70%~80%。这说明一件事很多所谓“视觉理解能力”其实是语言推理在撑着。二、研究者给它起了一个名字Mirage Effect海市蜃楼效应这个现象被命名为Mirage Effect幻景效应 / 海市蜃楼效应它和熟悉的“幻觉Hallucination”还不一样。幻觉 vs 幻景这是关键区别传统幻觉在已有事实框架内编造细节比如引用不存在的论文幻景效应连“输入都不存在”却假装存在也就是说模型不是“看错了图”而是在没有图的情况下假装自己看过图这其实更严重。因为它动摇的是模型是否真的在使用视觉信息三、为什么会这样——因为“题目本身就泄露了答案”问题的本质在于很多benchmark测试集设计得太“好猜了”。比如问题是“这张皮肤图片最可能的诊断是什么”即使没有图片模型也可以靠训练经验猜黑色斑点 → 黑色素瘤红色炎症 → 湿疹换句话说模型是在做“统计猜测”而不是视觉理解更夸张的是医学场景最严重研究发现在医疗任务中AI不仅“看不存在的图”还更倾向于给出严重疾病诊断比如癌症脑损伤异常心电图这就非常危险了。因为在真实场景中这可能直接影响决策。四、Benchmark正在“系统性高估AI能力”这项研究其实是在指出一个更大的问题我们可能一直在用错误的方式评估AI。原因是当前很多多模态评测图片问题是强关联的问题本身已经包含大量线索模型可以绕过视觉模块结果就是你以为它在“看图”其实它在“读题”。一个更离谱的结果研究中提到有模型甚至在完全没有图像输入的情况下拿到了某些视觉基准测试的第一名。这基本可以说明这个benchmark已经失效了。五、这件事真正可怕的地方我们太容易把“像理解”当成“真的理解”。AI可以用非常专业的语言描述给出结构完整的推理表现得极其自信但实际上它可能根本没有接触核心信息。六、AI正在变成“最会考试的学生”一个很形象的比喻AI像一个极其会考试的学生。它可以通过题干猜答案利用模式匹配拿高分用漂亮的语言包装结果但问题是它可能没有真正掌握知识本身。七、比“幻觉”更危险的是“看起来没问题”很多人担心AI幻觉。但幻觉其实有一个好处有时候你还能察觉不对劲。而“幻景效应”的危险在于它看起来完全合理。逻辑完整语言专业结论可信但前提是假的。最后一句总结AI最大的问题可能不是它会胡说而是它可以在“没有输入”的情况下说得特别像真相。

AI看图能力可能是“演出来的”：它在没看图时，也能答对80%

最新文章

Python flask django框架的壹零计算机教育培训公司

Mac版Beyond Compare授权密钥失效的快速修复指南

Stepper595：基于74HC595的轻量步进电机驱动库

Java Object类与String相关高频面试题

CPU缓存机制与性能优化实战指南

STM32CubeMX安装避坑指南：从JRE配置到工程生成全流程解析

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

Karafka v2.5.9发布：多项修复与增强助力Ruby Kafka应用开发

低代码开发：如何选择适合企业的开发平台

3个核心步骤如何配置GitHub Token？PakePlus云打包权限设置完全指南

你的第一个Agent：20分钟完成一个能用的助手

深度解析：如何用html-to-docx实现HTML到Word文档的无缝转换

京东茅台自动抢购终极指南：3步实现高效抢购自动化

PixiJS小程序适配解决方案：打造高性能微信小游戏的战略架构

3个步骤掌握Umi-OCR：离线文字识别的完整解决方案

MedGemma X-Ray开源价值：模型权重、推理代码、文档全部开放

从零理解AI Agent：用Python模拟一个会‘思考’的真空吸尘器（附完整代码）

2026 年 8 款主流提词器 App 横评：我们从 5 个维度帮 1200 位口播博主做了选型

实战指南：如何用SNR-Aware Transformer提升低光图像质量（附PyTorch代码）

AI看图能力可能是“演出来的”：它在没看图时，也能答对80%

最新文章

Python flask django框架的壹零计算机教育培训公司

Mac版Beyond Compare授权密钥失效的快速修复指南

Stepper595：基于74HC595的轻量步进电机驱动库

Java Object类与String相关高频面试题

CPU缓存机制与性能优化实战指南

STM32CubeMX安装避坑指南：从JRE配置到工程生成全流程解析

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统