paper: https://arxiv.org/abs/2511.18286
code: https://github.com/GuanRunwei/RS-VQA
文章目录
- 核心问题
- 核心思想
- VQA 数据集构建:RoadSceneVQA
- 方法论:RoadMind 模型
- Benchmark 与实验结果
- 主要贡献总结
核心问题
目前的路侧感知系统(如交通摄像头监控)主要侧重于实例级(Instance-level)感知,例如检测车辆、跟踪轨迹或预测交通流 。
然而,这些系统存在以下局限性:
缺乏交互与推理:难以通过自然语言与人类交互,也无法对交通行为进行上下文推理(例如判断某种行为是否违规)。
语义鸿沟:现有的基准测试多关注目标定位(坐标框),但忽略了隐含的交通规则、因果关系和行为逻辑 。
可解释性差:在复杂环境下缺乏处理未知事件的灵活性和解释能力 。
核心思想
该研究旨在将交通智能的评估从单纯的“感知识别”转向“受规则约束的认知推理”。通过构建一个大规模、富含上下文的路侧场景 VQA 数据集,并开发与之配套的多模态大语言模型(MLLM),使系统能够像人类一样理解交通场景、判断合法性并进行常识性推理。
VQA 数据集构建:RoadSceneVQA
研究团队构建了RoadSceneVQA,这是首个从路侧视角出发、聚焦规则意识和认知推理的基准数据集 。