文章:WeDetect: Fast Open-Vocabulary Object Detection as Retrieval
代码:https://github.com/WeChatCV/WeDetect
单位:腾讯微信团队
一、问题背景:传统方法的“速度与精度”困局
传统开放词汇目标检测主要分为两类思路,却都存在明显短板:
融合型方法:通过深度跨模态融合层让图像和文字深度交互,精度较高,但计算量极大,导致推理速度慢,且视觉特征无法在不同文字查询间共享,换个描述就得重新计算;
非融合型方法:采用双塔架构,不用复杂融合,速度更快,但过去在精度和泛化能力上始终落后于融合型方法,难以支撑复杂场景需求。
此外,现有模型还存在功能单一的问题:要么只能做基础检测,要么无法处理“左边穿7号球衣的球员”这类复杂指令,要么不能精准检索小物体,难以覆盖多场景实际应用。
二、方法创新:以“检索”为核心,打造全能模型家族
腾讯团队跳出传统思路,将“检索”理念贯穿始终,推出了WeDetect模型家族,通过三大核心创新解决痛点:
1. 核心架构:无融合双塔,兼顾速度与对齐
WeDetect家族统一采用双塔架构,彻底抛弃耗时的跨模态融合层:
文本编码器:将文字描述(如“猫”“心形的锁”)编码成特征向量;
视觉编码器:提取图片中不同尺度的区域特征,采用ConvNeXt backbone,天生适配多尺度物体检测。
识别逻辑:通过计算文本特征与图像区域特征的相似度(点积)完成匹配,就像在“特征字典”里检索目标,无需反复交互,速度自然拉满。
2. 三大模型:各司其职,覆盖全场景需求
WeDetect(基础检测器):模型家族的“地基”,基于预训练的CLIP模型微调,搭配1500万张图片、3.3亿个标注框的高质量数据集(含多粒度标签,如“动物→狗→黄色的狗”),通过分阶段训练,在无融合架构下实现超高精度。
WeDetect-Uni(通用候选框生成器):冻结WeDetect的核心参数,仅训练一个“通用物体提示词”,就能批量生成图片中所有可能的物体候选框。关键是这些候选框的特征仍保留类别属性,可直接用于后续分类,还支持“物体检索”新功能——能从海量历史图片中快速找到含特定物体(哪怕是烟蒂这样的小物体)的图像,弥补了传统图像检索的细粒度短板。
WeDetect-Ref(复杂指令理解器):结合大语言模型(LLM)处理复杂指令,先由WeDetect-Uni生成候选框,再让LLM作为分类器,通过二进制分类头对所有候选框并行打分,一次性筛选出符合指令的目标。摒弃了LLM传统的逐token生成机制,推理速度提升13倍,还能避免边界框回归不准的问题。
3. 数据与训练:细节拉满,筑牢性能根基
多粒度标签:为每个物体标注层级化标签,训练时随机采样,丰富文本多样性,助力细粒度对齐;
分阶段训练:先预训练视觉和文本编码器,再训练模型头部和颈部,最后端到端微调,充分复用预训练知识;
自动数据引擎:用目标检测器+SAM分割+Qwen2.5-VL大模型自动标注,生成高质量、无遗漏的标注数据,减少人工成本。
三、实验结果:15个基准测试登顶,性能全面碾压
在15个主流 benchmarks 上的测试显示,WeDetect家族实现了“速度与精度”的双重突破:
1. 基础检测:又快又准
WeDetect-Tiny(33M参数):在LVIS数据集上实现37.4 AP,比同类快模型YOLO-World-L高2.0 AP,且运行速度达62.5 fps,远超YOLO-World-L的54.6 fps;
WeDetect-Large:在LVIS数据集上达到49.4 AP,比此前的SOTA模型LLMDet高7.4 AP,性能断层领先。
2. 物体检索:细粒度优势明显
WeDetect-Uni在COCO和LVIS数据集上的物体检索F1分数达83.6,比经典模型CLIP高出37.2,能精准定位小物体和局部特征,检索速度远超传统方法。
3. 复杂指令理解:高效碾压大模型
WeDetect-Ref 4B(仅40亿参数)在RefCOCO/+/g数据集上平均准确率达93.2,比Qwen3-VL 4B高6.6个百分点,且推理速度是后者的13倍,甚至比Grounding-DINO-L还快;同时首次实现大模型在COCO数据集上AP突破50,比肩传统专业检测器。
四、优势与局限:实际应用的“加分项”与“待优化点”
核心优势
速度极快:无融合架构+并行推理,WeDetect-Tiny达62.5 fps,WeDetect-Ref比同类大模型快13倍,满足实时部署需求;
功能全面:统一覆盖基础检测、候选框生成、物体检索、复杂指令理解四大任务,无需多个模型拼接;
泛化性强:在跨领域数据集(如卡通、素描、纹身图像)和长尾类别上表现稳定,零样本迁移能力突出;
部署友好:架构简洁,可通过GPU和Flash Attention进一步加速,适配不同硬件环境。
现存局限
多查询支持不足:WeDetect-Ref是二进制分类模型,单次前向传播只能处理一个查询,多查询需多次推理后合并结果(但因速度足够快,实际影响较小);
小样本极端场景:在极少数超小众类别或极模糊图像上,检索精度仍有提升空间。
五、一句话总结
WeDetect家族以“检索”为核心,通过无融合双塔架构、多粒度数据训练和功能化模型设计,首次实现了开放词汇目标检测“速度、精度、灵活性”的三重突破,为实时智能视觉应用提供了高效可行的解决方案。