克拉玛依市网站建设_网站建设公司_Redis_seo优化
2026/1/7 11:10:15 网站建设 项目流程

文章:WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

代码:https://github.com/WeChatCV/WeDetect

单位:腾讯微信团队


一、问题背景:传统方法的“速度与精度”困局

传统开放词汇目标检测主要分为两类思路,却都存在明显短板:

  • 融合型方法:通过深度跨模态融合层让图像和文字深度交互,精度较高,但计算量极大,导致推理速度慢,且视觉特征无法在不同文字查询间共享,换个描述就得重新计算;

  • 非融合型方法:采用双塔架构,不用复杂融合,速度更快,但过去在精度和泛化能力上始终落后于融合型方法,难以支撑复杂场景需求。

此外,现有模型还存在功能单一的问题:要么只能做基础检测,要么无法处理“左边穿7号球衣的球员”这类复杂指令,要么不能精准检索小物体,难以覆盖多场景实际应用。

二、方法创新:以“检索”为核心,打造全能模型家族

腾讯团队跳出传统思路,将“检索”理念贯穿始终,推出了WeDetect模型家族,通过三大核心创新解决痛点:

1. 核心架构:无融合双塔,兼顾速度与对齐

WeDetect家族统一采用双塔架构,彻底抛弃耗时的跨模态融合层:

  • 文本编码器:将文字描述(如“猫”“心形的锁”)编码成特征向量;

  • 视觉编码器:提取图片中不同尺度的区域特征,采用ConvNeXt backbone,天生适配多尺度物体检测。

  • 识别逻辑:通过计算文本特征与图像区域特征的相似度(点积)完成匹配,就像在“特征字典”里检索目标,无需反复交互,速度自然拉满。

2. 三大模型:各司其职,覆盖全场景需求

  • WeDetect(基础检测器):模型家族的“地基”,基于预训练的CLIP模型微调,搭配1500万张图片、3.3亿个标注框的高质量数据集(含多粒度标签,如“动物→狗→黄色的狗”),通过分阶段训练,在无融合架构下实现超高精度。

  • WeDetect-Uni(通用候选框生成器):冻结WeDetect的核心参数,仅训练一个“通用物体提示词”,就能批量生成图片中所有可能的物体候选框。关键是这些候选框的特征仍保留类别属性,可直接用于后续分类,还支持“物体检索”新功能——能从海量历史图片中快速找到含特定物体(哪怕是烟蒂这样的小物体)的图像,弥补了传统图像检索的细粒度短板。

  • WeDetect-Ref(复杂指令理解器):结合大语言模型(LLM)处理复杂指令,先由WeDetect-Uni生成候选框,再让LLM作为分类器,通过二进制分类头对所有候选框并行打分,一次性筛选出符合指令的目标。摒弃了LLM传统的逐token生成机制,推理速度提升13倍,还能避免边界框回归不准的问题。

3. 数据与训练:细节拉满,筑牢性能根基

  • 多粒度标签:为每个物体标注层级化标签,训练时随机采样,丰富文本多样性,助力细粒度对齐;

  • 分阶段训练:先预训练视觉和文本编码器,再训练模型头部和颈部,最后端到端微调,充分复用预训练知识;

  • 自动数据引擎:用目标检测器+SAM分割+Qwen2.5-VL大模型自动标注,生成高质量、无遗漏的标注数据,减少人工成本。

三、实验结果:15个基准测试登顶,性能全面碾压

在15个主流 benchmarks 上的测试显示,WeDetect家族实现了“速度与精度”的双重突破:

1. 基础检测:又快又准

  • WeDetect-Tiny(33M参数):在LVIS数据集上实现37.4 AP,比同类快模型YOLO-World-L高2.0 AP,且运行速度达62.5 fps,远超YOLO-World-L的54.6 fps;

  • WeDetect-Large:在LVIS数据集上达到49.4 AP,比此前的SOTA模型LLMDet高7.4 AP,性能断层领先。

2. 物体检索:细粒度优势明显

WeDetect-Uni在COCO和LVIS数据集上的物体检索F1分数达83.6,比经典模型CLIP高出37.2,能精准定位小物体和局部特征,检索速度远超传统方法。

3. 复杂指令理解:高效碾压大模型

WeDetect-Ref 4B(仅40亿参数)在RefCOCO/+/g数据集上平均准确率达93.2,比Qwen3-VL 4B高6.6个百分点,且推理速度是后者的13倍,甚至比Grounding-DINO-L还快;同时首次实现大模型在COCO数据集上AP突破50,比肩传统专业检测器。

四、优势与局限:实际应用的“加分项”与“待优化点”

核心优势

  1. 速度极快:无融合架构+并行推理,WeDetect-Tiny达62.5 fps,WeDetect-Ref比同类大模型快13倍,满足实时部署需求;

  2. 功能全面:统一覆盖基础检测、候选框生成、物体检索、复杂指令理解四大任务,无需多个模型拼接;

  3. 泛化性强:在跨领域数据集(如卡通、素描、纹身图像)和长尾类别上表现稳定,零样本迁移能力突出;

  4. 部署友好:架构简洁,可通过GPU和Flash Attention进一步加速,适配不同硬件环境。

现存局限

  1. 多查询支持不足:WeDetect-Ref是二进制分类模型,单次前向传播只能处理一个查询,多查询需多次推理后合并结果(但因速度足够快,实际影响较小);

  2. 小样本极端场景:在极少数超小众类别或极模糊图像上,检索精度仍有提升空间。

五、一句话总结

WeDetect家族以“检索”为核心,通过无融合双塔架构、多粒度数据训练和功能化模型设计,首次实现了开放词汇目标检测“速度、精度、灵活性”的三重突破,为实时智能视觉应用提供了高效可行的解决方案。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询