青海省网站建设_网站建设公司_服务器部署_seo优化
2025/12/30 20:20:33 网站建设 项目流程

视觉语言模型(VLM)在二维医学图像分析中已展现出潜力,但由于体积数据的高计算需求以及将三维空间特征与临床文本对齐的难度,将其扩展到三维领域仍具有挑战性。我们提出了Med3DVLM,这是一种三维视觉语言模型,旨在通过三项关键创新来应对这些挑战:(1)DCFormer,一种高效的编码器,它使用分解的三维卷积来大规模捕捉细粒度的空间特征;(2)SigLIP,一种采用成对Sigmoid损失的对比学习策略,该策略无需依赖大量负样本批次即可改善图像 - 文本对齐;(3)一种双流MLP - Mixer投影器,它将低级和高级图像特征与文本嵌入融合,以实现更丰富的多模态表示。

我们在M3D数据集上对我们的模型进行了评估,该数据集包含120,084张三维医学图像的放射学报告和视觉问答(VQA)数据。结果表明,Med3DVLM在多个基准测试中表现卓越。在图像 - 文本检索方面,在2000个样本上的R@1达到61.00%,显著优于当前最先进的M3D - LaMed模型(19.10%)。在报告生成方面,其METEOR得分达到36.42%(对比14.38%)。在开放式视觉问答(VQA)中,METEOR得分为36.76%(对比33.58%),在封闭式VQA中,准确率达到79.95%(对比75.78%)。这些结果证明了Med3DVLM能够弥合三维成像与语言之间的差距,实现跨临床应用的可扩展多任务推理。我们的代码可在https://github.com/mirthAI/Med3DVLM上公开获取。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询