潍坊市网站建设_网站建设公司_门户网站_seo优化
2026/1/8 1:50:15 网站建设 项目流程

前言

本文阅读论文《Modality Perception Learning-Based Determinative Factor Discovery for MultimodalFake News Detection》。虚假新闻通常依赖夸张的语言风格、篡改的图像、不一致的多模态上下文等特征。虚假新闻检测应遵循“逻辑与”原则,即便大部分内容合理,只要存在少量不合理内容,即可判定为虚假。

核心内容细节
问题现有方法关注于多模态的一致性和设计复杂的特征提取器,而忽略了模态间的语义差异。例如下图中,文本与图像在表面上一致,但隐含夸张文本与篡改图像。
方法首先利用CLIP预训练编码器与模态特定编码器,分别提取模态一致与模态特定特征,然后进行多层次跨模态融合,最后根据模态异质性分数动态加权不同特征。
贡献设计双重编码模块,融合CLIP编码与模态特定编码;引入可学习的记忆信息,增强特征表示能力;构建多层次跨模态融合模块,深入理解模态间复杂关联;提出模态感知学习模块,根据模态分布差异自适应加权特征。


文章目录

  • 前言
  • 一、现有方法
  • 二、本文方法
  • 总结

一、现有方法

分类方法
单模态基于文本的检测:关注假新闻的语言特征,如夸张、煽动性。
基于视觉的检测:关注图像是否被篡改、是否具有误导性。
多模态多模态信息融合方法:分别提取文本和图像特征,再进行融合。
模态相似性度量方法:通过衡量文本与图像之间的语义一致性来辅助检测。
基于图神经网络与外部知识的方法:引入知识图谱或社交网络信息增强表示。

二、本文方法

  1. 对于某一特征,用 CNN 提取模态特定的特征,用 CLIP 提取一致特征,然后拼接。其中,文本编码器是 CNN + 池化,图像编码器是 ResNet-50;
  2. 引入可学习的记忆向量以提取不同模态特征真假模式,并进一步与提取的特征拼接;
  3. 使用多头自注意力增强每个模态自身的特征表示;
  4. 模仿人类先看图片辅助理解文字的习惯,以图像特征作为 Q,文本特征作为 K 和 V,通过跨模态注意力让图像信息增强文本信息f t v f_{tv}ftv。然后,模仿人类反复对照图文、捕捉深层线索的行为,进一步增强文本信息,同时使用视觉增强的文本特征作为 Q 增强原始图像特征;
  5. 用VAE将文本特征和图像特征分别映射到潜在空间,然后计算二者的 KL 散度,并用 sigmoid 将其映射到 0-1 区间。h hh越大,图文越不一致,将h hh作为多模态融合特征权重,1 − h 1-h1h作为单模态特征权重;
  6. 将加权后的四个特征拼接起来,并送入一个全连接层分类器进行真假二分类。

总结

文章的动机有点以结果为导向。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询