潍坊市网站建设_网站建设公司_门户网站_seo优化-枣庄市网站建设公司

潍坊市网站建设_网站建设公司_门户网站_seo优化

2026/1/8 1:50:15 网站建设项目流程

前言

本文阅读论文《Modality Perception Learning-Based Determinative Factor Discovery for MultimodalFake News Detection》。虚假新闻通常依赖夸张的语言风格、篡改的图像、不一致的多模态上下文等特征。虚假新闻检测应遵循“逻辑与”原则，即便大部分内容合理，只要存在少量不合理内容，即可判定为虚假。

核心内容	细节
问题	现有方法关注于多模态的一致性和设计复杂的特征提取器，而忽略了模态间的语义差异。例如下图中，文本与图像在表面上一致，但隐含夸张文本与篡改图像。
方法	首先利用CLIP预训练编码器与模态特定编码器，分别提取模态一致与模态特定特征，然后进行多层次跨模态融合，最后根据模态异质性分数动态加权不同特征。
贡献	设计双重编码模块，融合CLIP编码与模态特定编码；引入可学习的记忆信息，增强特征表示能力；构建多层次跨模态融合模块，深入理解模态间复杂关联；提出模态感知学习模块，根据模态分布差异自适应加权特征。

文章目录

前言
一、现有方法
二、本文方法
总结

一、现有方法

分类	方法
单模态	基于文本的检测：关注假新闻的语言特征，如夸张、煽动性。基于视觉的检测：关注图像是否被篡改、是否具有误导性。
多模态	多模态信息融合方法：分别提取文本和图像特征，再进行融合。模态相似性度量方法：通过衡量文本与图像之间的语义一致性来辅助检测。基于图神经网络与外部知识的方法：引入知识图谱或社交网络信息增强表示。

二、本文方法

对于某一特征，用 CNN 提取模态特定的特征，用 CLIP 提取一致特征，然后拼接。其中，文本编码器是 CNN + 池化，图像编码器是 ResNet-50；
引入可学习的记忆向量以提取不同模态特征真假模式，并进一步与提取的特征拼接；
使用多头自注意力增强每个模态自身的特征表示；
模仿人类先看图片辅助理解文字的习惯，以图像特征作为 Q，文本特征作为 K 和 V，通过跨模态注意力让图像信息增强文本信息f t v f_{tv}ftv。然后，模仿人类反复对照图文、捕捉深层线索的行为，进一步增强文本信息，同时使用视觉增强的文本特征作为 Q 增强原始图像特征；
用VAE将文本特征和图像特征分别映射到潜在空间，然后计算二者的 KL 散度，并用 sigmoid 将其映射到 0-1 区间。h hh越大，图文越不一致，将h hh作为多模态融合特征权重，1 − h 1-h1−h作为单模态特征权重；
将加权后的四个特征拼接起来，并送入一个全连接层分类器进行真假二分类。

总结

文章的动机有点以结果为导向。

标签：网站建设企业官网项目流程 UI设计前端开发

需要专业的网站建设服务？

联系我们获取免费的网站建设咨询和方案报价，让我们帮助您实现业务目标