白沙黎族自治县网站建设_网站建设公司_无障碍设计_seo优化
2026/1/2 18:20:54 网站建设 项目流程

论文信息

论文标题:Faking Fake News for Real Fake News Detection: Propaganda-Loaded Training Data Generation
论文翻译:为真实虚假新闻检测伪造虚假新闻:富含宣传性的训练数据生成
论文作者:黄恭翔,凯瑟琳·麦基翁,普雷斯拉夫·纳科夫,崔叶进,姬衡
论文来源:ACL 2023
发布时间:2023
论文地址:https://aclanthology.org/2024.naacl-long.313/
论文代码:https://github.com/khuangaf/FakingFakeNews


总结

  1. 现有技术局限:当前神经模型在检测机器生成假新闻上有进展,但无法直接用于检测人类撰写的虚假信息,核心原因是两类假新闻在风格、潜在意图上存在显著差距,导致技术难以迁移。

  2. 提出解决方案:构建新框架生成训练样本,样本生成参考人类撰写宣传内容的已知风格与策略;具体通过自然语言推理指导自批判序列训练,保障生成文章有效性,同时融入 “诉诸权威”“煽动性语言” 等宣传技巧。

  3. 数据集成果:创建新训练数据集 PropaNews,含 2256 个样本,已公开供后续研究使用。

  4. 实验效果:在 PropaNews 上训练的假新闻检测器,检测人类撰写虚假信息的能力显著提升,在两个公开数据集上 F1 分数提高 3.62% - 7.69%。

1 研究动机&&研究背景

  1. 研究问题:如何自动生成贴近人类撰写风格的虚假新闻训练数据,以解决现有神经模型生成的虚假新闻与人类撰写虚假信息存在显著差距(风格、意图差异)的问题?

    研究背景:现有基于神经模型生成的虚假新闻训练数据,与人类撰写的虚假信息在风格、底层意图等方面存在较大鸿沟,导致训练出的检测器难以有效迁移应用于人类撰写虚假信息的检测;而人工收集标注人类虚假新闻面临规模小、成本高、虚假内容易被快速删除等问题,无法满足检测器训练对大量高质量数据的需求。
  2. 研究问题:如何在生成虚假新闻训练数据时,融入人类虚假新闻常用的宣传技术,提升数据对人类撰写虚假信息检测的适配性?

    研究背景:通过对人类撰写虚假新闻的分析发现,约 33% 的文章会使用宣传技术(如诉诸权威、情绪化语言)增强虚假信息的可信度,且超过 55% 的文章是真实信息与少量虚假信息混合,而现有神经模型生成的虚假新闻多包含大量虚假信息,且未明确融入宣传技术,与人类撰写虚假新闻的特征不符,影响检测模型的训练效果。
  3. 研究问题:如何确保生成的虚假信息具有有效性(即不被原新闻内容蕴含),同时保证生成文本的连贯性与合理性?

    研究背景:基于掩码填充等方式生成虚假信息时,可能出现生成内容可被原句蕴含(导致信息不虚假)或与上下文不连贯的问题,需通过特定训练目标和过滤机制解决,以生成既符合逻辑又具备虚假属性的训练数据。
  4. 研究问题:如何构建高质量、经过验证的虚假新闻数据集,为人类撰写虚假信息检测研究提供可靠资源?

    研究背景:现有人类虚假新闻数据集存在规模有限、标注成本高的问题,且缺乏明确融入宣传技术的标注数据,亟需一个大规模、经过人工验证的数据集(如 PROPANEWS),支撑相关检测模型的训练与评估。

2 方法

框架

  image

2.1 Disinformation Generation(虚假信息生成)

核心目标

  1. 替换原文中关键句为逻辑连贯、表面合理的虚假信息。

  2. 确保生成的虚假信息无法被原关键句蕴含(避免生成 “看似虚假实则真实” 的内容)。

关键步骤

Step1:Salient Sentence Identification(显著句识别)

  • 定义:对文章整体语义至关重要的句子,替换后可大幅改变事件核心含义。

  • 识别方法:利用抽取式摘要模型(Liu and Lapata, 2019)的评分,将 “最可能被纳入摘要” 的句子判定为显著句(因摘要句通常具有高重要性)。

  • 操作:对每篇新闻,替换 $1$ 个评分最高的显著句为生成的虚假信息。

Step2:Mask Infilling with BART(基于 BART 的掩码填充)

  • 模型选择:采用 BART(Lewis et al., 2020)作为生成模型,适配文本填充任务。

  • 训练阶段:

    1. 随机屏蔽原文中的 $1$ 个句子 $y^*$ ,得到残缺文本 $\tilde{x}=x-y^*$ 。

    2. 编码器生成上下文表征 $h_e = \text{Encoder}(\tilde{x})$

    3. 解码器通过最大似然估计(MLE)最小化负对数概率,学习生成原屏蔽句,损失函数为:

         $\mathcal{L}_{m}=-\sum_{t=1}^{T} \log P\left(y_{t}^{*} | y_{0}^{*}, ..., y_{t-1}^{*}, h_{e}\right)$

  • 推理阶段:屏蔽由抽取式摘要模型判定的 “最高分显著句”,用 BART 生成填充内容。

Step3:Self-critical Sequence Training(自批判序列训练,SCST)

  • 核心问题:仅用 MLE 训练的 BART 可能生成 “与原句蕴含一致” 的内容(非真正虚假)。

    • 例子
      • 原新闻显著句(真实):“NATO 战机于周四在布雷加附近误炸了反叛军坦克纵队,造成至少 5 名反叛军士兵死亡。”

      • 仅用 MLE 训练的 BART 生成句:“NATO 的军事行动导致反叛军人员伤亡,相关事件发生在布雷加地区。”

      • 分析:生成句虽然简化了 “误炸”“坦克纵队”“至少 5 人死亡” 等细节,但核心事实(NATO 在布雷加地区的行动造成反叛军伤亡)与原句完全蕴含一致 —— 原句的信息能推导出生成句的结论,生成内容并未虚假,无法用于训练虚假信息检测器。

  • 解决思路:引入 SCST(Rennie et al., 2017),以 “非蕴含” 为奖励目标优化生成。

  • 关键组件

    1. 奖励函数:ROBERTA-based 的 NLI 模型,奖励为 “原句 $y^*$ 蕴含生成句 $y'$ 的概率的负值”:

           $r\left(y'\right)=-P_{n l i}\left(y^{*}, y'\right)$

      • 说明:确保生成内容的 “虚假性”:若 $y'$ 可被 $y^*$ 蕴含(如原句 “NATO 误炸反叛军坦克” 生成 “NATO 行动造成反叛军伤亡”),则 $P_{nli}$ 接近 1,奖励 $r(y')$ 接近 - 1(惩罚);若 $y'$ 与 $y^*$ 矛盾(如原句 “5 人死亡” 生成 “10 人死亡”),则 $P_{nli}$ 接近 0,奖励 $r(y')$ 接近 0(无惩罚,甚至可通过后续优化调整为正奖励)。
    2. 采样方式:生成句 $y'$ 采用核采样(Nucleus Sampling, $p=0.96$ ),保证生成多样性。

    3. 基线输出: $y''$ 通过贪心解码生成,用于归一化奖励。

    4. SCST 损失函数:

            $\mathcal{L}_{s}=-\left(r\left(y'\right)-r\left(y''\right)\right) \sum_{t=1}^{T} \log P\left(y_{t}' | y_{0}', ..., y_{t-1}', h_{e}\right)$

    5. 最终损失:加权融合 MLE 损失与 SCST 损失, $\alpha=1$ $\beta=0.01$

             $\mathcal{L}_{final }=\alpha \mathcal{L}_{m}+\beta \mathcal{L}_{s}$

Step4:Post-processing(后处理)

  • 操作:复用上述 NLI 模型,过滤 “可被原句蕴含” 的无效生成内容。

  • 效果:无效生成率从 7.8% 降至 3.2%。

2.2 Propaganda Generation(宣传手法生成)

核心目标

  在虚假信息中注入人类虚假新闻高频使用的宣传技术,缩小与人类撰写风格的差距。

选择的宣传技术

  • 宣传技术

    1. Appeal to Authority(诉诸权威)

      • 非情绪化

      • 定义:引用权威 / 专家声明增强 / 削弱论点可信度

      • 选择依据:人类虚假新闻中高频非情绪化宣传技术

    2. Loaded Language(情绪化语言)

      • 情绪化

      • 定义:使用触发情绪的词汇(如夸张副词 / 形容词)影响受众

      • 选择依据:人类虚假新闻中最频繁的宣传技术

1)Appeal to Authority(诉诸权威)

流程:

  1. 数据准备阶段

    • 输入:原始真实新闻文章(如利比亚冲突新闻)

    • 处理:用抽取式摘要模型(Liu and Lapata, 2019)识别显著句并屏蔽,得到 “屏蔽显著句的新闻上下文”

    • 输出:屏蔽显著句后的新闻文本(保留非显著句的完整上下文)

  2. 虚假信息生成阶段

    • 输入:屏蔽显著句后的新闻文本 → 传入 §2.1 的 BART 模型

    • 处理:BART 通过掩码填充 + SCST+NLI 优化,生成与原句非蕴含的虚假句,替换屏蔽位置

    • 输出:填充虚假信息后的完整新闻文章(上下文 + 虚假句)

  3. 诉诸权威训练输入构造阶段

    • 输入:填充虚假信息后的新闻文章

    • 处理:在虚假句后插入<mask>标记(明确权威声明填充位置),添加[PROPAGANDA: APPEAL_TO_AUTHORITY]标记(告知模型生成目标)

    • 输出:最终输入文本(上下文 + 虚假句 +<mask>+ 宣传类型标记)

  4. 诉诸权威生成阶段

    • 输入:最终输入文本 → 传入适配 “诉诸权威” 训练的 BART 模型(复用 §2.1 的 BART 权重,仅微调宣传生成能力)

    • 处理:

      ① 编码器:双向理解输入文本(上下文 + 虚假句),捕捉核心语义(如 “北约蓄意攻击” 的虚假观点);

      ② 解码器:通过跨注意力层关联编码器输出,在<mask>位置生成与上下文、虚假句逻辑一致的权威声明;

      ③ 优化:按 MLE 损失最小化生成序列的困惑度,确保权威声明自然可信

    • 输出:含权威声明的完整虚假新闻(上下文 + 虚假句 + 权威声明)

  5. 数据落地阶段

    • 输入:含权威声明的完整虚假新闻

    • 处理:经人工验证(AMT 标注)和后处理过滤(剔除语义冲突 / 语法错误内容)

    • 输出:纳入 PROPANEWS 数据集的高质量训练样本

多样化优化:避免模板单一

  • 动词替换:将 “confirmed” 替换为 said、concluded、emphasized 等(共 6 个候选动词)。

  • 句式重排:调整主语和动词位置(如 “权威人士证实 XX”→“XX,权威人士证实”)。

  • 上下文补充:添加介词短语(如 “in a conference”“on the report”),丰富声明场景。

  • 执行逻辑:每步多样化操作有 50% 概率触发,确保生成的权威声明不重复。

2)Loaded Language(情绪化语言)

流程:

  1. 数据准备阶段

    • 输入:① 原始真实新闻文章(如政治冲突、公共事件新闻);② Da San Martino et al. (2019) 宣传数据集中的情绪化语言实例(2547 个原始样本)

    • 处理:

      ① 对原始新闻:用抽取式摘要模型识别显著句,经 §2.1 的 BART 模型生成虚假句,替换显著句,得到 “填充虚假信息的新闻文章”;

      ② 对情绪化实例:用 SpaCy 做词性标注 + 依存分析,筛选 “副词修饰动词”“形容词修饰名词” 的有效样本(最终 1017 个)

    • 输出:① 填充虚假信息的新闻文章;② 1017 个有效情绪化语言训练样本

  2. 情绪化语言训练输入构造(两步法第一步:训练<mask>插入位置)

    • 输入:填充虚假信息的新闻文章(聚焦虚假句部分)

    • 处理:移除虚假句中潜在的情绪词汇(如将 “造成大量伤亡” 改为 “造成伤亡”),在原情绪词汇位置添加<mask>标记,同时添加[PROPAGANDA: LOADED_LANGUAGE]标记(告知模型生成目标)

    • 输出:第一步输入文本(上下文 + 去情绪词的虚假句 +<mask>+ 宣传类型标记)

  3. 第一步模型训练阶段

    • 输入:第一步输入文本 → 传入初始化的 BART 模型

    • 处理:

      ① 编码器:理解虚假句语义和上下文逻辑,定位 “适合插入情绪化表达” 的位置;

      ② 解码器:学习在<mask>位置精准标记情绪词插入点(不生成具体词汇,仅优化位置判断);

      ③ 优化:按 MLE 损失最小化预测误差,确保<mask>位置与人类虚假新闻的情绪表达位置一致

    • 输出:含精准<mask>位置的虚假句(如 “北约蓄意攻击反叛军,造成<mask>伤亡”)

  4. 情绪化语言训练输入构造(两步法第二步:训练情绪词填充)

    • 输入:第一步输出的 “含<mask>位置的虚假句 + 完整新闻上下文”

    • 处理:保留<mask>标记和宣传类型标记,确保输入格式与第一步一致,仅目标改为 “填充情绪词”

    • 输出:第二步输入文本(上下文 + 含<mask>的虚假句 + 宣传类型标记)

  5. 第二步模型训练阶段

    • 输入:第二步输入文本 → 传入经第一步训练后的 BART 模型

    • 处理:

      ① 编码器:深度理解上下文语义(如 “冲突场景” 适配 “致命”“惨烈” 等词汇)和虚假句核心观点;

      ② 解码器:通过跨注意力层关联编码器输出,在<mask>位置生成贴合语境的情绪化词汇 / 短语(如将 “<mask>伤亡” 改为 “致命伤亡”);

      ③ 优化:无 SCST 损失,仅按 MLE 损失最小化生成内容与有效样本的差异,控制幻觉率

    • 输出:含情绪化语言的完整虚假新闻(上下文 + 带情绪词的虚假句)

  6. 数据落地阶段

    • 输入:含情绪化语言的完整虚假新闻

    • 处理:经人工验证(AMT 标注判断情绪表达自然度、与上下文一致性)和后处理过滤(剔除搭配不当、语义冲突的情绪词)

    • 输出:纳入 PROPANEWS 数据集的高质量训练样本(占虚假样本的 30%)

2.3 Intermediate Pre-training(中间预训练)

背景

  • 问题:TIMELINE17(虚假信息生成数据源)和宣传数据集规模较小,模型泛化能力不足。

  • 解决思路:在大规模新闻领域数据集上进行中间预训练,实现领域适配。

关键细节

  • 预训练数据集:CNN/DM 新闻摘要数据集28 万 + 新闻,Hermann et al., 2015)。

  • 预训练目标:

    1. 虚假信息生成的预训练:移除 SCST 损失 $\mathcal{L}_s$ ,仅优化 MLE 损失(聚焦连贯生成)。

    2. 情绪化语言生成的预训练:不筛选 “是否为情绪词”,仅学习 “副词 / 形容词的插入位置”,提升插入合理性。

3 实验

3.1 数据集(Data)

1. 核心数据集:PROPANEWS

  • 数据规模:2,256 篇 distinct 文章,真实与虚假文档数量平衡。

  • 虚假样本构成:30% 含 “诉诸权威(Appeal to Authority)”、30% 含 “情绪化语言(Loaded Language)”、40% 仅含虚假信息。

  • 数据划分:训练集 1,256 篇、验证集 500 篇、测试集 500 篇。

  • 数据来源:基于 TIMELINE17 数据集(4,535 篇高可信度新闻,覆盖 17 个重要事件),通过 “虚假信息生成 + 宣传手法注入” 改造。

  • 人工验证:由 Amazon Mechanical Turk(AMT)400 名标注者完成约 2,000 个 HIT 任务,标注者需从可信媒体找证据判断生成内容是否虚假;采用 WAWA 评分衡量标注一致性,结果为精确率 80.01%、召回率 78.94%、F1 值 79.47%,呈中高程度一致。

2. 评估数据集

数据集名称 数据来源 样本构成(真实 / 虚假) 说明
SNOPES 事实核查网站 SNOPES 430/280 剔除无法访问 URL 的文章
POLITIFACT 事实核查网站 POLITIFACT 517/369 剔除无法访问 URL 的文章

3. 对比用生成训练数据

数据类型 说明
GROVER-GEN Zellers et al. (2019) 提出,先基于原文生成标题,再基于标题生成正文
GROVER-GEN-1SENT GROVER-GEN 的变体,仅生成 1 个句子替换原文显著句
FACTGEN Shu et al. (2021) 提出,通过事实检索器从外部语料获取支持信息,提升生成文本的事实一致性
FACTGEN-1SENT FACTGEN 的变体,仅生成 1 个句子替换原文显著句
FAKEVENT Wu et al. (2022) 提出,基于句子的操纵知识元素逐句生成
FAKEVENT-1SENT FAKEVENT 的变体,仅生成 1 个句子替换原文显著句
PN-SILVER 复用本文生成数据,但未经过人工验证(无标注者筛选)

3.2 Baselines

1. 检测模型

  • HDSF(Karimi and Tang, 2019):利用 discourse-level 特征(如依存树)的层次结构预测新闻真实性。

  • GROVER-LARGE(Zellers et al., 2019):基于新闻文档预训练的单向 seq2seq 模型,判别式版本通过 [CLS] token 表征输入多层感知机完成分类。

  • BERT-LARGE(Devlin et al., 2019):双向 Transformer 预训练模型,输入全文后将首个 token 表征输入分类头判断真实性。

  • ROBERTA-LARGE(Liu et al., 2019):BERT 的优化版本,通过更长预训练时间、动态掩码等策略提升语义理解能力,分类方式与 BERT 一致。

  • 模型统一设置:所有模型最大序列长度设为 512,均使用 LARGE 变体;优化器采用交叉熵损失;BERT/ROBERTA 用 AdamW,GROVER 用 Adam,HDSF 用 Adam。

2. 生成方法对比基准

  • 传统生成方法:GROVER-GEN、FACTGEN、FAKEVENT(及各自 - 1SENT 变体)。

  • 本文变体:PN-SILVER(无人工验证)、PROPANEWS(有人工验证)、PROPANEWS w/o AA(移除诉诸权威)、PROPANEWS w/o LL(移除情绪化语言)、PROPANEWS w/o AA&LL(移除两种宣传手法)。

3.3 实验内容

实验1:人类撰写虚假信息检测性能评估

实验目标

  验证PROPANEWS训练的检测器在SNOPES/POLITIFACT(人类撰写虚假新闻)上的性能优势。

实验设计

  用不同训练数据训练4种检测模型,评估AUC指标(4次运行取均值±标准差),配对bootstrap检验显著性。

实验结果

训练数据
ROBERTA-LARGE(SNOPES)
GROVER-LARGE(SNOPES)
ROBERTA-LARGE(POLITIFACT)
GROVER-LARGE(POLITIFACT)
GROVER-GEN
57.65 (±7.6)
52.77 (±2.1)
48.42 (±2.2)
49.53 (±0.1)
FACTGEN
48.46 (±2.2)
51.79 (±3.6)
41.98 (±5.4)
50.47 (±4.9)
FAKEVENT
46.33 (±2.6)
50.27 (±5.9)
45.36 (±1.2)
47.40 (±1.3)
PN-SILVER
60.39* (±3.9)
55.23* (±5.8)
51.52** (±3.4)
52.39** (±4.1)
PROPANEWS
65.34** (±4.5)
60.43** (±6.2)
53.03** (±3.7)
54.09** (±2.8)

实验结论

  • PROPANEWS训练的模型性能最优,ROBERTA-LARGE在SNOPES上AUC达65.34,显著高于所有Baseline生成数据。

  • 无人工验证的PN-SILVER也优于传统生成方法,证明本文生成策略(虚假信息+宣传手法)的有效性。

  • 单一句子替换(-1SENT变体)导致GROVER-GEN和FACTGEN性能大幅下降,因生成句与上下文不连贯。

实验2:消融实验(宣传手法的有效性验证)

实验目标

  分析“诉诸权威(AA)”和“情绪化语言(LL)”对检测性能的贡献。

实验设计

  对比PROPANEWS及其3种消融版本(w/o AA、w/o LL、w/o AA&LL)训练的模型AUC。

实验结果

训练数据
ROBERTA-LARGE(SNOPES)
GROVER-LARGE(SNOPES)
ROBERTA-LARGE(POLITIFACT)
GROVER-LARGE(POLITIFACT)
PROPANEWS
65.34** (±4.5)
60.43** (±6.2)
53.03** (±3.7)
54.09** (±2.8)
PROPANEWS w/o AA
63.21** (±3.2)
58.28** (±4.2)
50.78* (±1.8)
53.22** (±3.7)
PROPANEWS w/o LL
64.65** (±1.8)
56.93** (±5.3)
51.92** (±3.4)
51.68* (±1.4)
PROPANEWS w/o AA&LL
61.83* (±4.9)
52.82 (±3.3)
52.77** (±2.7)
50.93 (±2.7)

实验结论

  • 移除“诉诸权威”或“情绪化语言”后,模型AUC均下降(如PROPANEWS w/o AA比原版低2.13),证明两种宣传手法均能提升检测泛化性。

  • 即使移除两种宣传手法,PROPANEWS w/o AA&LL仍优于多数Baseline,说明本文生成的虚假信息本身已贴近人类撰写风格。

实验3:生成质量评估实验

实验目标

  验证生成数据的 plausibility(可信度)及宣传手法的影响。

实验设计

  AMT标注者对PROPANEWS和GROVER-GEN各100篇文章评分(1=低可信度,3=高可信度),并评估宣传手法的影响程度。

实验结果

  • plausibility评分:PROPANEWS平均2.25分,GROVER-GEN平均2.15分。

  • 宣传手法影响:PROPANEWS高可信度样本中,29.2%标注者认为宣传手法“高度影响”其判断。

实验结论

  • 本文生成数据的可信度略高于GROVER-GEN,证明“贴近人类宣传策略”的生成逻辑更优。

  • 宣传手法能显著提升虚假新闻的可信度,进一步验证了在训练数据中注入宣传手法的必要性。

实验4:相似性分析实验

实验目标

  量化生成数据与人类撰写虚假新闻的风格相似度。

实验设计

  用MAUVE指标计算PROPANEWS、GROVER-GEN与POLITIFACT虚假新闻的分布相似度。

实验结果

  • PROPANEWS与POLITIFACT虚假新闻的MAUVE相似度为17.1%。

  • GROVER-GEN与POLITIFACT虚假新闻的MAUVE相似度为13.7%。

实验结论

  PROPANEWS生成数据与人类撰写虚假新闻的风格相似度高于GROVER-GEN,说明本文生成方法能更好地模拟人类虚假新闻的特征。

实验5:数据规模影响实验

实验目标

  探究PN-SILVER规模对检测性能的影响,及与人类撰写数据(SNOPES)的差距。

实验设计

  将PN-SILVER扩展至2-10倍规模,训练ROBERTA-LARGE并在POLITIFACT上评估AUC。

实验结果

  • PN-SILVER规模扩大至5倍前,模型AUC持续提升。

  • 规模超过5倍后,性能趋于平稳,无显著增长。

  • 同等规模下,SNOPES(人类撰写数据)训练的模型AUC更高。

实验结论

  • 生成数据规模扩大能提升检测性能,但存在瓶颈(5倍后饱和)。

  • 生成数据与人类虚假新闻在风格、意图上仍有差距,需进一步优化生成策略。

 

 

 

 

 

相关问题

Q1:抽取式摘要模型 vs 抽象式摘要模型

  1. 抽取式摘要模型

    • 定义:从原文中直接抽取关键句子 / 短语,按逻辑顺序拼接成摘要,不产生新词汇或新表达。

    • 核心逻辑:“筛选 + 重组”,本质是对原文重要信息的 “搬运”,不涉及语义的深度改写。

    • 示例(对应前文研究):Liu and Lapata (2019) 的抽取式摘要模型,通过计算句子在原文中的重要性得分(如是否易被纳入摘要),筛选出 “显著句”(如新闻中影响核心语义的句子)。

  2. 抽象式摘要模型

    • 定义:基于原文语义理解与重构,生成原文中不存在的新句子,可概括、改写、融合原文信息,更贴近人类写作逻辑。

    • 核心逻辑:“理解 + 创造”,需捕捉原文语义核心,再用新的语言表达输出,可能包含原文无直接对应的词汇或句式。

    • 示例:BART(Lewis et al., 2020)、GPT 系列,前文研究中用 BART 生成虚假信息替换显著句,就是基于原文上下文进行的抽象式生成。

 

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询