摘要
本周学习围绕对抗攻击这一核心概念展开。通过构造恶意输入来测试并提升模型在真实场景中的鲁棒性,例如在垃圾邮件过滤等安全关键领域。进而,系统介绍了攻击的两大类型:无目标攻击与有目标攻击。在实现方法上,重点讲解了基于梯度优化(如快速梯度符号法)和距离度量的基本技术框架。
abstract
This week's learning focused on the core concept of adversarial attacks. The course explained the necessity of constructing malicious inputs to test and improve the robustness of models in real-world scenarios, such as in security-critical areas like spam filtering. It then systematically introduced the two main types of attacks: non-targeted and targeted attacks. Regarding implementation methods, the course emphasized the basic technical framework based on gradient optimization (e.g., the Fast Gradient Sign Method) and distance metrics.
一、对抗攻击的必要性
对抗攻击的必要性在于,人工智能模型在理想实验环境下的性能表现往往掩盖了其在现实场景中的潜在脆弱性。通过对模型输入进行精心设计的微小扰动(即对抗样本),可以系统性检验模型对于恶意干扰的鲁棒性,暴露其决策边界的不稳定性与隐蔽缺陷。这一评估过程对于垃圾邮件过滤、自动驾驶、金融风控等安全敏感领域至关重要,不仅是模型安全部署前的必要压力测试,也是推动开发更稳健、可信赖的AI系统的基础性工作。
二、Evasion Attacks in Computer Vision
Evasion Attacks(规避攻击)是计算机视觉领域的一种对抗性攻击,旨在通过精心构造并人眼难以察觉的扰动,输入到目标机器学习模型中,使其产生错误的预测结果。这类攻击发生在模型推理阶段,不改变模型本身,而是针对特定输入进行“欺骗”。例如,在图像分类任务中,攻击者可能通过在熊猫图片上添加细微的噪声扰动,使模型将其误判为“长臂猿”。
其核心原理在于利用模型决策边界的脆弱性。深度学习模型通常在高维空间中存在线性或非线性的决策边界,而对抗性扰动通过沿着损失函数梯度上升的方向(如快速梯度符号法FGSM)或优化方法,在原始输入上添加微小扰动,使其越过决策边界,导致输出突变。由于扰动幅度小,人类视觉系统难以察觉,但模型的高维特征空间对这类变化极为敏感。这暴露了模型过于依赖数据表面统计特征、缺乏鲁棒语义理解的局限性,促使研究者使用更稳健的防御方法。
二、基于梯度优化的对抗攻击生成流程如下:
设定目标:决定是让模型认错就行(非目标攻击),还是必须错成某个特定类别(目标攻击)。
选择约束:确定使用哪种距离度量(如 L∞)及其上限(如
ε = 0.03,即每个像素值变化不超过 0.03,假设像素值范围是 [0, 1])。梯度计算:将原始图片输入模型,根据攻击目标计算损失函数的梯度。
生成扰动:根据梯度信息(如 FGSM 取符号)和约束上限,计算出一个扰动向量。
施加扰动:将扰动加到原始图片上,得到对抗样本
x' = x + 扰动。裁剪:为确保
x'仍在有效的输入范围内(如图像像素值在 0 到 1 之间),会进行裁剪操作。验证:将
x'输入模型,查看攻击是否成功。