深入 AI 风险 4 分钟

对抗攻击

人工智能模型的隐形挑战

概述

通过对输入做极小改动，就能骗过AI，让它做出完全错误的判断。

关键要点

关键点待补充

应用场景

应用场景待补充

常见误区

注意事项待补充

📚 简单定义

对抗攻击（Adversarial Attacks）是一种通过对输入数据进行精心设计的小幅度修改，诱导AI模型输出错误结果的技术。尽管这些修改对人类几乎无法察觉，但却能有效干扰AI的判断。

🌱 形象类比

想象一位学生在考试中故意将试题的关键字替换为相近的表述，比如将“历史”改为“过去的事件”。对人类阅卷老师来说，这两个词意思完全一样，不会影响打分。但对于一个只能精确匹配关键词的AI阅卷系统，这种微小的改动可能导致系统无法正确理解题目，从而给出错误的评分。这种利用系统漏洞的“巧妙干扰”正是对抗攻击的典型表现。

✨ 案例说明

2018年，研究人员在一张路标图片上添加了一些微小的噪声。对人类来说，这些路标依然清晰可辨为“STOP”（停止）。然而，AI模型却将其识别为“速度限制45”，这是对抗攻击在自动驾驶领域可能引发严重后果的经典示例。

🔑 关键特征

微小扰动：对抗攻击通过看似无害的微小修改，成功干扰模型输出。目标驱动：攻击者可以设计特定的扰动，诱导模型生成预期的错误结果。广泛适用：对抗攻击不仅针对图像，还适用于文本、语音等多模态数据。

🔧 工作原理（简化版）

1️⃣ 获取目标模型和输入数据
↓
2️⃣ 添加精心设计的对抗性噪声
↓
3️⃣ 将修改后的输入提交给模型
↓
4️⃣ 诱导模型输出错误结果

🔍 背后逻辑与工作机制

对抗攻击的核心在于找到AI模型的“盲点”并加以利用。

扰动生成：通过优化算法生成对抗性噪声，确保对人类不可见但能影响模型决策。
模型弱点：AI模型通常依赖高维特征对输入进行分类，而对抗性噪声正是针对这些特征空间的微妙扰动。
攻击结果：干扰输入后的输出往往是完全错误的分类或错误的推理结果。

🧩 相似概念对比

与模型幻觉：模型幻觉是AI生成不真实或错误的信息，而对抗攻击是外部人为操纵输入以诱导AI出错。与AI越狱：AI越狱是通过巧妙的提示操控模型行为，而对抗攻击则是通过对输入数据进行修改来实现干扰。