深入 AI 风险 4 分钟

数据中毒

AI学习过程中的“污染危机”

概述

有人故意往训练数据里掺假，导致AI学到错误甚至危险的行为。

数据中毒（Data Poisoning）是指恶意篡改或注入伪造数据到模型的训练集，导致模型在学习过程中被“误导”，从而影响其预测准确性或行为表现。这种攻击方式直接针对AI模型的“知识来源”，是数据安全领域的一大挑战。

想象一个学生准备考试，但有人偷偷往他的复习材料中夹杂错误答案。这名学生在考试中表现可能会异常，因为他对错误信息深信不疑。这就像AI模型在训练时被“毒化数据”误导，最终导致判断失误。

✨ 案例说明

在一次AI模型训练中，研究人员故意在猫的图片标签中插入错误信息，将部分猫图片标注为“狗”。训练后的模型在识别猫时，可能错误地将其分类为狗。这种“数据中毒”不仅降低了模型的准确性，还可能造成实际应用中的严重问题，例如医疗诊断或自动驾驶的错误决策。

训练数据篡改：攻击者通过修改数据集中的标签或内容，对模型造成误导。长期影响：中毒数据对模型的影响可能贯穿整个生命周期，难以彻底消除。隐蔽性：中毒数据通常隐藏在大规模数据集中，难以被发现。

1️⃣ 数据注入：攻击者在训练数据中插入恶意样本
↓
2️⃣ 模型训练：AI模型在“毒化数据”中学习错误信息
↓
3️⃣ 行为异常：模型在应用时产生错误预测或异常行为

数据中毒的攻击目标是模型的训练过程，通过精心设计的伪造数据，操纵模型的学习路径：

输入伪造数据：将错误信息注入训练数据集，例如错误标签或伪造样本。
影响学习过程：模型在学习过程中吸收伪造数据中的错误特征。
误导预测结果：中毒后的模型可能在特定任务中表现异常，甚至按照攻击者的意图输出特定结果。

被污染的教材：将数据中毒比作学生复习时误用含错误信息的教材，导致考试失误。

与对抗攻击（Adversarial Attacks）：对抗攻击在模型应用阶段通过修改输入数据迷惑模型，而数据中毒则是在训练阶段影响模型学习过程。与数据偏差（Data Bias）：数据偏差通常是无意中引入的错误，数据中毒则是恶意行为，刻意破坏模型性能。