深入 AI 风险 4 分钟

模型偷窃

AI领域的“知识产权盗版”

概述

通过接口反复调用，把别人的模型能力“偷学”走。

模型偷窃（Model Stealing）是指攻击者通过大量查询模型API的输入和输出，从中推断出模型的行为特征，并训练出一个功能类似的“复制模型”，而无需直接访问原始模型的内部参数或训练数据。

想象你是一名厨师，有一道独特的招牌菜，某人通过反复试吃你的菜品，记录配料和味道，然后偷偷模仿制作出一模一样的菜肴。模型偷窃就是这样通过“试吃”模型输出来推断其内部工作机制。

✨ 案例说明

在2019年的一项研究中，安全专家通过向一个云端语言模型发送大量测试查询，成功复制了该模型的大部分功能。攻击者利用模型的输入与输出之间的关系重建了一个相似的模型，而原模型所有者完全不知情。这种行为表明，公开部署的AI服务可能面临知识产权被窃取的风险。

1️⃣ 攻击者访问目标模型
↓
2️⃣ 发起大量测试查询
↓
3️⃣ 收集输入与输出关系
↓
4️⃣ 使用这些数据训练出一个类似模型

模型偷窃主要利用了AI模型的“黑盒”特性：

查询构造：攻击者设计多种输入，探索模型输出规律。
数据收集：记录输入输出对，用于重建模型。
模型模仿：通过训练类似的架构，实现功能复制。
这种攻击手段针对的是模型的外部表现，而非直接获取其内部参数，因而具有更强的隐蔽性。

🧩 补充说明
1.Model Theft（模型窃取）和Model Stealing（模型偷窃）通常被视为同义词，均指未经授权复制或获取机器学习模型的行为。

这种行为可能涉及通过查询模型的API来推断其参数或架构，从而创建功能类似的副本。因此，这两个术语在AI安全领域中经常互换使用，均描述了对模型知识产权的非法获取行为。

然而，某些文献可能在特定上下文中对这两个术语进行细微区分。

例如，Model Theft有时用于描述通过直接访问模型文件或代码来获取模型的情况，而Model Stealing可能更侧重于通过黑箱方法（如API查询）推断模型功能的过程。

尽管如此，这种区分并未在业界广泛采用。

总的来说，Model Theft和Model Stealing在大多数情况下是可以互换使用的，均指未经授权的模型复制行为。

试吃策略：将模型偷窃比作通过试吃菜品来模仿菜谱的过程。