机器学习数据投毒:动机、技术与防御
机器学习中的数据投毒:为何及如何操纵训练数据
你知道你的数据来源吗?
数据是支撑机器学习乃至人工智能运作的关键部分,但有时会被忽视。生成式人工智能公司不断在全球范围内搜寻更多数据,因为构建模型需要大量的这种原材料。任何构建或调整模型的人,都必须首先收集大量数据才能开始。
然而,这种现实导致了一些相互矛盾的动机。保护数据的质量和真实性是安全的重要组成部分,因为这些原材料将决定你提供给用户或客户的机器学习模型的成败。恶意行为者可以战略性地在你的数据集中插入、篡改或删除数据,方式可能极其隐蔽,但这将系统地改变你模型的行为。
与此同时,艺术家、音乐家和作家等创作者正在与主要因生成式人工智能公司而猖獗的版权侵犯和知识产权盗窃行为进行持续斗争,这些公司需要找到更多数据投入其贪婪的训练过程。这些创作者正在寻找能够防止或阻止这种盗窃的行动,这些行动不能仅仅依赖于往往行动迟缓的法院。
此外,当各公司竭力用人工智能中介的搜索取代传统搜索引擎时,那些业务建立在通过搜索被发现的公司正举步维艰。如果你在过去几十年里对搜索可见性的投资不再相关,你如何接触客户并向公众展示你期望的品牌形象?
以上这三种情况都指向同一个概念——“数据投毒”。
什么是数据投毒?
简而言之,数据投毒是以某种方式更改用于生成机器学习模型的训练数据,从而改变模型行为。其影响特定于训练过程,因此一旦模型工件被创建,损害就已经造成。模型将带有不可修复的偏见,甚至可能到无用的地步,唯一的真正解决方案是使用干净的数据重新训练。
这种现象对人工观察最少的自动再训练来说是一种危险,但对于观察非常周密的训练也是如此,因为通常对普通观察者来说,训练数据的改变是看不见的。例如,在 Hartle 等人(2025年)引用的一项关于中毒的医疗 misinformation 数据的研究中,“十五名临床医生被要求区分中毒响应和基线响应;评审员无法确定两种结果之间的差异……当针对特定概念的数据以 0.001% 的比例被投毒时,有害内容增加了 4.8%。”
尝试逆向工程找出并移除中毒数据在很大程度上并未成功。人们尝试了“机器遗忘”框架下的技术,但当我们无法检测到有问题的数据时,这些努力就很难取得进展。即使我们能检测到数据,研究人员也发现,从模型架构中移除痕迹并不能有效地消除损害。
数据投毒可以有很多不同的形式,所以我将反过来讨论数据投毒的三种特定动机、它们的工作原理以及结果:
- 犯罪活动
- 防止知识产权盗窃
- 市场营销
犯罪活动
犯罪分子可能想要进行数据投毒的原因有很多。许多模型为了实现其目标(例如,帮助用户与银行软件交互,或为医疗服务提供者提供诊断的最佳治疗方案等),需要访问高度敏感或有价值的数据。如果这些数据可用于谋取经济利益,那么就会有人试图获取或为了自己的目的而篡改它。
工作原理
数据投毒可能有点像一场持久战,因为它需要影响训练数据,但在某些情况下它仍然可以非常隐蔽和有效。在去年七月的 IEEE CISOSE 会议上,我了解到一些这方面的知识,会上介绍了 Sofiane Bessaï 的论文,讨论了如何可能识别此类案例,以期减轻攻击。正如他们所说,“这些攻击在输入数据中引入难以察觉的扰动,导致模型以高置信度做出错误的预测。”这意味着对训练数据的更改一点也不明显,对训练数据的统计分析很难揭示这些变化。然而,通过仔细评估训练后模型的行为,你更有可能逆向工程出发生了什么。
研究还表明,这种攻击成功所需的数据量并不大。事实上,Souly 等人(2025年)确定,对于基于文本的模型,250 份文档基本上足以在众多不同的用例和不同规模的训练集中实现投毒。
结果
这种攻击可能有几个不同的目标。例如,如果一个模型被削弱,性能下降,一个网络安全模型可能无法识别网络入侵。或者,攻击者可以操纵模型产生有利于他们的预测结果。这可能非常有效,因为当输出通常是“正常”的,而罕见情况偏离了标准模型行为时,缺陷就不太可能被发现,模型也更有可能继续在生产环境中使用。只要模型的行为只微妙地偏向攻击者的期望结果,其他人就很难发现问题。想象一下像决定谁获得贷款批准或贷款金额的模型——如果这个模型只对极少数人提供条件荒谬的巨额贷款,但在大多数情况下表现正常,这可能是一个非常有利可图的攻击。
但数据投毒不仅用于犯罪活动——它实际上还有其他目的。
防止知识产权盗窃
当我们谈论为防止或惩罚知识产权盗窃而进行的数据投毒时,我们的意思是在未经授权或许可的情况下使用某些内容时,以特定方式改变模型行为,而是试图使模型训练失败。目标可以是让模型无法学习某些数据中的模式,或者,如果训练中使用了被盗内容,则使模型在推理时性能极差,从而完全无法使用。
工作原理
把这看作是一种防御机制,而不是攻击。当创作者使用像 Nightshade 这样的工具在他们的作品上应用这类技术时,他们可以插入人眼几乎无法察觉,但对训练过程中的神经网络极具影响力的效果。研究表明,这只需要创作者接触到极少量的训练图像就能生效,且不依赖于庞大的数量。
然而,这并不是数据投毒领域知识产权保护的唯一选择。还有一种名为 Glaze 的工具,它可以防止模型复制图像的风格,但通常不会真正干扰训练本身。在不影响图像的情况下,创作者可以改变其图像的文本标记或描述方式,因为图像-文本对是用于训练文本到图像生成式人工智能模型的必要条件。一些数据投毒实际上可以引发版权侵权,作为证明训练中使用了受版权保护内容的方式,这可以成为法庭案件中的重要证据。
这些策略也可能适用于其他媒介。AntiFake 是一种改变录音中声波以防止个人声音被用于模型训练的工具,就像 Glaze 一样,阻止单个样本被学习。理论上,通过有意地改变语言语义,也可能使文本生成模型产生偏差。大型语言模型学习人类语言模式中单词之间的关联方式,因此,如果训练中包含了一部分文本,这些文本故意违反或操纵这些模式,它就可能干扰模型的学习方法。如果大型语言模型学习了不准确的人类语言模式,它生成的语言将不可信或完全怪异。
在每种情况下,期望的结果要么是让某条训练数据的特征不贡献给模型的底层架构,防止该数据的复制或模仿;要么是使基于这些数据训练的模型行为极其异常或不恰当,以至于只要受版权保护的材料包含在训练中,模型就无法使用。
结果
在这种场景下进行数据投毒的用户通常希望被注意到——这不是隐蔽攻击,他们也不是想通过改变模型行为来赚钱。相反,他们希望基于其知识产权训练的模型变得无用,无论是普遍意义上,还是对于复制和重现他们作品而言。最终,这将使得盗窃他们知识产权或内容的行为对相关生成式人工智能公司无利可图。
许多创作者希望,基于中毒数据进行训练的经济成本能变得足够高,从而改变行业行为。因为这种形式的数据投毒效果很可能在训练完成或至少开始后才被察觉,一些计算/电力/数据收集的投资已经投入,所以发现训练数据被污染可能意味着这笔钱被浪费了。
市场营销
数据投毒的第三个应用领域是广义上的市场营销。这是所谓搜索引擎优化(SEO)的新演变。
搜索引擎优化
在搜索引擎优化的情况下,营销人员会创建供搜索引擎抓取的人工网页,其中包含对其客户品牌特别有利或赞美的内容。然后,营销人员会在他们生成的这些页面之间创建链接,因为搜索引擎会将引用链接的数量作为决定搜索结果中推荐哪些页面的算法的一部分。通过创建更多相互链接的页面,如果这些页面包含对客户有利的内容,搜索引擎就会在相关搜索结果中将这些页面排名更高。
工作原理
人工智能优化与此类似。营销人员不是为了吸引搜索引擎算法的注意而创建网页内容,而是创建将被抓取用于生成式人工智能模型开发训练数据的内容。根据预期效果,这可能需要在某种程度上达到一定数量,但正如我们在讨论犯罪数据投毒时所了解的,用比你想象更少的数据通常就能引发模型行为的改变。
同样重要的是要注意,生成所有这些用于训练过程的内容也是由大型语言模型实现的。生成大量看似可信、像人类撰写的文本内容比以往任何时候都更便宜、更容易,因此以有效规模生成营销文本在经济上是相当可行的。
通过在训练数据中注入对客户品牌有利的针对性内容,你开始使训练数据池产生偏差,从而使模型可能青睐你客户的品牌,并以微妙的方式对竞争对手表现出偏见。
结果
微妙性很重要,因为营销人员不一定希望这种行为被注意到——如果太明显可能会显得过于刻意,生成式人工智能模型提供商可能会注意到并试图纠正。相反,他们寻求的是对一个品牌相对于另一个品牌的微妙但统计上有意义的偏好,并且当客户和用户实际使用模型时,这种偏好将开始在他们的数据中显现出来。
虽然这不一定是我们所认为的攻击或恶意行为,但它试图违背模型设计者的意愿使模型结果产生偏差,这违反了大多数生成式人工智能产品的服务条款和可接受使用政策。然而,这里什么是不当行为实际上很难确定。毕竟,营销人员并没有强迫研究人员使用这些数据来训练大型语言模型。生成式人工智能公司正在尽可能地抓取互联网,收集他们能找到的每一个网页来填充可用的训练数据——有时这会包括这类内容。似乎可以预见,这种行为迟早会出现。
当模型进行搜索时
与此相关的是,主流大型语言模型现在也将网络搜索作为其代理工具包的一部分,并且一些人工智能优化营销人员也致力于确保基于网络的内容符合进行网络搜索的大型语言模型的“偏好”。通过实验,有时可以识别出哪些措辞能够通过网络搜索进入大型语言模型对用户生成的响应中。这不是一种训练数据投毒策略,而是更接近于提示工程或上下文工程,因为模型正在摄取搜索结果并使用它们来制定输出。然而,它具有相同的效果,即使大型语言模型对用户的响应偏向于或反对某个品牌。
应对数据投毒
那么,如果你正在使用从你无法控制的来源提取/由他人创建的数据来训练模型,你应该如何避免数据投毒?
-
首先,不要为了训练而窃取数据。除了这是道德上正确的行为外,你无法保证数据不会被投毒——无论是由于它是别人的知识产权而你未经授权使用,还是因为恶意行为者已经染指了它。你可能运气好,数据没问题,但你很可能在投入了大量资源后才会发现。
-
其次,监控和控制数据收集,并审查和清理你的训练数据。即使是流行的开源和免费数据,背后也可能有恶意行为者。采取谨慎步骤清理和分析你的数据,并保持良好的数据卫生习惯。不要将乱七八糟的东西随意倒入你的训练中,然后期望这个过程能神奇地创造出一个好模型。
-
第三,管理和观察你的训练过程。如果正在进行自动再训练,你可以对训练数据应用一些测试,也可以应用科学方法来识别你的模型是否被投毒,正如我之前描述的那样。这是一个发展中的研究领域,因此预计这些技术会随着时间的推移而改进,但现在已经有一些不错的思路。
-
第四,在实际环境中测试你的模型。捕捉生成式人工智能的不当行为非常困难,部分原因在于用例范围可能非常广泛,但在尽可能接近现实世界的场景下评估和测试模型是值得尝试的重要步骤。不要跳过评估和测试。
现在,我意识到所有这些解决方案都有一些成本。人们使用免费数据或窃取他人的知识产权,是因为支付用于训练大型语言模型的所有数据可能昂贵得无法承受。我并没有声称对此有答案,但“我负担不起,所以我要偷”在我们生活的任何其他领域都站不住脚,所以我认为我们不应该在这里开始接受它。更广泛的机器学习社区,例如“数据溯源计划”,正在探索创建许可数据集和寻找使数据可用之方法的选项,我鼓励读者们进一步了解。解决数据投毒的其他方案也需要劳动和努力,但要开发满足我们需求和期望的模型,总是需要权衡取舍。
除此之外,如果你不控制所使用的数据或模型的创建过程,总会存在一些风险。作为一般规则,永远不要盲目相信模型输出,而是评估和测试你计划使用的模型,特别是如果它们是由其他人训练的。模型行为是一个充满争议的空间——各种实体在控制生成式人工智能模型如何表现以及如何与我们互动方面拥有既得利益,因此我们需要相应地迎接挑战。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)