对抗性机器学习:含义、示例及其工作原理

探索对抗性机器学习攻击的世界及其对人工智能系统的影响。 了解他们如何利用漏洞以及如何构建正确的防御。

对抗性机器学习是机器学习的一个分支,专注于机器学习模型对各种攻击的脆弱性。

对抗性输入是任何旨在欺骗模型做出错误预测或产生错误输出的机器学习输入。

由于对抗性攻击可能会产生严重后果,包括在安全、欺诈和医疗保健领域,因此研究人员专注于发现不同的攻击方法,并开发针对这些攻击的防御机制。

这篇文章探讨了对抗性机器学习世界,包括示例、挑战以及攻击和防御人工智能模型的方法。

什么是对抗性机器学习?

对抗性机器学习研究一类旨在降低分类器在特定任务上的性能的攻击。 换句话说,他们的目的是愚弄人工智能机器。

随着人工智能和机器学习技术的使用变得更加广泛,对抗性攻击的风险也在增加。 这对各种人工智能应用程序构成了重大威胁,包括垃圾邮件检测、个人助理、计算机视觉等。

对抗性攻击如何运作

对抗性攻击是任何旨在欺骗机器学习模型导致错误预测的过程。 这可能发生在训练期间以及实时执行环境中。 换句话说,如果你能找到一种方法来愚弄或破坏模型,那么你就成功地攻击了它。

什么是对抗性例子?

对抗性示例是为机器学习模型专门设计的输入,旨在导致模型出错或产生不正确的输出。

您可以通过对输入数据进行轻微更改来创建对抗性示例,虽然人眼可能看不到这些更改,但通常足以改变模型的理解并导致其产生错误的输出。

对抗性示例用于 AI 模型的训练阶段,所做的修改通常是使用各种优化技术生成的,包括基于梯度的方法,例如快速梯度符号方法 (FGSM) 攻击,该方法利用模型对变化的敏感性输入空间。

对抗性示例的目标是向输入数据添加轻微的扰动,这些扰动对于人类观察者来说可能几乎看不见,但仍然足以导致模型对输入进行错误分类。

对抗性攻击可能发生在不同的机器学习领域,包括图像识别和自然语言处理。

对抗性机器学习的应用

检测和利用任何人工智能平台的弱点的能力具有广泛的用途,因为攻击者仅受其想象力的限制。 以下是黑客利用对抗性机器学习方法利用受感染人工智能机器的多种方法中的一些。

  • 图像视频识别:从内容审核到自动驾驶车辆和监控系统,许多人工智能应用都依赖于图像和视频识别算法。 通过改变机器的输入并迫使其对内容进行错误分类,攻击者可以逃避任何依赖其对象识别功能的控制系统。 对于自动驾驶汽车来说,这种操纵可能会导致道路事故。
  • 垃圾邮件过滤:垃圾邮件发送者可以通过使用不同的结构、更多好词、更少坏词等优化垃圾邮件,成功绕过 AI 垃圾邮件检测系统。
  • 恶意软件检测:同样有可能编写可以逃避恶意软件扫描程序检测的恶意计算机代码。
  • 自然语言处理:通过使用对抗性机器学习对文本进行错误分类,攻击者可以操纵基于文本的推荐系统、假新闻检测器、情绪检测器等。
  • 医疗保健:攻击者可以操纵医疗记录来改变患者的诊断或欺骗系统泄露敏感的医疗记录。
  • 金融欺诈检测:用于金融欺诈检测的人工智能系统也面临着对抗性机器学习攻击的风险。 例如,攻击者可以创建模仿合法交易的合成数据,从而可以在模型未检测到的情况下进行欺诈。
  • 生物识别安全系统:通过使用被操纵的数据,攻击者可以击败指纹或面部检测安全系统,以获得对网络或平台的未经授权的访问。
  • 对抗性防御: 虽然上述大多数用途都是用于攻击系统,但对抗性防御是对对抗性攻击的研究,用于创建针对机器攻击者的强大防御系统。

对抗性机器学习的后果

对抗性机器学习会产生影响人工智能系统可靠性或性能的后果。 以下是主要的。

  • 侵蚀信任:如果对抗性攻击不断增长并失控,将导致人工智能系统的信任受到侵蚀,因为公众会对任何基于机器学习的系统持怀疑态度。
  • 伦理涵义:机器学习系统在医疗保健和刑事司法等领域的应用引发了道德问题,因为任何受损的人工智能系统都可能造成严重的个人和社会损害。
  • 经济影响:对抗性攻击可能导致财务损失、安全成本增加、金融市场操纵,甚至声誉受损。
  • 复杂性增加:对抗性攻击的威胁增加了机器学习系统的研究工作量和整体复杂性。
  • 模型盗窃:人工智能模型本身可能会受到攻击,以探测和检索有关其架构的内部参数或信息,这些参数或信息可用于对系统进行更严重的攻击。

对抗性攻击的类型

对抗性机器学习攻击有不同类型,它们根据攻击者的目标以及他对系统的访问权限而有所不同。 以下是主要类型。

  • 逃避攻击:在逃避攻击中,对手修改输入以欺骗人工智能系统对其进行错误分类。 这可能涉及向输入图像或其他数据添加难以察觉的扰动(或故意的噪声)以欺骗模型。
  • 数据中毒攻击:数据中毒攻击发生在人工智能系统的训练阶段。 通过将不良(或有毒)数据添加到机器的训练数据集中,模型的预测会变得不太准确,因此会受到损害。
  • 模型提取攻击:在模型反转攻击中,攻击者利用从经过训练的 AI 模型中提取敏感信息的能力。 通过操纵输入并观察模型的响应,他们可以重建私有数据,例如图像或文本。
  • 转移攻击:这是指针对一个机器学习系统的攻击对另一个机器学习系统同样有效的能力。

如何防御对抗性攻击

您可以使用不同的防御机制来保护您的 AI 模型免受对抗性攻击。 以下是一些最受欢迎的。

  • 创建强大的系统:这涉及开发更能抵抗对抗性攻击的人工智能模型,包括测试和评估指南,以帮助开发人员识别可能导致对抗性攻击的系统缺陷。 然后他们可以开发针对此类攻击的防御措施。
  • 输入验证:另一种方法是检查 ML 模型的输入是否存在已知的漏洞。 该模型可以被设计为拒绝输入,例如,包含已知会导致机器做出错误预测的修改的输入。
  • 对抗性训练:您还可以在系统的训练数据中引入一些对抗性示例,以帮助模型将来学习检测和拒绝对抗性示例。
  • 可解释的AI:理论上,开发人员和用户越了解人工智能模型的深层运作方式,人们就越容易提出针对攻击的防御措施。 因此,机器学习和人工智能模型开发的可解释人工智能(XAI)方法可以解决很多问题。

结语

对抗性机器学习攻击对人工智能系统的可靠性和性能构成重大威胁。 然而,通过了解不同类型的众所周知的攻击并实施防御策略来防止这些攻击,开发人员可以更好地保护他们的人工智能模型免受对抗性攻击。

最后,您应该了解人工智能和对抗性机器学习领域仍在增长。 因此,可能仍然存在其他尚未为公众所知的对抗性攻击方法。

资源中心

  1. https://en.wikipedia.org/wiki/Adversarial_machine_learning
  2. https://www.csoonline.com/article/573031/adversarial-machine-learning-explained-how-attackers-disrupt-ai-and-ml-systems.html
  3. https://medium.com/@durgeshpatel2372001/an-introduction-to-adversarial-machine-learning-820010645df9
  4. https://insights.sei.cmu.edu/blog/the-challenge-of-adversarial-machine-learning/
  5. https://viso.ai/deep-learning/adversarial-machine-learning/
  6. https://www.toptal.com/machine-learning/adversarial-machine-learning-tutorial
纳姆迪·奥克克

纳姆迪·奥克克

Nnamdi Okeke 是一位喜欢阅读各种书籍的计算机爱好者。 他偏爱 Linux 而不是 Windows/Mac,并且一直在使用
Ubuntu 从早期开始。 你可以在推特上通过 邦戈特拉克斯

文章:298

接收技术人员的东西

每月一次或两次技术趋势、创业趋势、评论、在线收入、网络工具和营销