对抗性机器学习：含义、示例及其工作原理

图像视频识别：从内容审核到自动驾驶车辆和监控系统，许多人工智能应用都依赖于图像和视频识别算法。通过改变机器的输入并迫使其对内容进行错误分类，攻击者可以逃避任何依赖其对象识别功能的控制系统。对于自动驾驶汽车来说，这种操纵可能会导致道路事故。
垃圾邮件过滤：垃圾邮件发送者可以通过使用不同的结构、更多好词、更少坏词等优化垃圾邮件，成功绕过 AI 垃圾邮件检测系统。
恶意软件检测：同样有可能编写可以逃避恶意软件扫描程序检测的恶意计算机代码。
自然语言处理：通过使用对抗性机器学习对文本进行错误分类，攻击者可以操纵基于文本的推荐系统、假新闻检测器、情绪检测器等。
医疗保健：攻击者可以操纵医疗记录来改变患者的诊断或欺骗系统泄露敏感的医疗记录。
金融欺诈检测：用于金融欺诈检测的人工智能系统也面临着对抗性机器学习攻击的风险。例如，攻击者可以创建模仿合法交易的合成数据，从而可以在模型未检测到的情况下进行欺诈。
生物识别安全系统：通过使用被操纵的数据，攻击者可以击败指纹或面部检测安全系统，以获得对网络或平台的未经授权的访问。
对抗性防御： 虽然上述大多数用途都是用于攻击系统，但对抗性防御是对对抗性攻击的研究，用于创建针对机器攻击者的强大防御系统。

对抗性机器学习的后果

对抗性机器学习会产生影响人工智能系统可靠性或性能的后果。以下是主要的。

侵蚀信任：如果对抗性攻击不断增长并失控，将导致人工智能系统的信任受到侵蚀，因为公众会对任何基于机器学习的系统持怀疑态度。
伦理涵义：机器学习系统在医疗保健和刑事司法等领域的应用引发了道德问题，因为任何受损的人工智能系统都可能造成严重的个人和社会损害。
经济影响：对抗性攻击可能导致财务损失、安全成本增加、金融市场操纵，甚至声誉受损。
复杂性增加：对抗性攻击的威胁增加了机器学习系统的研究工作量和整体复杂性。
模型盗窃：人工智能模型本身可能会受到攻击，以探测和检索有关其架构的内部参数或信息，这些参数或信息可用于对系统进行更严重的攻击。

对抗性攻击的类型

对抗性机器学习攻击有不同类型，它们根据攻击者的目标以及他对系统的访问权限而有所不同。以下是主要类型。

逃避攻击：在逃避攻击中，对手修改输入以欺骗人工智能系统对其进行错误分类。这可能涉及向输入图像或其他数据添加难以察觉的扰动（或故意的噪声）以欺骗模型。
数据中毒攻击：数据中毒攻击发生在人工智能系统的训练阶段。通过将不良（或有毒）数据添加到机器的训练数据集中，模型的预测会变得不太准确，因此会受到损害。
模型提取攻击：在模型反转攻击中，攻击者利用从经过训练的 AI 模型中提取敏感信息的能力。通过操纵输入并观察模型的响应，他们可以重建私有数据，例如图像或文本。
转移攻击：这是指针对一个机器学习系统的攻击对另一个机器学习系统同样有效的能力。

如何防御对抗性攻击

您可以使用不同的防御机制来保护您的 AI 模型免受对抗性攻击。以下是一些最受欢迎的。

创建强大的系统：这涉及开发更能抵抗对抗性攻击的人工智能模型，包括测试和评估指南，以帮助开发人员识别可能导致对抗性攻击的系统缺陷。然后他们可以开发针对此类攻击的防御措施。
输入验证：另一种方法是检查 ML 模型的输入是否存在已知的漏洞。该模型可以被设计为拒绝输入，例如，包含已知会导致机器做出错误预测的修改的输入。
对抗性训练：您还可以在系统的训练数据中引入一些对抗性示例，以帮助模型将来学习检测和拒绝对抗性示例。
可解释的AI：理论上，开发人员和用户越了解人工智能模型的深层运作方式，人们就越容易提出针对攻击的防御措施。因此，机器学习和人工智能模型开发的可解释人工智能（XAI）方法可以解决很多问题。