Tegenstrijdig machinaal leren: betekenis, voorbeelden en hoe het werkt
Adversarial Machine Learning is een tak van machine learning die zich richt op de kwetsbaarheden van machine learning-modellen voor verschillende aanvallen.
Een vijandige input is elke machine learning-input die tot doel heeft het model voor de gek te houden zodat het de verkeerde voorspellingen doet of de verkeerde output produceert.
Omdat vijandige aanvallen ernstige gevolgen kunnen hebben, ook in de veiligheidIn de sectoren fraude, fraude en gezondheidszorg richten onderzoekers zich op het ontdekken van verschillende aanvalsmethoden, en op het ontwikkelen van verdedigingsmechanismen hiertegen.
Dit bericht verkent de vijandige wereld van machine learning en bevat voorbeelden, uitdagingen en manieren om aan te vallen en te verdedigen AI modellen.
Wat is vijandige machine learning?
Adversarial Machine Learning bestudeert een klasse aanvallen die gericht zijn op het verminderen van de prestaties van classificaties voor specifieke taken. Met andere woorden, ze zijn erop gericht de AI-machine voor de gek te houden.
Naarmate het gebruik van kunstmatige intelligentie en machine learning-technieken wijdverbreider wordt, neemt het risico op vijandige aanvallen toe. Dit vormt een aanzienlijke bedreiging voor verschillende AI-aangedreven toepassingen, waaronder spamdetectie, persoonlijke assistenten, computervisie, enzovoort.
Hoe vijandige aanvallen werken
Een vijandige aanval is elk proces dat is ontworpen om een machine learning-model voor de gek te houden en zo verkeerde voorspellingen te veroorzaken. Dit kan gebeuren tijdens de training, maar ook in een live uitvoeringsomgeving. Met andere woorden: als je een manier kunt bedenken om het model voor de gek te houden of te saboteren, dan heb je het met succes aangevallen.
Wat is een vijandig voorbeeld?
Een vijandig voorbeeld is elke speciaal ontworpen invoer voor een machine learning-model die tot doel heeft ervoor te zorgen dat het model een fout maakt of een onjuiste uitvoer produceert.
U kunt een vijandig voorbeeld creëren door kleine wijzigingen aan te brengen in de invoergegevens, die weliswaar niet zichtbaar zijn voor het menselijk oog, maar vaak voldoende zijn om het begrip van het model te veranderen en ertoe te leiden dat het foutieve resultaten oplevert.
Er worden vijandige voorbeelden gebruikt in de trainingsfasen van een AI-model en de aangebrachte wijzigingen worden doorgaans gegenereerd met behulp van verschillende optimalisatietechnieken, waaronder op gradiënt gebaseerde methoden zoals de Fast Gradient Sign Method (FGSM) Attack, die gebruik maakt van de gevoeligheid van het model voor veranderingen in de invoerruimte.
Het doel van vijandige voorbeelden is om kleine verstoringen aan de invoergegevens toe te voegen die misschien nauwelijks zichtbaar zijn voor menselijke waarnemers, maar nog steeds significant genoeg zijn om het model ertoe te brengen de invoer verkeerd te classificeren.
Vijandige aanvallen kunnen plaatsvinden in verschillende machine learning-sectoren, waaronder beeldherkenning en natuurlijke taalverwerking.
Toepassingen van Adversarial ML
Het vermogen om zwakheden in elk kunstmatige-intelligentieplatform te detecteren en te exploiteren heeft een breed scala aan toepassingen, omdat de aanvaller alleen wordt beperkt door zijn verbeeldingskracht. Hier zijn enkele van de vele manieren waarop a hacker kunnen een gecompromitteerde AI-machine benutten met behulp van vijandige machine learning-methoden.
- Beeld- en videoherkenning: Van contentmoderatie tot autonome voertuigen en bewakingssystemen: veel toepassingen van kunstmatige intelligentie zijn afhankelijk van algoritmen voor beeld- en videoherkenning. Door de invoer van de machine te veranderen en deze te dwingen zaken verkeerd te classificeren, kan een aanvaller alle besturingssystemen ontwijken die afhankelijk zijn van de objectherkenningsmogelijkheden. Bij autonome voertuigen kan een dergelijke manipulatie leiden tot verkeersongevallen.
- Spamfilters: Spammers kunnen AI-spamdetectiesystemen met succes omzeilen door hun spam-e-mails te optimaliseren met verschillende structuren, meer goede woorden, minder slechte woorden, enzovoort.
- Malwaredetectie: Het is ook mogelijk om kwaadaardige computercode te maken die detectie door malwarescanners kan omzeilen.
- Natural Language Processing: Door tekst verkeerd te classificeren met behulp van vijandige machine learning, kan de aanvaller op tekst gebaseerde aanbevelingssystemen, nepnieuwsdetectoren, sentimentdetectoren, enzovoort manipuleren.
- Gezondheidszorg: Aanvallers kunnen medische dossiers manipuleren om de diagnose van een patiënt te wijzigen of om het systeem te misleiden zodat gevoelige medische dossiers openbaar worden gemaakt.
- Detectie van financiële fraude: AI-systemen die worden gebruikt bij de detectie van financiële fraude lopen ook het risico door vijandige machine learning-aanvallen. Een aanvaller kan bijvoorbeeld synthetische gegevens creëren die legitieme transacties nabootsen, waardoor het mogelijk wordt fraude te plegen die niet door het model wordt opgemerkt.
- Biometrische beveiligingssystemen: Door gebruik te maken van gemanipuleerde gegevens kan een aanvaller vingerafdruk- of gezichtsdetectiebeveiligingssystemen verslaan om ongeoorloofde toegang tot een netwerk of platform te verkrijgen.
- Tegengestelde verdediging: Hoewel de meeste van de voorgaande toepassingen bedoeld zijn voor het aanvallen van een systeem, is vijandige verdediging de studie van vijandige aanvallen voor gebruik bij het creëren van robuuste verdedigingssystemen tegen aanvallers van de machine.
Gevolgen van vijandige ML
Tegenstrijdig machinaal leren heeft consequenties die van invloed kunnen zijn op de betrouwbaarheid of prestaties van AI-systemen. Dit zijn de belangrijkste.
- Erodeert vertrouwenAls het aantal vijandige aanvallen toeneemt en uit de hand loopt, zal dit leiden tot een erosie van het vertrouwen in AI-systemen, omdat het publiek elk op machine learning gebaseerd systeem met enige argwaan zal gaan bekijken.
- Ethische implicaties: De toepassing van machine learning-systemen op domeinen als de gezondheidszorg en het strafrecht roept ethische vragen op, aangezien elk gecompromitteerd AI-systeem ernstige persoonlijke en sociale schade kan veroorzaken.
- Economische implicaties: Vijandige aanvallen kunnen leiden tot financiële verliezen, hogere beveiligingskosten, manipulatie van de financiële markten en zelfs reputatieschade.
- Verhoogde complexiteit: De dreiging van vijandige aanvallen verhoogt de onderzoeksinspanning en de algehele complexiteit van machine learning-systemen.
- Modeldiefstal: Een AI-model zelf kan worden aangevallen om interne parameters of informatie over de architectuur ervan op te sporen en op te halen, die kan worden gebruikt voor een serieuzere aanval op het systeem.
Soorten vijandige aanvallen
Er zijn verschillende soorten vijandige machine learning-aanvallen, en deze variëren afhankelijk van de doelen van de aanvaller en de mate waarin hij toegang heeft tot het systeem. Dit zijn de belangrijkste typen.
- Ontwijkingsaanvallen: Bij ontwijkingsaanvallen passen tegenstanders de invoer aan om het AI-systeem te misleiden zodat deze verkeerd wordt geclassificeerd. Dit kan het toevoegen van onmerkbare verstoringen (of opzettelijke ruis) inhouden, om afbeeldingen of andere gegevens in te voeren om het model te misleiden.
- Gegevensvergiftigingsaanvallen: Gegevensvergiftigingsaanvallen vinden plaats tijdens de trainingsfase van een AI-systeem. Door slechte (of vergiftigde) gegevens toe te voegen aan de trainingsdataset van de machine, wordt het model minder nauwkeurig in zijn voorspellingen en komt het daardoor in gevaar.
- Modelextractie-aanvallen: Bij modelinversieaanvallen maken tegenstanders misbruik van de mogelijkheid om gevoelige informatie uit een getraind AI-model te halen. Door invoer te manipuleren en de reacties van het model te observeren, kunnen ze privégegevens, zoals afbeeldingen of tekst, reconstrueren.
- Overdrachtsaanvallen: Dit verwijst naar het vermogen van een aanval op het ene machine learning-systeem om even effectief te zijn tegen een ander machine learning-systeem.
Hoe u zich kunt verdedigen tegen vijandige aanvallen
Er zijn verschillende verdedigingsmechanismen die u kunt gebruiken om uw AI-model te beschermen tegen vijandige aanvallen. Hier zijn enkele van de meest populaire.
- Robuuste systemen creëren: Dit omvat de ontwikkeling van AI-modellen die beter bestand zijn tegen vijandige aanvallen door tests en evaluatierichtlijnen op te nemen om de ontwikkelaars te helpen systeemfouten te identificeren die tot vijandige aanvallen kunnen leiden. Ze kunnen dan verdedigingsmechanismen tegen dergelijke aanvallen ontwikkelen.
- Ingangsvalidatie: Een andere aanpak is om de invoer van een ML-model te controleren op reeds bekende kwetsbaarheden. Het model zou bijvoorbeeld ontworpen kunnen worden om invoer te weigeren die wijzigingen bevat waarvan bekend is dat ze ervoor zorgen dat machines verkeerde voorspellingen doen.
- Tegenstrijdige training: U kunt ook een aantal vijandige voorbeelden in de trainingsgegevens van uw systeem opnemen om het model te helpen vijandige voorbeelden in de toekomst te leren detecteren en afwijzen.
- Uitleg over AI: Theoretisch geldt dat hoe beter ontwikkelaars en gebruikers begrijpen hoe een AI-model diep van binnen functioneert, hoe gemakkelijker het voor mensen zal zijn om verdedigingen tegen aanvallen te bedenken. Daarom kan een verklaarbare AI (XAI)-benadering van machine learning en de ontwikkeling van AI-modellen veel problemen oplossen.
Conclusie
Vijandige machine learning-aanvallen vormen een aanzienlijke bedreiging voor de betrouwbaarheid en prestaties van kunstmatige-intelligentiesystemen. Door de verschillende soorten bekende aanvallen te begrijpen en verdedigingsstrategieën te implementeren om deze te voorkomen, kunnen ontwikkelaars hun AI-modellen echter beter beschermen tegen vijandige aanvallen.
Ten slotte moet u begrijpen dat de gebieden van AI en vijandig machinaal leren nog steeds groeien. Er kunnen dus nog andere vijandige aanvalsmethoden bestaan die nog niet algemeen bekend zijn geworden.
Middelen
- https://en.wikipedia.org/wiki/Adversarial_machine_learning
- https://www.csoonline.com/article/573031/adversarial-machine-learning-explained-how-attackers-disrupt-ai-and-ml-systems.html
- https://medium.com/@durgeshpatel2372001/an-introduction-to-adversarial-machine-learning-820010645df9
- https://insights.sei.cmu.edu/blog/the-challenge-of-adversarial-machine-learning/
- https://viso.ai/deep-learning/adversarial-machine-learning/
- https://www.toptal.com/machine-learning/adversarial-machine-learning-tutorial