Adversarial Machine Learning: Význam, příklady a jak to funguje
Objevte svět nepřátelských útoků strojového učení a jejich dopad na systémy AI. Naučte se, jak mohou zneužít zranitelnosti a jak vybudovat správnou obranu.

Adversarial machine learning je odvětví strojového učení, které se zaměřuje na zranitelnost modelů strojového učení vůči různým útokům.
Kontraverzním vstupem je jakýkoli vstup strojového učení, jehož cílem je oklamat model tak, aby dělal špatné předpovědi nebo produkoval špatné výstupy.
Vzhledem k tomu, že nepřátelské útoky mohou mít vážné důsledky, a to i v oblasti bezpečnosti, podvodů a zdravotnictví, výzkumníci se zaměřují na objevování různých metod útoků a také na vývoj obranných mechanismů proti nim.
Tento příspěvek zkoumá nepřátelský svět strojového učení a obsahuje příklady, výzvy a způsoby, jak útočit a bránit modely umělé inteligence.
Co je Adversarial Machine Learning?
Adversarial machine learning studuje třídu útoků, které jsou zaměřeny na snížení výkonu klasifikátorů u konkrétních úkolů. Jinými slovy, jejich cílem je oklamat AI stroj.
S tím, jak se používání umělé inteligence a technik strojového učení rozšiřuje, zvyšuje se riziko nepřátelských útoků. To představuje významnou hrozbu pro různé aplikace využívající umělou inteligenci, včetně detekce spamu, osobních asistentů, počítačového vidění a tak dále.
Jak fungují nepřátelské útoky
Útok protivníka je jakýkoli proces navržený tak, aby oklamal model strojového učení, aby způsobil nesprávné předpovědi. To se může stát během školení, stejně jako v prostředí živého provádění. Jinými slovy, pokud dokážete přijít na způsob, jak model oklamat nebo sabotovat, pak jste na něj úspěšně zaútočili.
Co je příkladem protivníka?
Nepříznivým příkladem je jakýkoli speciálně navržený vstup pro model strojového učení, jehož cílem je způsobit, aby model udělal chybu nebo vytvořil nesprávný výstup.
Nepříznivý příklad můžete vytvořit tak, že provedete drobné změny ve vstupních datech, která sice nemusí být lidským okem viditelná, ale často stačí ke změně chápání modelu a vede jej k chybným výstupům.
Protichůdné příklady se používají ve fázích tréninku modelu umělé inteligence a provedené úpravy se obvykle generují pomocí různých optimalizačních technik, včetně metod založených na gradientu, jako je metoda rychlého přechodového znaménka (FGSM) Attack, která využívá citlivost modelu na změny ve vstupním prostoru.
Cílem s protichůdnými příklady je přidat do vstupních dat mírné odchylky, které mohou být pro lidské pozorovatele stěží viditelné, ale stále jsou dostatečně významné, aby vedly model k nesprávné klasifikaci vstupu.
K nepřátelským útokům může dojít v různých sektorech strojového učení, včetně rozpoznávání obrazu a zpracování přirozeného jazyka.
Aplikace Adversarial ML
Schopnost odhalit a využít slabá místa v jakékoli platformě umělé inteligence má široké využití, protože útočníka omezuje pouze jeho představivost. Zde jsou některé z mnoha způsobů, jak může hacker využít kompromitovaný stroj AI pomocí nepřátelských metod strojového učení.
- Rozpoznávání obrázků a videa: Od moderování obsahu po autonomní vozidla a sledovací systémy, mnoho aplikací umělé inteligence spoléhá na algoritmy pro rozpoznávání obrazu a videa. Změnou vstupu stroje a nucením k nesprávné klasifikaci věcí se útočník může vyhnout jakémukoli řídicímu systému, který spoléhá na jeho schopnosti rozpoznávání objektů. U autonomních vozidel může taková manipulace vést k dopravním nehodám.
- Filtrování spamu: Spammeři mohou úspěšně obejít systémy detekce spamu pomocí umělé inteligence optimalizací svých nevyžádaných e-mailů pomocí různých struktur, více dobrých slov, méně špatných slov a tak dále.
- Detekce malwaru: Stejně tak je možné vytvořit škodlivý počítačový kód, který se může vyhnout detekci malwarovými skenery.
- Zpracování přirozeného jazyka: Nesprávnou klasifikací textu pomocí strojového učení protivníka může útočník manipulovat se systémy doporučení založenými na textu, detektory falešných zpráv, detektory sentimentu a tak dále.
- Zdravotní péče: Útočníci mohou manipulovat se zdravotními záznamy, aby buď změnili pacientovu diagnózu, nebo oklamali systém, aby odhalil citlivé lékařské záznamy.
- Odhalování finančních podvodů: Systémy umělé inteligence používané při odhalování finančních podvodů jsou také ohroženy nepřátelskými útoky strojového učení. Útočník může například vytvořit syntetická data, která napodobují legitimní transakce, a tím umožňují provádět podvody, které model neodhalí.
- Biometrické bezpečnostní systémy: Použitím manipulovaných dat může útočník překonat bezpečnostní systémy detekce otisků prstů nebo obličeje a získat neoprávněný přístup k síti nebo platformě.
- Obrana protivníka: Zatímco většina z výše uvedených použití je pro útok na systém, adversariální obrana je studie o nepřátelských útocích pro použití při vytváření robustních obranných systémů proti útočníkům stroje.
Důsledky Adversarial ML
Nepříznivé strojové učení má důsledky, které mohou ovlivnit spolehlivost nebo výkon systémů AI. Zde jsou ty hlavní.
- Eroduje důvěru: Pokud by se útoky protivníka rozrostly a vymkly se kontrole, způsobí to narušení důvěry v systémy umělé inteligence, protože veřejnost bude sledovat jakýkoli systém založený na strojovém učení s mírou podezření.
- Etické důsledky: Aplikace systémů strojového učení v oblastech, jako je zdravotnictví a trestní soudnictví, vyvolává etické otázky, protože jakýkoli kompromitovaný systém umělé inteligence může způsobit vážné osobní a sociální škody.
- Ekonomické důsledky: Nepřátelské útoky mohou vést k finanční ztrátě, zvýšeným nákladům na zabezpečení, manipulaci s finančním trhem a dokonce k poškození pověsti.
- Zvýšená složitost: Hrozba nepřátelských útoků zvyšuje výzkumné úsilí a celkovou složitost systémů strojového učení.
- Krádež modelu: Samotný model umělé inteligence může být napaden za účelem prozkoumání a získání vnitřních parametrů nebo informací o jeho architektuře, které lze použít k vážnějšímu útoku na systém.
Typy nepřátelských útoků
Existují různé typy nepřátelských útoků strojového učení a liší se v závislosti na cílech útočníka a na tom, jaký má přístup k systému. Zde jsou hlavní typy.
- Únikové útoky: Při únikových útocích protivníci upravují vstupy, aby oklamali systém umělé inteligence, aby je špatně klasifikoval. To může zahrnovat přidání nepostřehnutelných poruch (nebo záměrného šumu) do vstupních obrázků nebo jiných dat, aby se model oklamal.
- Útoky otravy dat: K útokům otravy dat dochází během tréninkové fáze systému AI. Přidáním špatných (nebo otrávených) dat do trénovací datové sady stroje se model stává méně přesným ve svých předpovědích, a proto je kompromitován.
- Útoky extrakce modelu: Při modelových inverzních útocích využívají protivníci schopnost extrahovat citlivé informace z trénovaného modelu umělé inteligence. Manipulací se vstupy a sledováním reakcí modelu mohou rekonstruovat soukromá data, jako jsou obrázky nebo text.
- Přenosové útoky: To se týká schopnosti útoku proti jednomu systému strojového učení být stejně účinný proti jinému systému strojového učení.
Jak se bránit proti nepřátelským útokům
Existují různé obranné mechanismy, které můžete použít k ochraně svého modelu AI proti nepřátelským útokům. Zde jsou některé z nejoblíbenějších.
- Vytváření robustních systémů: To zahrnuje vývoj modelů umělé inteligence, které jsou odolnější vůči nepřátelským útokům, a to včetně testů a pokynů pro hodnocení, které vývojářům pomohou identifikovat systémové chyby, které by mohly vést k nepřátelským útokům. Mohou si pak vyvinout obranu proti takovým útokům.
- Ověření vstupu: Dalším přístupem je kontrola vstupů do modelu ML na již známá zranitelnost. Model by mohl být navržen tak, aby odmítal například vstupy, které obsahují modifikace, o kterých je známo, že způsobují, že stroje dělají špatné předpovědi.
- Adversarial Training: Do trénovacích dat svého systému můžete také zavést určité množství příkladů protivníka, abyste modelu pomohli naučit se v budoucnu odhalovat a odmítat příklady protivníka.
- Vysvětlitelná AI: Teoreticky, čím lépe vývojáři a uživatelé chápou, jak AI model funguje hluboko uvnitř, tím snazší pro lidi bude vymýšlet obranu proti útokům. Vysvětlitelný přístup AI (XAI) ke strojovému učení a vývoji modelu AI proto může vyřešit spoustu problémů.
Závěr
Útoky nepřátelského strojového učení představují významnou hrozbu pro spolehlivost a výkon systémů umělé inteligence. Avšak pochopením různých typů známých útoků a implementací obranných strategií, které jim zabrání, mohou vývojáři lépe chránit své modely AI před nepřátelskými útoky.
Konečně byste měli pochopit, že oblasti umělé inteligence a nepřátelského strojového učení stále rostou. Stále tedy mohou existovat další metody nepřátelského útoku, které se teprve stanou veřejně známými.
Zdroje
- https://en.wikipedia.org/wiki/Adversarial_machine_learning
- https://www.csoonline.com/article/573031/adversarial-machine-learning-explained-how-attackers-disrupt-ai-and-ml-systems.html
- https://medium.com/@durgeshpatel2372001/an-introduction-to-adversarial-machine-learning-820010645df9
- https://insights.sei.cmu.edu/blog/the-challenge-of-adversarial-machine-learning/
- https://viso.ai/deep-learning/adversarial-machine-learning/
- https://www.toptal.com/machine-learning/adversarial-machine-learning-tutorial





