Tegenaanvallen: Waarom Is Een Neuraal Netwerk Gemakkelijk Te Misleiden? - Alternatieve Mening

Inhoudsopgave:

Tegenaanvallen: Waarom Is Een Neuraal Netwerk Gemakkelijk Te Misleiden? - Alternatieve Mening
Tegenaanvallen: Waarom Is Een Neuraal Netwerk Gemakkelijk Te Misleiden? - Alternatieve Mening

Video: Tegenaanvallen: Waarom Is Een Neuraal Netwerk Gemakkelijk Te Misleiden? - Alternatieve Mening

Video: Tegenaanvallen: Waarom Is Een Neuraal Netwerk Gemakkelijk Te Misleiden? - Alternatieve Mening
Video: Neurale Netwerken 2024, Mei
Anonim

In de afgelopen jaren, naarmate deep learning-systemen steeds vaker voorkomen, hebben wetenschappers aangetoond hoe vijandige patronen alles kunnen beïnvloeden, van een eenvoudige beeldclassificatie tot kankerdiagnostische systemen - en zelfs een levensbedreigende situatie kunnen creëren. Ondanks al hun gevaar worden vijandige voorbeelden echter slecht begrepen. En wetenschappers maakten zich zorgen: kan dit probleem worden opgelost?

Wat is een vijandige aanval? Dit is een manier om een neuraal netwerk te misleiden om een onjuist resultaat te produceren. Ze worden voornamelijk gebruikt in wetenschappelijk onderzoek om de robuustheid van modellen te toetsen aan niet-standaard data. Maar in het echte leven kun je bijvoorbeeld een paar pixels in een panda-afbeelding wijzigen, zodat het neurale netwerk zeker weet dat de afbeelding een gibbon is. Hoewel wetenschappers alleen "ruis" aan het beeld toevoegen.

Tegenaanval: hoe mis je een neuraal netwerk?

Nieuw werk van het Massachusetts Institute of Technology wijst op een mogelijke manier om dit probleem op te lossen. Door het op te lossen, zouden we veel betrouwbaardere deep learning-modellen kunnen creëren die veel moeilijker zouden zijn om op kwaadaardige manieren te manipuleren. Maar laten we eerst eens kijken naar de basisprincipes van vijandige patronen.

Zoals u weet, komt de kracht van diep leren voort uit het superieure vermogen om patronen (patronen, patronen, diagrammen, patronen) in gegevens te herkennen. Voed het neurale netwerk tienduizenden getagde dierenfoto's, en het leert welke patronen geassocieerd zijn met een panda en welke geassocieerd zijn met een aap. Deze patronen kan ze vervolgens gebruiken om nieuwe afbeeldingen van dieren te herkennen die ze nog nooit eerder heeft gezien.

Maar deep learning-modellen zijn ook erg kwetsbaar. Omdat het beeldherkenningssysteem alleen vertrouwt op pixelpatronen en niet op een meer conceptueel begrip van wat het ziet, is het gemakkelijk om het te misleiden om iets heel anders te zien - simpelweg door de patronen op een bepaalde manier te doorbreken. Klassiek voorbeeld: voeg wat ruis toe aan een pandabeeld en het systeem classificeert het als een gibbon met bijna 100 procent zekerheid. Dit geluid zal de vijandige aanval zijn.

Image
Image

Promotie video:

Wetenschappers observeren dit fenomeen al enkele jaren, vooral in computer vision-systemen, zonder echt te weten hoe ze van dergelijke kwetsbaarheden af kunnen komen. Werk dat vorige week werd gepresenteerd op een grote conferentie over onderzoek naar kunstmatige intelligentie - ICLR - roept zelfs vraagtekens op bij de onvermijdelijkheid van vijandige aanvallen. Het lijkt misschien dat, ongeacht hoeveel pandabeelden je aan de beeldclassificatie toevoegt, er altijd een soort van verontwaardiging zal zijn waarmee je het systeem doorbreekt.

Maar nieuw werk van MIT toont aan dat we verkeerd dachten over vijandige aanvallen. In plaats van manieren te bedenken om meer van de kwaliteitsgegevens te verzamelen die het systeem voeden, moeten we onze manier van trainen fundamenteel heroverwegen.

Het werk laat dit zien door een nogal interessante eigenschap van vijandige voorbeelden te onthullen die ons helpen te begrijpen waarom ze effectief zijn. Wat is de truc: schijnbaar willekeurige ruis of stickers die het neurale netwerk verwarren, gebruiken in feite zeer puntige, subtiele patronen die het visualisatiesysteem heeft geleerd sterk te associëren met specifieke objecten. Met andere woorden, de machine crasht niet als we een gibbon zien waar we een panda zien. Ze ziet zelfs een regelmatige rangschikking van pixels, onzichtbaar voor mensen, die tijdens de training veel vaker op plaatjes met gibbons voorkwamen dan op plaatjes met panda's.

Wetenschappers hebben dit experimenteel aangetoond: ze creëerden een dataset van afbeeldingen van honden, die allemaal zo werden gewijzigd dat de standaardbeeldclassificator ze ten onrechte als katten identificeerde. Vervolgens tagden ze deze beelden met 'katten' en gebruikten ze om vanaf het begin een nieuw neuraal netwerk te trainen. Na de training lieten ze het neurale netwerk echte beelden van katten zien, en ze identificeerde ze allemaal correct als katten.

De onderzoekers veronderstelden dat er in elke dataset twee soorten correlaties zijn: patronen die daadwerkelijk correleren met de betekenis van de gegevens, zoals snorharen in kattenafbeeldingen of bontkleuring in pandabeelden, en patronen die in trainingsgegevens voorkomen maar niet worden gepropageerd. naar andere contexten. Deze laatste "misleidende" correlaties, laten we ze zo noemen, worden gebruikt bij vijandige aanvallen. Een herkenningssysteem, getraind om "misleidende" patronen te herkennen, vindt ze en denkt een aap te zien.

Dit vertelt ons dat als we het risico van een vijandige aanval willen elimineren, we de manier waarop we onze modellen trainen moeten veranderen. We staan momenteel het neurale netwerk toe om de correlaties te selecteren die het wil gebruiken om objecten in de afbeelding te identificeren. Als gevolg hiervan hebben we geen controle over de correlaties die het vindt, of ze nu echt of misleidend zijn. Als we in plaats daarvan onze modellen zouden trainen om alleen echte patronen te onthouden - die zijn gekoppeld aan betekenisvolle pixels - zou het in theorie mogelijk zijn om diepgaande leersystemen te produceren die niet kunnen worden verward.

Toen wetenschappers dit idee testten en alleen echte correlaties gebruikten om hun model te trainen, verminderden ze in feite de kwetsbaarheid ervan: het werd slechts 50% van de tijd gemanipuleerd, terwijl een model dat was getraind op echte en valse correlaties 95% van de tijd werd gemanipuleerd.

Kortom, je kunt je verdedigen tegen vijandige aanvallen. Maar we hebben meer onderzoek nodig om ze volledig te elimineren.

Ilya Khel

Aanbevolen: