Lab

Adversarial Lab

AINTECH · Ejemplos adversariales FGSM

FGSM (Fast Gradient Sign Method) agrega ε·sign(∇ₓL) a la imagen: perturbaciones imperceptibles que engañan al clasificador. El mismo principio que derrota redes neuronales profundas con cambios invisibles al ojo humano. Eje central del ML robusto.

OriginalCruz ✓ 4.701
Perturbado (ε=0.00)Cruz ✓ 4.701
Gradiente — dirección del ataque
-
-
-
+
+
+
+
-
-
-
-
-
-
+
+
+
+
-
-
-
-
-
-
-
+
+
-
-
-
-
+
+
-
-
-
-
-
-
+
+
+
+
+
-
-
-
-
+
+
+
+
+
+
-
-
-
-
+
+
+
+
+
-
-
-
-
-
-
+
+
-
-
-
-
+
+
-
-
-
-
-
-
-
+
+
+
+
-
-
-
-
-
-
+
+
+
+
-
-
-
Cian=+grad · Rosa=−grad · FGSM resta en dirección + para reducir score de Cruz
Epsilon (ε)0.00
Score del clasificador
Original4.7009
Perturbado4.7009
Clasificación correcta
score = Σ(pixel · w_i)
score ≥ 0 → Cruz | score < 0 → Equis
Perturbación: x -= ε · sign(w)
ε crítico ≈ 0.15–0.25
Misma lógica en ResNet/ViT con
perturbaciones ε/255 invisibles