Adversarial Lab

AINTECH · Ejemplos adversariales FGSM

FGSM (Fast Gradient Sign Method) agrega ε·sign(∇ₓL) a la imagen: perturbaciones imperceptibles que engañan al clasificador. El mismo principio que derrota redes neuronales profundas con cambios invisibles al ojo humano. Eje central del ML robusto.

OriginalCruz ✓ 4.701

Perturbado (ε=0.00)Cruz ✓ 4.701

Gradiente — dirección del ataque

Cian=+grad · Rosa=−grad · FGSM resta en dirección + para reducir score de Cruz

Epsilon (ε)0.00

Score del clasificador

Original4.7009

Perturbado4.7009

Clasificación correcta

score = Σ(pixel · w_i)

score ≥ 0 → Cruz | score < 0 → Equis

Perturbación: x -= ε · sign(w)

ε crítico ≈ 0.15–0.25

Misma lógica en ResNet/ViT con

perturbaciones ε/255 invisibles