Attention Visualizer

AINTECH · Multi-head attention transformer

La atención calcula A = softmax(QKᵀ/√d)V. Cada cabeza aprende relaciones distintas: dependencias locales, sintácticas, semánticas. Los LLMs modernos usan hasta 128 cabezas en paralelo. Haz clic en una fila para ver la distribución de atención de ese token.

zorro

ágil

saltó

sobre

perro

perezoso

zorro

ágil

saltó

22%

54%

22%

sobre

perro

perezoso

“saltó” atiende a:

0.0%

zorro

1.5%

ágil

21.8%

saltó

53.5%

sobre

21.8%

1.5%

perro

0.0%

perezoso

0.0%

H1: Local

Cada token atiende principalmente a sus vecinos inmediatos. Captura dependencias locales de corto alcance.

· Clic en fila → selecciona token

· Negro→rojo→amarillo = 0→alta atención

· % = peso softmax normalizado

· GPT-4: 128 cabezas × 96 capas

· Claude: MHA con RoPE embeddings

· Llama 3: GQA (grouped query)