Lab
Attention Visualizer
AINTECH · Multi-head attention transformer
La atención calcula A = softmax(QKᵀ/√d)V. Cada cabeza aprende relaciones distintas: dependencias locales, sintácticas, semánticas. Los LLMs modernos usan hasta 128 cabezas en paralelo. Haz clic en una fila para ver la distribución de atención de ese token.
El
zorro
ágil
saltó
sobre
el
perro
perezoso
El
zorro
ágil
saltó
0%
1%
22%
54%
22%
1%
0%
0%
sobre
el
perro
perezoso
“saltó” atiende a:
El
0.0%
zorro
1.5%
ágil
21.8%
saltó
53.5%
sobre
21.8%
el
1.5%
perro
0.0%
perezoso
0.0%
H1: Local
Cada token atiende principalmente a sus vecinos inmediatos. Captura dependencias locales de corto alcance.
· Clic en fila → selecciona token
· Negro→rojo→amarillo = 0→alta atención
· % = peso softmax normalizado
· GPT-4: 128 cabezas × 96 capas
· Claude: MHA con RoPE embeddings
· Llama 3: GQA (grouped query)