Lab
Tokenizer Lab
AINTECH · BPE — Byte Pair Encoding visual
BPE (Byte Pair Encoding) es el tokenizer de GPT-4, Claude y Llama. Parte de caracteres y fusiona iterativamente los pares más frecuentes. El resultado: vocabulario compacto que balanza cobertura de lenguaje y eficiencia computacional.
Tokens resultado (23 tokens)
el perro y el gato y el ratón y el perro
Merges BPE (5 fusiones)
1."e" + "l" → "el" (×4)
2."el" + " " → "el " (×4)
3." " + "y" → " y" (×3)
4." y" + " " → " y " (×3)
5." y " + "el " → " y el " (×3)
Pasos BPE5
Estadísticas
Caracteres40
Tokens BPE23
Vocabulario11
Compresión1.74×
· GPT-4: ~100k tokens vocab
· Claude: ~32k tokens vocab (Anthropic)
· Llama 3: ~128k tokens vocab
· Avg: ~4 chars/token en inglés