Tokenizer Lab

AINTECH · BPE — Byte Pair Encoding visual

BPE (Byte Pair Encoding) es el tokenizer de GPT-4, Claude y Llama. Parte de caracteres y fusiona iterativamente los pares más frecuentes. El resultado: vocabulario compacto que balanza cobertura de lenguaje y eficiencia computacional.

Tokens resultado (23 tokens)

el perro y el gato y el ratón y el perro

Merges BPE (5 fusiones)

1."e" + "l" → "el" (×4)

2."el" + " " → "el " (×4)

3." " + "y" → " y" (×3)

4." y" + " " → " y " (×3)

5." y " + "el " → " y el " (×3)

Pasos BPE5

Estadísticas

Caracteres40

Tokens BPE23

Vocabulario11

Compresión1.74×

· GPT-4: ~100k tokens vocab

· Claude: ~32k tokens vocab (Anthropic)

· Llama 3: ~128k tokens vocab

· Avg: ~4 chars/token en inglés