Lab
Zipf's Law
AINTECH · Distribución de frecuencia de palabras
La Ley de Zipf: la palabra más frecuente aparece ~2× más que la 2ª, ~3× más que la 3ª. En escala log-log, los textos humanos forman una línea recta. Explica por qué los tokenizers BPE comprimen bien el lenguaje natural.
Texto realZipf ideal (1/rank)
log(rank)log(frecuencia) ↑
Top palabras
1de14
2los6
3y4
4con4
5más3
6las3
7su3
8en2
9un2
10no2
Palabras únicas: 76
Total tokens: 115
Ratio único/total: 66.1%