Lab
Scale Forge
AINTECH · Optimizador de cómputo para LLMs
Hoffmann et al. (2022) demostraron que los grandes LLMs estaban masivamente undertrained. Para un presupuesto de cómputo fijo, el tamaño óptimo del modelo y los tokens se deben escalar 1:1.
316.23B GFLOPs
✓ CHINCHILLA OPTIMAL
Parámetros óptimos
4.43B
Tokens de entrenamiento
11.90B
Ratio tokens/params
2.7× (ideal ≈20×)
Loss estimado
2.523 nats
GPT-3 STYLE (300B tokens fijos)
Parámetros
175.68M
Tokens
300B (fijo)
Ratio tokens/params
1707.6×
Loss estimado
2.581 nats
Ley de escala (Scale Forge)
// Cómputo total:
C ≈ 6 · N · D
// Óptimo Scale Forge:
N_opt ≈ √(C/6) · 0.61
D_opt = C / (6 · N_opt)
// Loss power law:
L(N,D) = E + A/N^α + B/D^β
E=1.69, A=406.4, B=410.7
α=0.34, β=0.28
Modelos reales vs Scale Forge óptimo
| Modelo | Real N | Scale Forge N | Ratio | Estado |
|---|---|---|---|---|
| GPT-3 175B | 175.00B | 139.55B | 1.3× | near-optimal |
| Optimal-70B | 70.00B | 189.00B | 0.4× | undertrained model |
| LLaMA 65B | 65.00B | 7.88B | 8.3× | overtrained model |
| GPT-4 (est.) | 1.80T | 1.15T | 1.6× | overtrained model |