Lab

Scale Forge

AINTECH · Optimizador de cómputo para LLMs

Hoffmann et al. (2022) demostraron que los grandes LLMs estaban masivamente undertrained. Para un presupuesto de cómputo fijo, el tamaño óptimo del modelo y los tokens se deben escalar 1:1.

316.23B GFLOPs
✓ CHINCHILLA OPTIMAL
Parámetros óptimos
4.43B
Tokens de entrenamiento
11.90B
Ratio tokens/params
2.7× (ideal ≈20×)
Loss estimado
2.523 nats
GPT-3 STYLE (300B tokens fijos)
Parámetros
175.68M
Tokens
300B (fijo)
Ratio tokens/params
1707.6×
Loss estimado
2.581 nats

Ley de escala (Scale Forge)

// Cómputo total:
C ≈ 6 · N · D
// Óptimo Scale Forge:
N_opt ≈ √(C/6) · 0.61
D_opt = C / (6 · N_opt)
// Loss power law:
L(N,D) = E + A/N^α + B/D^β
E=1.69, A=406.4, B=410.7
α=0.34, β=0.28

Modelos reales vs Scale Forge óptimo

ModeloReal NScale Forge NRatioEstado
GPT-3 175B175.00B139.55B1.3×near-optimal
Optimal-70B70.00B189.00B0.4×undertrained model
LLaMA 65B65.00B7.88B8.3×overtrained model
GPT-4 (est.)1.80T1.15T1.6×overtrained model