Scale Forge

AINTECH · Optimizador de cómputo para LLMs

Hoffmann et al. (2022) demostraron que los grandes LLMs estaban masivamente undertrained. Para un presupuesto de cómputo fijo, el tamaño óptimo del modelo y los tokens se deben escalar 1:1.

Presupuesto de cómputo316.23B GFLOPs

✓ CHINCHILLA OPTIMAL

Parámetros óptimos

4.43B

Tokens de entrenamiento

11.90B

Ratio tokens/params

2.7× (ideal ≈20×)

Loss estimado

2.523 nats

GPT-3 STYLE (300B tokens fijos)

Parámetros

175.68M

Tokens

300B (fijo)

Ratio tokens/params

1707.6×

Loss estimado

2.581 nats

Ley de escala (Scale Forge)

// Cómputo total:

C ≈ 6 · N · D

// Óptimo Scale Forge:

N_opt ≈ √(C/6) · 0.61

D_opt = C / (6 · N_opt)

// Loss power law:

L(N,D) = E + A/N^α + B/D^β

E=1.69, A=406.4, B=410.7

α=0.34, β=0.28

Modelos reales vs Scale Forge óptimo

Modelo	Real N	Scale Forge N	Ratio	Estado
GPT-3 175B	175.00B	139.55B	1.3×	near-optimal
Optimal-70B	70.00B	189.00B	0.4×	undertrained model
LLaMA 65B	65.00B	7.88B	8.3×	overtrained model
GPT-4 (est.)	1.80T	1.15T	1.6×	overtrained model