Lab

Bandit Lab

AINTECH · Exploración vs Explotación

El dilema fundamental del aprendizaje por refuerzo: explorar opciones desconocidas o explotar la mejor conocida. Compara ε-greedy, UCB1 y Thompson Sampling en un bandido de 5 brazos.

Pasos: 0
Recompensa: 0
Regret: 0.0
Rate: 0.0%
A
Estimado
?
0 pulls
B
Estimado
?
0 pulls
C
Estimado
?
0 pulls
D
Estimado
?
0 pulls
E
Estimado
?
0 pulls
ε-Greedy: Con prob. ε explora aleatoriamente. Simple pero ineficiente.
UCB1: Bonus de exploración √(2·ln(t)/n). Óptimamente sublinear.
Thompson: Muestreo bayesiano de distribución Beta. El más eficiente en práctica.