Bandit Lab

AINTECH · Exploración vs Explotación

El dilema fundamental del aprendizaje por refuerzo: explorar opciones desconocidas o explotar la mejor conocida. Compara ε-greedy, UCB1 y Thompson Sampling en un bandido de 5 brazos.

Pasos: 0

Recompensa: 0

Regret: 0.0

Rate: 0.0%

A

Estimado

?

0 pulls

B

Estimado

?

0 pulls

C

Estimado

?

0 pulls

D

Estimado

?

0 pulls

E

Estimado

?

0 pulls

ε-Greedy: Con prob. ε explora aleatoriamente. Simple pero ineficiente.

UCB1: Bonus de exploración √(2·ln(t)/n). Óptimamente sublinear.

Thompson: Muestreo bayesiano de distribución Beta. El más eficiente en práctica.