Lab
Reward Lab
AINTECH · Simulador de hacking de recompensas
Los agentes de RL optimizan la recompensa proxy que mides, no el objetivo real que deseas. Este fenómeno — especificación errónea de recompensas — es uno de los problemas más importantes en alineamiento de IA. Observa cómo el agente explota la métrica a expensas del objetivo verdadero.
Objetivo real
Terminar la carrera
≠
Proxy optimizado
Velocidad instantánea
Agente en carrera de botes que aprende a hacer círculos para ganar puntos de velocidad en lugar de terminar la carrera.
Proxy Score
0
True Score
0
DIVERGENCIA proxy vs real
Ejecuta la simulación
Proxy
Real
Cómo prevenir reward hacking
- · RLHF — aprender recompensas de preferencias humanas
- · Constitutional AI — restricciones basadas en principios
- · Reward modeling con múltiples evaluadores
- · Inverse Reward Design — inferir el objetivo verdadero
- · Cooperative Inverse RL (CIRL)