Lab

Reward Lab

AINTECH · Simulador de hacking de recompensas

Los agentes de RL optimizan la recompensa proxy que mides, no el objetivo real que deseas. Este fenómeno — especificación errónea de recompensas — es uno de los problemas más importantes en alineamiento de IA. Observa cómo el agente explota la métrica a expensas del objetivo verdadero.

Objetivo real
Terminar la carrera
Proxy optimizado
Velocidad instantánea

Agente en carrera de botes que aprende a hacer círculos para ganar puntos de velocidad en lugar de terminar la carrera.

Proxy Score
0
True Score
0
DIVERGENCIA proxy vs real
Ejecuta la simulación
Proxy
Real

Cómo prevenir reward hacking

  • · RLHF — aprender recompensas de preferencias humanas
  • · Constitutional AI — restricciones basadas en principios
  • · Reward modeling con múltiples evaluadores
  • · Inverse Reward Design — inferir el objetivo verdadero
  • · Cooperative Inverse RL (CIRL)