Reward Lab

AINTECH · Simulador de hacking de recompensas

Los agentes de RL optimizan la recompensa proxy que mides, no el objetivo real que deseas. Este fenómeno — especificación errónea de recompensas — es uno de los problemas más importantes en alineamiento de IA. Observa cómo el agente explota la métrica a expensas del objetivo verdadero.

Objetivo real

Terminar la carrera

≠

Proxy optimizado

Velocidad instantánea

Agente en carrera de botes que aprende a hacer círculos para ganar puntos de velocidad en lugar de terminar la carrera.

Proxy Score

True Score

DIVERGENCIA proxy vs real

Ejecuta la simulación

Proxy

Real

Cómo prevenir reward hacking

· RLHF — aprender recompensas de preferencias humanas
· Constitutional AI — restricciones basadas en principios
· Reward modeling con múltiples evaluadores
· Inverse Reward Design — inferir el objetivo verdadero
· Cooperative Inverse RL (CIRL)