Lab

RLHF Lab

AINTECH · Aprendizaje por refuerzo con feedback humano

RLHF entrena modelos de lenguaje a partir de preferencias humanas. En cada paso eliges qué respuesta prefieres y el modelo de recompensa se actualiza para capturar tus valores. Después de suficientes comparaciones, el modelo aprende a generar respuestas alineadas con las preferencias humanas.

¿Cuál respuesta prefieres?
Comparación 1/4
Claro, aquí está el código completo con comentarios detallados y manejo de errores robusto para todos los casos borde.
Score: 0.727
Aquí tienes: `x = y + 1`
Score: 0.726

Modelo de recompensa

helpful50%
harmless30%
honest80%
concise20%

Pipeline RLHF

  1. 1.Pre-entrenamiento supervisado (SFT)
  2. 2.Entrenamiento del modelo de recompensa
  3. 3.Optimización PPO vs recompensa
  4. 4.Iterar con más feedback humano