Lab
RLHF Lab
AINTECH · Aprendizaje por refuerzo con feedback humano
RLHF entrena modelos de lenguaje a partir de preferencias humanas. En cada paso eliges qué respuesta prefieres y el modelo de recompensa se actualiza para capturar tus valores. Después de suficientes comparaciones, el modelo aprende a generar respuestas alineadas con las preferencias humanas.
¿Cuál respuesta prefieres?
Comparación 1/4
Claro, aquí está el código completo con comentarios detallados y manejo de errores robusto para todos los casos borde.
Score: 0.727
Aquí tienes: `x = y + 1`
Score: 0.726
Modelo de recompensa
helpful50%
harmless30%
honest80%
concise20%
Pipeline RLHF
- 1.Pre-entrenamiento supervisado (SFT)
- 2.Entrenamiento del modelo de recompensa
- 3.Optimización PPO vs recompensa
- 4.Iterar con más feedback humano