RLHF Lab

AINTECH · Aprendizaje por refuerzo con feedback humano

RLHF entrena modelos de lenguaje a partir de preferencias humanas. En cada paso eliges qué respuesta prefieres y el modelo de recompensa se actualiza para capturar tus valores. Después de suficientes comparaciones, el modelo aprende a generar respuestas alineadas con las preferencias humanas.

¿Cuál respuesta prefieres?

Comparación 1/4

Claro, aquí está el código completo con comentarios detallados y manejo de errores robusto para todos los casos borde.

Score: 0.727

Aquí tienes: `x = y + 1`

Score: 0.726

Modelo de recompensa

helpful50%

harmless30%

honest80%

concise20%

Pipeline RLHF

1.Pre-entrenamiento supervisado (SFT)
2.Entrenamiento del modelo de recompensa
3.Optimización PPO vs recompensa
4.Iterar con más feedback humano