Las críticas escritas por IA ayudan a los humanos a notar fallas

En OPEN AI 16 de Junio de 2022

Entrenamos modelos de “escritura crítica” para describir fallas en los resúmenes. Los evaluadores humanos encuentran fallas en los resúmenes con mucha más frecuencia cuando se les muestran las críticas de nuestro modelo. Los modelos más grandes son mejores para la autocrítica, y la escala mejora la redacción de críticas más que la redacción de resúmenes. Esto muestra una promesa para el uso de sistemas de IA para ayudar a la supervisión humana de los sistemas de IA en tareas difíciles

Queremos asegurarnos de que los futuros sistemas de IA que realicen tareas muy difíciles permanezcan alineados con la intención humana. Muchos trabajos anteriores sobre la alineación de modelos lingüísticos se basan en evaluaciones humanas como señal de entrenamiento. Sin embargo, a los humanos les cuesta evaluar tareas muy difíciles; por ejemplo, es difícil detectar cada error en una base de código o cada error fáctico en un ensayo largo. Luego, los modelos pueden aprender a dar resultados que se ven bien para los humanos pero tienen errores que sistemáticamente no notamos.

Para mitigar este problema, queremos capacitar asistentes de IA que ayuden a los humanos a brindar retroalimentación sobre tareas difíciles. Estos asistentes deben señalar fallas, ayudar a los humanos a comprender lo que está sucediendo y responder sus preguntas. Un ejemplo de esto es nuestro trabajo anterior sobre resúmenes de libros: leer el libro completo es mucho trabajo, pero a los humanos con la ayuda de resúmenes de capítulos les resulta mucho más fácil evaluar un resumen de libro.

Comparamos las calificaciones humanas de los resúmenes escritos por IA entre un grupo de control que no recibió asistencia y un grupo asistido que pudo ver 8 críticas escritas por IA. Los resúmenes se seleccionan de 3 fuentes diferentes. Los humanos asistidos encuentran aproximadamente un 50 % más de fallas en los resúmenes que los evaluadores no asistidos, y utilizan las críticas del modelo directamente para la mayoría de las críticas que encuentran.
Para ver qué tan útiles son nuestros modelos para la asistencia en la evaluación, mostramos a los etiquetadores 8 críticas escritas en modelos de cada resumen, con un grupo de control que no recibe asistencia. Usamos resúmenes basados ​​en temas de tres fuentes: escritos por nuestros modelos, escritos por humanos y escritos por humanos deliberadamente para tener fallas importantes pero sutiles.


ver documento completo en https://arxiv.org/abs/2206.05802

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top