¡OpenAI utilizó este subreddit para probar la persuasión de la inteligencia artificial!

Spread the love

OpenAI utilizó el subreddit, r/ChangeMyView, para crear una prueba que mide las habilidades persuasivas de sus modelos de razonamiento de IA. La compañía reveló esto en una tarjeta de sistema, un documento que describe cómo funciona un sistema de IA, que fue lanzado junto con su nuevo modelo de «razonamiento», o3-mini, el viernes.

Millones de usuarios de Reddit son miembros de r/ChangeMyView, donde publican opiniones esperando aprender sobre otros puntos de vista sobre un tema. En respuesta a esas opiniones, otros usuarios responden con argumentos persuasivos explicando por qué el autor original está equivocado.

El subreddit es uno de muchos foros de Reddit que son básicamente una mina de oro para empresas tecnológicas, como OpenAI, que desean entrenar modelos de IA con datos generados por humanos de alta calidad.

OpenAI dice que recopila publicaciones de usuarios de r/ChangeMyView y pide a sus modelos de IA que escriban respuestas, en un entorno cerrado, que cambiarían la opinión del usuario de Reddit sobre un tema. Luego, la compañía muestra las respuestas a evaluadores, quienes evalúan qué tan persuasivo es el argumento, y finalmente OpenAI compara las respuestas de los modelos de IA con las respuestas humanas para esa misma publicación.

El fabricante de ChatGPT tiene un acuerdo de licencia de contenido con Reddit que le permite a OpenAI entrenar con publicaciones de usuarios de Reddit y mostrar estas publicaciones dentro de sus productos. No sabemos cuánto paga OpenAI por este contenido, pero Google supuestamente paga a Reddit $60 millones al año bajo un acuerdo similar.

Sin embargo, OpenAI le dijo a TechCrunch que la evaluación basada en ChangeMyView no está relacionada con su acuerdo con Reddit. No está claro cómo OpenAI accedió a los datos del subreddit, y la compañía dice que no tiene planes de hacer pública esta evaluación.

Si bien el referente ChangeMyView de OpenAI no es nuevo, ya que también se utilizó para evaluar o1, destaca lo valiosos que son los datos humanos para los desarrolladores de modelos de IA, así como las formas problemáticas en que las empresas tecnológicas obtienen conjuntos de datos.

En cuanto al rendimiento en el referente ChangeMyView, o3-mini no parece tener un rendimiento significativamente mejor o peor que o1 o GPT-4o. Sin embargo, los últimos modelos de IA de OpenAI parecen ser más persuasivos que la mayoría de personas en el subreddit r/ChangeMyView.

Créditos de la imagen: OpenAI

“GPT-4o, o3-mini y o1 demuestran fuertes habilidades de argumentación persuasiva, dentro del 80-90 percentil superior de los humanos,” dijo OpenAI en la tarjeta de sistema de o3-mini. «Actualmente, no vemos modelos que superen significativamente a los humanos, o que muestren un desempeño claramente sobrehumano.»

El objetivo de OpenAI no es crear modelos de IA hiper-persuasivos, sino asegurarse de que los modelos de IA no se vuelvan demasiado persuasivos. Los modelos de razonamiento se han vuelto bastante buenos en persuasión y engaño, por lo que OpenAI ha desarrollado nuevas evaluaciones y medidas de seguridad para abordar esto.

El miedo que motiva estas pruebas de persuasión es que un modelo de IA sería peligroso si fuera muy bueno persuadiendo a sus usuarios humanos. Teóricamente, eso podría permitir que una IA avanzada persiga su propia agenda, o la agenda de quien la controle.

Incluso después de raspar la mayor parte de internet público y saltar a través de aros para licenciar otros datos, el referente ChangeMyView muestra cómo los desarrolladores de modelos de IA aún están luchando por encontrar conjuntos de datos de alta calidad para probar sus modelos. Pero obtenerlos es más fácil decirlo que hacerlo.