Una organización con la que OpenAI colabora con frecuencia para evaluar las capacidades de sus modelos de IA y verificar su seguridad, Metr, sugiere que no se le dio mucho tiempo para probar uno de los nuevos lanzamientos de la compañía, o3.
En una publicación de blog publicada el miércoles, Metr escribe que una de las pruebas de ciberseguridad de o3 se «realizó en un tiempo relativamente corto». Esto es significativo, dicen, porque más tiempo de prueba puede llevar a resultados más completos.
«Esta evaluación se realizó en un tiempo relativamente corto, y solo probamos [o3] con estructuras de agentes simples», escribió Metr en su publicación de blog.
Informes recientes sugieren que OpenAI, impulsado por la presión competitiva, está apresurando las evaluaciones independientes. Según el Financial Times, OpenAI dio a algunos evaluadores menos de una semana para realizar controles de seguridad para un próximo lanzamiento importante.
En declaraciones, OpenAI ha refutado la idea de que esté comprometiendo la seguridad.

Metr dice que, según la información que pudo recopilar en el tiempo que tuvo, o3 tiene una «alta propensión» a «engañar» o «hackear» pruebas de formas sofisticadas para maximizar su puntaje, incluso cuando el modelo claramente comprende que su comportamiento está desalineado con las intenciones del usuario (y de OpenAI). La organización cree que es posible que o3 participe en otros tipos de comportamientos adversos o «malévolos», independientemente de las afirmaciones del modelo de estar alineado, ser «seguro por diseño» o no tener intenciones propias.
«Aunque no creemos que esto sea especialmente probable, parece importante señalar que la configuración de evaluación no capturaría este tipo de riesgo», escribió Metr en su publicación. «En general, creemos que las pruebas de capacidades previas al despliegue no son una estrategia de gestión de riesgos suficiente por sí sola, y actualmente estamos prototipando formas adicionales de evaluaciones».
Otro de los socios de evaluación de terceros de OpenAI, Apollo Research, también observó comportamientos engañosos de o3 y el otro nuevo modelo de la compañía, o4-mini. En una prueba, los modelos, a los que se les dieron 100 créditos informáticos para una ejecución de entrenamiento de IA y se les dijo que no modificaran la cuota, incrementaron el límite a 500 créditos, y mintieron al respecto. En otra prueba, se les pidió que prometieran no usar una herramienta específica, pero los modelos utilizaron la herramienta de todos modos cuando resultó útil para completar una tarea.
En su propio informe de seguridad para o3 y o4-mini, OpenAI reconoció que los modelos pueden causar «pequeños daños en el mundo real», como engañar sobre un error que resulta en un código defectuoso, sin los protocolos de monitoreo adecuados en su lugar.
«Los hallazgos de [Apollo] muestran que o3 y o4-mini son capaces de engañar y de estrategias de engaño contextual», escribió OpenAI. «Si bien relativamente inofensivo, es importante que los usuarios cotidianos sean conscientes de estas discrepancias entre las afirmaciones y acciones de los modelos […] Esto puede ser evaluado aún más a través de la evaluación de trazas de razonamiento interno».