Nuevos modelos de IA de OpenAI tienen un nuevo salvaguarda para prevenir riesgos biológicos

Spread the love

OpenAI dice que ha implementado un nuevo sistema para monitorear sus últimos modelos de razonamiento de IA, o3 y o4-mini, para indicaciones relacionadas con amenazas biológicas y químicas. El sistema tiene como objetivo evitar que los modelos ofrezcan consejos que puedan instruir a alguien sobre cómo llevar a cabo ataques potencialmente dañinos, según el informe de seguridad de OpenAI.

O3 y o4-mini representan un aumento significativo en la capacidad sobre los modelos anteriores de OpenAI, según la compañía, y por lo tanto plantean nuevos riesgos en manos de malos actores. Según las pruebas internas de OpenAI, o3 es más hábil para responder preguntas sobre la creación de ciertos tipos de amenazas biológicas en particular. Por esta razón, y para mitigar otros riesgos, OpenAI creó el nuevo sistema de monitoreo, que la compañía describe como un «monitor de razonamiento enfocado en la seguridad».

El monitor, diseñado a medida para razonar sobre las políticas de contenido de OpenAI, se ejecuta sobre o3 y o4-mini. Está diseñado para identificar indicaciones relacionadas con el riesgo biológico y químico e instruir a los modelos a rechazar ofrecer consejos sobre esos temas.

Para establecer una línea base, OpenAI tuvo equipos de defensa roja pasando alrededor de 1.000 horas marcando conversaciones «inseguras» relacionadas con el riesgo biológico de o3 y o4-mini. Durante una prueba en la que OpenAI simuló la «lógica de bloqueo» de su monitor de seguridad, los modelos se negaron a responder a indicaciones riesgosas el 98,7% del tiempo, según OpenAI.

Imagem destacada

OpenAI reconoce que su prueba no tuvo en cuenta a las personas que podrían intentar nuevas indicaciones después de ser bloqueadas por el monitor, por eso la compañía dice que seguirá confiando en parte en el monitoreo humano.

O3 y o4-mini no cruzan el umbral de «alto riesgo» de OpenAI para los riesgos biológicos, según la compañía. Sin embargo, en comparación con o1 y GPT-4, OpenAI dice que las primeras versiones de o3 y o4-mini resultaron más útiles para responder preguntas sobre el desarrollo de armas biológicas.

[[IMG::]]Gráfico de la tarjeta de sistema de o3 y o4-mini (Captura de pantalla: OpenAI)

La compañía está rastreando activamente cómo sus modelos podrían facilitar que usuarios maliciosos desarrollen amenazas químicas y biológicas, según el Marco de Preparación de OpenAI actualizado recientemente.

¡Detén la búsqueda infinita y mira la transmisión en vivo de la ‘Gran Migración de Alces’!

Patreon prueba una función nativa de video en vivo donde los creadores pueden transmitir las 24 horas al día