Nuevos modelos de IA de OpenAI tienen un nuevo salvaguarda para prevenir riesgos biológicos

Spread the love

OpenAI dice que ha implementado un nuevo sistema para monitorear sus últimos modelos de razonamiento de IA, o3 y o4-mini, para indicaciones relacionadas con amenazas biológicas y químicas. El sistema tiene como objetivo evitar que los modelos ofrezcan consejos que puedan instruir a alguien sobre cómo llevar a cabo ataques potencialmente dañinos, según el informe de seguridad de OpenAI.

O3 y o4-mini representan un aumento significativo en la capacidad sobre los modelos anteriores de OpenAI, según la compañía, y por lo tanto plantean nuevos riesgos en manos de malos actores. Según las pruebas internas de OpenAI, o3 es más hábil para responder preguntas sobre la creación de ciertos tipos de amenazas biológicas en particular. Por esta razón, y para mitigar otros riesgos, OpenAI creó el nuevo sistema de monitoreo, que la compañía describe como un «monitor de razonamiento enfocado en la seguridad».

El monitor, diseñado a medida para razonar sobre las políticas de contenido de OpenAI, se ejecuta sobre o3 y o4-mini. Está diseñado para identificar indicaciones relacionadas con el riesgo biológico y químico e instruir a los modelos a rechazar ofrecer consejos sobre esos temas.

Para establecer una línea base, OpenAI tuvo equipos de defensa roja pasando alrededor de 1.000 horas marcando conversaciones «inseguras» relacionadas con el riesgo biológico de o3 y o4-mini. Durante una prueba en la que OpenAI simuló la «lógica de bloqueo» de su monitor de seguridad, los modelos se negaron a responder a indicaciones riesgosas el 98,7% del tiempo, según OpenAI.

OpenAI reconoce que su prueba no tuvo en cuenta a las personas que podrían intentar nuevas indicaciones después de ser bloqueadas por el monitor, por eso la compañía dice que seguirá confiando en parte en el monitoreo humano.

O3 y o4-mini no cruzan el umbral de «alto riesgo» de OpenAI para los riesgos biológicos, según la compañía. Sin embargo, en comparación con o1 y GPT-4, OpenAI dice que las primeras versiones de o3 y o4-mini resultaron más útiles para responder preguntas sobre el desarrollo de armas biológicas.

[[IMG::]]Gráfico de la tarjeta de sistema de o3 y o4-mini (Captura de pantalla: OpenAI)

La compañía está rastreando activamente cómo sus modelos podrían facilitar que usuarios maliciosos desarrollen amenazas químicas y biológicas, según el Marco de Preparación de OpenAI actualizado recientemente.

Nuevos modelos de IA de OpenAI tienen un nuevo salvaguarda para prevenir riesgos biológicos

¡Detén la búsqueda infinita y mira la transmisión en vivo de la ‘Gran Migración de Alces’!

Patreon prueba una función nativa de video en vivo donde los creadores pueden transmitir las 24 horas al día

noticias generales

Elon Musk’s Neuralink closes a $650M Series E

¡Valla recauda $2.7 millones para hacer más accesible la vía legal a los empleados!

Desafío de crecimiento frenético de los centros de datos desafía los objetivos de sostenibilidad de Microsoft.

IBM adquiere startup de análisis de datos Seek AI y abre acelerador de IA en NYC

Sindicato de videojuegos firma primer acuerdo con Microsoft

Influencers de izquierda abrazan Bluesky sin abandonar X, afirma Pew

NAACP exige que autoridades de Memphis parem operações no ‘centro de dados sujo’ da xAI

Meta planea automatizar muchas de sus evaluaciones de riesgo de productos

Resumen Semanal: ¡Perplexity Labs quiere hacer tu trabajo!

Space Forge recauda $30 millones en Serie A para fabricar materiales de chips en el espacio

seguridad digital

Qualcomm resuelve tres vulnerabilidades zero-day explotadas por hackers

¡Supermercado indio KiranaPro hackeado y servidores eliminados, CEO lo confirma!

¡Kettering, el gigante de la salud, sigue luchando contra interrupciones tras el ataque de ransomware!

¡Desapareció el informe de seguridad prometido por XAI!

Google anuncia nuevas funciones de seguridad para Android ¡protégete de estafas y robos!