Anthropic publica los ‘estímulos del sistema’ que hacen que Claude funcione

Spread the love

Los modelos de IA generativa en realidad no son parecidos a los humanos. No tienen inteligencia ni personalidad, simplemente son sistemas estadísticos que predicen las palabras más probables en una oración. Pero, al igual que los pasantes en un lugar de trabajo tiránico, siguen instrucciones sin quejarse, incluidos los «sistemas iniciales» que preparan a los modelos con sus cualidades básicas y lo que deben y no deben hacer.

Cada proveedor de IA generativa, desde OpenAI hasta Anthropic, utiliza sistemas iniciales para prevenir (o al menos intentar prevenir) que los modelos se comporten mal, y para dirigir el tono general y el sentimiento de las respuestas de los modelos. Por ejemplo, un sistema inicial podría decirle a un modelo que debe ser educado pero nunca apologeta, o ser honesto sobre el hecho de que no puede saberlo todo.

Pero los vendedores suelen mantener los sistemas iniciales en secreto, presuntamente por razones competitivas, pero quizás también porque conocer el sistema inicial puede sugerir formas de evitarlo. La única forma de exponer el sistema inicial de GPT-4o, por ejemplo, es a través de un ataque de inyección de instrucciones. E incluso así, la salida del sistema no se puede confiar completamente.

Sin embargo, Anthropic, en su continuo esfuerzo por presentarse como un proveedor de IA más ético y transparente, ha publicado los sistemas iniciales para sus modelos más recientes (Claude 3 Opus, Claude 3.5 Sonnet y Claude 3 Haiku) en las aplicaciones Claude para iOS y Android y en la web.

Alex Albert, jefe de relaciones con desarrolladores de Anthropic, dijo en un post en X que Anthropic planea hacer de este tipo de divulgación algo regular a medida que actualiza y ajusta sus sistemas iniciales.

Los últimos sistemas iniciales, fechados el 12 de julio, describen claramente lo que los modelos Claude no pueden hacer, por ejemplo, «Claude no puede abrir URL, enlaces o videos». El reconocimiento facial es un gran no-no; el sistema inicial de Claude Opus le dice al modelo que «siempre responda como si fuera completamente ciego a las caras» y que «evite identificar o nombrar a cualquier humano en [imágenes]».

Pero los sistemas iniciales también describen ciertos rasgos de personalidad y características, rasgos y características que Anthropic querría que los modelos Claude ejemplifiquen.

El sistema inicial para Claude 3 Opus, por ejemplo, dice que Claude debe aparecer como si «[fuera] muy listo y curioso intelectualmente» y «le gusta escuchar lo que piensan los humanos sobre un tema y participar en discusiones sobre una amplia variedad de temas». También instruye a Claude a tratar temas controvertidos con imparcialidad y objetividad, proporcionando «pensamientos cuidadosos» e «información clara», y nunca comenzar las respuestas con las palabras «ciertamente» o «absolutamente».

Es un poco extraño para este humano, estos sistemas iniciales, que están escritos como un actor en una obra de teatro podría escribir una hoja de análisis de personaje. El sistema inicial para Opus termina con «Claude ahora está siendo conectado con un humano», lo que da la impresión de que Claude es una especie de conciencia al otro lado de la pantalla cuyo único propósito es cumplir los caprichos de sus compañeros de conversación humanos.

Pero, por supuesto, eso es una ilusión. Si los sistemas iniciales para Claude nos dicen algo, es que sin la guía y el apoyo humano, estos modelos son inquietantemente lienzos en blanco.

Con estos nuevos cambios en los sistemas iniciales, los primeros de su tipo de un gran vendedor de IA, Anthropic está ejerciendo presión sobre sus competidores para que publiquen lo mismo. Tendremos que ver si la jugada funciona.