OpenAI dice que está desarrollando una herramienta para permitir a los creadores controlar mejor cómo se utiliza su contenido en el entrenamiento de la inteligencia artificial generativa.
La herramienta, llamada Media Manager, permitirá a los creadores y propietarios de contenido identificar sus obras a OpenAI y especificar cómo quieren que esas obras se incluyan o excluyan de la investigación y entrenamiento de la IA.
El objetivo es tener la herramienta en funcionamiento para el 2025, dice OpenAI, mientras la compañía trabaja con «creadores, propietarios de contenido y reguladores» hacia un estándar, quizás a través del comité directivo de la industria al que recientemente se unió.
«Esto requerirá investigación puntera en aprendizaje automático para construir una herramienta única en su clase para ayudarnos a identificar texto, imágenes, audio y video con derechos de autor a través de múltiples fuentes y reflejar las preferencias del creador», escribió OpenAI en una publicación de blog. «Con el tiempo, planeamos introducir opciones y características adicionales.»
Parecería que Media Manager, sea en la forma que sea finalmente, es la respuesta de OpenAI a las crecientes críticas a su enfoque en el desarrollo de la IA, que depende en gran medida de raspar datos públicamente disponibles de la web. Recientemente, ocho destacados periódicos de EE. UU., incluido el Chicago Tribune, demandaron a OpenAI por infracción de propiedad intelectual relacionada con el uso de la IA generativa, acusando a OpenAI de saquear artículos para entrenar modelos de IA generativa que luego comercializó sin compensar, o acreditar, a las publicaciones originales.
Los modelos de IA generativa, incluidos los de OpenAI, los tipos de modelos que pueden analizar y generar texto, imágenes, videos y más, se entrenan en un enorme número de ejemplos generalmente obtenidos de sitios públicos y conjuntos de datos. OpenAI y otros proveedores de IA generativa argumentan que el uso justo, la doctrina legal que permite el uso de obras con derechos de autor para crear una creación secundaria siempre que sea transformadora, protege su práctica de raspar datos públicos y usarlos para el entrenamiento del modelo. Pero no todos están de acuerdo.
De hecho, OpenAI argumentó recientemente que sería imposible crear modelos de IA útiles sin material con derechos de autor.
Evento de Techcrunch
¡Ahorra ahora hasta el 4 de junio para las Sesiones de TechCrunch: AI!
¡Ahorra $300 en tu boleto para las Sesiones de TC: AI y obtén un 50% de descuento en el segundo! Escucha a líderes de OpenAI, Anthropic, Khosla Ventures y más durante un día lleno de información de expertos, talleres prácticos y networking de alto impacto. ¡Estas ofertas a bajo precio desaparecen cuando se abren las puertas el 5 de junio!

Exhibe en las Sesiones de TechCrunch: AI
¡Asegura tu lugar en las Sesiones de TC: AI y muestra a más de 1,200 tomadores de decisiones lo que has construido, sin gastar mucho! Disponible hasta el 9 de mayo o hasta que se agoten las mesas.
Berkeley, CA | 5 de junio
REGÍSTRATE AHORA
Pero en un esfuerzo por calmar a los críticos y defenderse contra futuras demandas, OpenAI ha tomado medidas para llegar a un punto intermedio con los creadores de contenido.
El año pasado, OpenAI permitió a los artistas «optar por no participar» y eliminar su trabajo de los conjuntos de datos que la compañía utiliza para entrenar sus modelos generadores de imágenes. La empresa también permite a los propietarios de sitios web indicar a través del estándar robots.txt, que da instrucciones sobre los sitios web a los bots de rastreo web, si el contenido de su sitio puede ser raspado para entrenar modelos de IA. Y OpenAI continúa firmando acuerdos de licencia con grandes propietarios de contenido, incluidas organizaciones de noticias, bibliotecas de medios de archivo y sitios de preguntas y respuestas como Stack Overflow.
Sin embargo, algunos creadores de contenido dicen que OpenAI no ha ido lo suficientemente lejos.
Los artistas han descrito el flujo de trabajo de «optar por no participar» de OpenAI para imágenes, que requiere enviar una copia individual de cada imagen a ser eliminada junto con una descripción, como oneroso. OpenAI supuestamente paga relativamente poco para licenciar contenido. Y, como OpenAI mismo reconoce en la publicación de blog del martes, las soluciones actuales de la compañía no abordan los escenarios en los que las obras de los creadores son citadas, remezcladas o reposteadas en plataformas que no controlan.
Más allá de OpenAI, varias terceras partes están intentando construir herramientas universales de procedencia y de elegir optar por no participar en la IA generativa.
Startup Spawning AI, cuyos socios incluyen a Stability AI y Hugging Face, ofrece una aplicación que identifica y rastrea las direcciones IP de los bots para bloquear intentos de raspado, así como una base de datos donde los artistas pueden registrar sus trabajos para evitar su entrenamiento por parte de vendedores que elijan respetar las solicitudes. Steg.AI e Imatag ayudan a los creadores a establecer la propiedad de sus imágenes aplicando marcas de agua imperceptibles para el ojo humano. Y Nightshade, un proyecto de la Universidad de Chicago, «envenena» los datos de imagen para hacerlos inútiles o disruptivos para el entrenamiento de modelos de IA.
