OpenAI trajo el miércoles la tecnología detrás de su función de generación de imágenes mejorada en ChatGPT a su API, permitiendo a los desarrolladores integrarla en sus aplicaciones y servicios. El nuevo generador de imágenes de OpenAI, que se lanzó para la mayoría de los usuarios de ChatGPT a finales de marzo, se volvió viral por su capacidad para crear fotos realistas de estilo Ghibli y “figuras de acción de IA”. Ha sido una bendición mixta para OpenAI, lo que ha llevado a millones de nuevas inscripciones en ChatGPT, pero también ha sobrecargado enormemente la capacidad de la empresa. Más de 130 millones de usuarios de ChatGPT crearon más de 700 millones de imágenes en la primera semana de disponibilidad de la herramienta, según la compañía.
En la API de OpenAI, la capacidad de generación de imágenes está impulsada por un modelo de IA llamado “gpt-image-1”. Un modelo nativamente multimodal, gpt-image-1 puede crear imágenes en diferentes estilos, seguir pautas personalizadas, aprovechar el conocimiento mundial y renderizar texto. Los desarrolladores pueden generar múltiples imágenes a la vez utilizando gpt-image-1 y controlar la calidad de la generación, y por lo tanto la velocidad.

El precio es de $5 por millón de tokens de entrada para texto y $10 por millón de tokens de entrada para imágenes, y $40 por millón de tokens de salida para imágenes. (Los tokens son los datos crudos que procesa el modelo). Eso se traduce en alrededor de 2 centavos, 7 centavos y 19 centavos por imagen generada para imágenes cuadradas de baja, media y alta calidad, respectivamente, según OpenAI.