El generador de videos de Google llega a más clientes

Spread the love

El generador de videos de Google está llegando a algunos clientes más, clientes de Google Cloud, para ser precisos.

El martes, Google anunció que Veo, su modelo de IA que puede generar videoclips cortos a partir de imágenes y sugerencias, estará disponible en una vista previa privada para clientes que utilizan Vertex AI, la plataforma de desarrollo de IA de Google Cloud.

Google dice que el lanzamiento permitirá a un cliente, Quora, llevar Veo a su plataforma de chatbot Poe, y a otro, Mondelez International, propietario de Oreo, crear contenido de marketing con sus socios de agencias.

“Creamos Poe para democratizar el acceso a los mejores modelos generativos de IA del mundo”, dijo el líder del producto Poe, Spencer Chan, en un comunicado. “A través de asociaciones con líderes como Google, estamos expandiendo las posibilidades creativas en todas las modalidades de IA”.

Generador estrella

Presentado en abril, Veo puede generar clips de 1080p de animales, objetos y personas de hasta seis segundos de duración a 24 o 30 fotogramas por segundo. Google dice que Veo puede capturar diferentes estilos visuales y cinematográficos, incluidas tomas de paisajes y lapso de tiempo, y hacer ediciones a las imágenes generadas previamente.

¿Por qué la larga espera para la API? «Preparación empresarial», dice Warren Barkley, director senior de gestión de productos en Google Cloud.

Algunas de las creaciones de Veo. Créditos de la imagen:Google

«Desde que se anunció Veo, nuestros equipos han aumentado, fortalecido y mejorado el modelo para clientes empresariales en Vertex AI», dijo. “A partir de hoy, puedes crear videos de alta definición en 720p, en relaciones de aspecto de paisaje de 16:9 o retrato de 9:16. De manera similar a cómo hemos mejorado las capacidades de otros modelos como Gemini en Vertex AI, seguiremos haciéndolo para Veo”.

Veo comprende bastante bien los efectos visuales desde las sugerencias, dice Google (piensa en leyendas como «explosión enorme»), y tiene cierto conocimiento de física, incluida la dinámica de fluidos. El modelo también admite edición enmascarada para cambios en regiones específicas de un video, y es técnicamente capaz de unir imágenes en proyectos más largos.

En estos aspectos, Veo es competitivo con los modelos líderes en generación de videos de hoy en día, no solo Sora de OpenAI, sino modelos de Adobe, Runway, Luma, Meta y otros.

Proporcionar una imagen de referencia con una sugerencia condiciona a Veo a generar un video que siga el estilo de la imagen y las instrucciones de la sugerencia. Créditos de la imagen:Google

Eso no quiere decir que Veo sea perfecto. Reflejando las limitaciones de la IA actual, los objetos en los videos de Veo desaparecen y reaparecen sin mucha explicación o consistencia. Y Veo a menudo se equivoca en física. Por ejemplo, los autos inexplicablemente se dan la vuelta en un centavo.

Entrenamiento y riesgos

Veo fue entrenado con mucho metraje. Eso es generalmente cómo funciona con modelos generativos de IA: proporcionados con ejemplo tras ejemplo de algún tipo de datos, los modelos detectan patrones en los datos que les permiten generar nuevos datos, videos en el caso de Veo.

Google, al igual que muchos de sus rivales en IA, no dirá exactamente de dónde obtiene los datos para entrenar sus modelos generativos. Preguntado sobre Veo específicamente, Barkley solo diría que el modelo «podría» estar entrenado en «alguno» contenido de YouTube «de acuerdo con el acuerdo con los creadores de YouTube» (la empresa matriz de Google, Alphabet, es dueña de YouTube).

Otra muestra de Veo. Créditos de la imagen:Google

“Veo ha sido entrenado con una variedad de conjuntos de datos de alta calidad de descripción de video que están altamente curados para seguridad”, agregó. “Los modelos fundamentales de Google se entrenan principalmente en fuentes de acceso público”.

Una investigación del New York Times en abril reveló que Google amplió sus términos de servicio el año pasado en parte para permitir a la empresa acceder a más datos para entrenar sus modelos de IA. Bajo los viejos TdS, no estaba claro si Google podía usar datos de YouTube para crear productos más allá de la plataforma de video. No es así bajo los nuevos términos, que aflojan considerablemente las restricciones.

Otra muestra de Veo. Créditos de la imagen:Google

Si bien Google ofrece herramientas para permitir a los webmasters bloquear a los bots de la empresa para rastrear datos de entrenamiento de sus sitios web, no ofrece un mecanismo para permitir que los creadores eliminen sus trabajos de sus conjuntos de entrenamiento existentes. Google sostiene que entrenar modelos utilizando datos de acceso público es un uso justo, lo que significa que la empresa cree que no está obligada a solicitar permiso a los propietarios de datos o compensarlos. (Google dice que no utiliza datos de clientes para entrenar sus modelos, sin embargo).

Gracias a la forma en que se comportan los modelos generativos de hoy en día cuando están entrenados, llevan ciertos riesgos, como la regurgitación, que se refiere a cuando un modelo genera una copia espejo de los datos de entrenamiento. Se ha descubierto que herramientas como la de Runway arrojan imágenes fijas sustancialmente similares a las de videos con derechos de autor, lo que plantea un posible campo de minas legal para los usuarios de las herramientas.

La solución de Google son filtros a nivel de sugerencia para Veo, incluido contenido violento y explícito. En caso de que estos fallen, la empresa dice que su política de indemnización proporciona una defensa para los usuarios elegibles de Veo contra acusaciones de infracción de derechos de autor.

“Planeamos indemnizar las salidas de Veo en Vertex AI cuando esté disponible para uso general”, dijo Barkley.

Veo en todas partes

Durante los últimos meses, Google ha integrado lentamente Veo en más de sus aplicaciones y servicios mientras trabaja para pulir el modelo.

En mayo, Google llevó Veo a Google Labs, su programa de acceso anticipado, para probadores seleccionados. Y en septiembre, Google anunció una integración de Veo para YouTube Shorts, el formato de video corto de YouTube, para permitir a los creadores generar fondos y clips de video de seis segundos.

¿Y los riesgos de deepfake de todo esto, te estarás preguntando? Google dice que está utilizando su tecnología de marca de agua propietaria, SynthID, para incrustar marcadores invisibles en los frames que genera Veo. Aunque SynthID no es infalible contra ediciones, y Google no ha puesto la pieza de identificación de contenido a disposición de terceros.

Otra muestra de Veo. Créditos de la imagen:Google

Estos puntos pueden ser irrelevantes si Veo no gana tracción significativa. En el frente de las asociaciones, Google ha cedido terreno a sus rivales en IA generativa, que se han apresurado a conquistar a productores, estudios y agencias creativas con sus herramientas. Runway recientemente firmó un acuerdo con Lionsgate para entrenar un modelo personalizado en el catálogo de películas del estudio, y OpenAI se asoció con marcas y directores independientes para mostrar el potencial de Sora.

En un momento, Google dijo que estaba explorando las aplicaciones de Veo en colaboración con artistas como Donald Glover (también conocido como Childish Gambino). La empresa no dio ninguna actualización sobre esos esfuerzos de alcance hoy.

La presentación de Google para Veo, como una forma de reducir costos y hacer iteraciones rápidamente en el contenido de video, corre el riesgo de alienar a los creativos. Un estudio de 2024 encargado por el Animation Guild, un sindicato que representa a animadores y dibujantes de Hollywood, estima que más de 100,000 empleos en cine, televisión y animación basados en EE. UU. serán interrumpidos por la IA para 2026.

Eso podría explicar el enfoque cauteloso y «lento y constante» de Google. Cuando se le preguntó, Barkley no dio una ETA para la disponibilidad general de Veo en Vertex, ni dijo cuándo Veo podría llegar a plataformas y servicios adicionales de Google.

Créditos de la imagen:Google

«Normalmente lanzamos productos en vista previa primero, ya que nos permite obtener comentarios del mundo real de un grupo selecto de nuestros clientes empresariales antes de que esté disponible para un uso más amplio”, dijo. «Esto ayuda a mejorar la funcionalidad y garantizar que el producto satisfaga las necesidades de nuestros clientes».

En un anuncio relacionado hoy, Google dijo que su generador de imágenes estrella, Imagen 3, está disponible ahora para todos los clientes de Vertex AI sin lista de espera. Ha ganado nuevas características de personalización y edición de imágenes, pero estas están cerradas detrás de una lista de espera separada por ahora.