Generador de videos de Google llega a más clientes

Spread the love

El generador de video de Google llegará a algunos clientes más, exactamente a los clientes de Google Cloud.

El martes, Google anunció que Veo, su modelo de inteligencia artificial que puede generar clips de video cortos a partir de imágenes e indicaciones, estará disponible en vista previa privada para los clientes que utilicen Vertex AI, la plataforma de desarrollo de IA de Google Cloud.

Google dice que el lanzamiento permitirá a un cliente, Quora, llevar Veo a su plataforma de chatbot Poe, y a otro, el propietario de Oreo Mondelez International, crear contenido de marketing con sus socios de agencias.

“Creamos Poe para democratizar el acceso a los mejores modelos de IA generativa del mundo”, dijo Spencer Chan, líder de producto de Poe, en un comunicado. “A través de asociaciones con líderes como Google, estamos expandiendo las posibilidades creativas en todas las modalidades de IA”.

Generador emblemático

Presentado en abril, Veo puede generar clips de 1080p de animales, objetos y personas de hasta seis segundos de duración a 24 o 30 cuadros por segundo. Google afirma que Veo es capaz de capturar diferentes estilos visuales y cinematográficos, incluidas tomas de paisajes y lapsos de tiempo, y hacer ediciones en el metraje ya generado.

¿Por qué la larga espera para la API? “Preparación empresarial”, dice Warren Barkley, director senior de gestión de productos en Google Cloud.

Algunas de las creaciones de Veo. Créditos de imagen: Google

“Desde que se anunció Veo, nuestros equipos han mejorado, fortalecido y mejorado el modelo para clientes empresariales en Vertex AI”, dijo. “A partir de hoy, puedes crear videos de alta definición en 720p, en relaciones de aspecto apaisadas de 16:9 o verticales de 9:16. De manera similar a cómo hemos mejorado las capacidades de otros modelos como Gemini en Vertex AI, continuaremos haciéndolo para Veo”.

Veo comprende razonablemente bien los efectos visuales desde las indicaciones, dice Google (piensa en subtítulos como “explosión enorme”), y tiene cierto conocimiento de física, incluida la dinámica de fluidos. El modelo también admite edición enmascarada para cambios en regiones específicas de un video, y es técnicamente capaz de concatenar metraje en proyectos más largos.

En estos aspectos, Veo es competitivo con los modelos generadores de video líderes de hoy en día, no solo Sora de OpenAI, sino también modelos de Adobe, Runway, Luma, Meta, entre otros.

Proporcionar una imagen de referencia con una indicación condiciona a Veo a generar un video que siga el estilo de la imagen y las instrucciones de la indicación. Créditos de imagen: Google

Eso no significa que Veo sea perfecto. Reflejando las limitaciones de la IA actual, los objetos en los videos de Veo desaparecen y reaparecen sin mucha explicación o consistencia. Y Veo a menudo se equivoca en cuanto a física. Por ejemplo, los autos inexplicablemente se invierten en un centavo.

Entrenamiento y riesgos

Veo fue entrenado con mucha filmación. Eso es generalmente cómo funcionan los modelos de IA generativa: proporcionados con ejemplo tras ejemplo de algún tipo de datos, los modelos captan patrones en los datos que les permiten generar nuevos datos —videos, en el caso de Veo.

Google, al igual que muchos de sus rivales de IA, no dirá exactamente de dónde obtiene los datos para entrenar sus modelos generativos. Preguntado específicamente sobre Veo, Barkley solo dijo que el modelo “podría” estar entrenado con “algunos” contenidos de YouTube “de acuerdo con [el] acuerdo de Google con los creadores de YouTube”. (La empresa matriz de Google, Alphabet, posee YouTube).

“Veo ha sido entrenado en una variedad de conjuntos de datos de descripción de video de alta calidad que están altamente curados para garantizar la seguridad”, agregó. “Los modelos fundamentales de Google se entrenan principalmente en fuentes de acceso público”.

Una investigación del New York Times en abril reveló que Google amplió sus términos de servicio el año pasado en parte para permitir que la empresa acceda a más datos para entrenar sus modelos de IA. Bajo los antiguos términos de servicio, no estaba claro si Google podía utilizar datos de YouTube para construir productos más allá de la plataforma de video. No es así bajo los nuevos términos, que aflojan considerablemente las restricciones.

Otro ejemplo de Veo. Créditos de imagen: Google

Si bien Google ofrece herramientas para permitir a los administradores de sitios web bloquear los bots de la empresa de rastrear datos de entrenamiento de sus sitios web, no ofrece un mecanismo para que los creadores eliminen sus trabajos de sus conjuntos de entrenamiento existentes. Google sostiene que entrenar modelos utilizando datos de acceso público es uso justo, lo que significa que la empresa cree que no está obligada a solicitar permiso a los propietarios de datos ni compensarlos. (Sin embargo, Google dice que no utiliza datos de clientes para entrenar sus modelos).

Gracias a cómo se comportan los modelos generativos de hoy en día cuando están entrenados, presentan ciertos riesgos, como regurgitación, que se refiere a cuando un modelo genera una copia exacta de los datos de entrenamiento. Se ha descubierto que herramientas como la de Runway arrojan imágenes estáticas sustancialmente similares a las de videos con derechos de autor, creando un posible campo minado legal para los usuarios de las herramientas.

La solución de Google son filtros a nivel de indicación para Veo, incluidos para contenido violento y explícito. En caso de que estos filtros fallen, la empresa dice que su política de indemnidad proporciona una defensa para los usuarios elegibles de Veo contra acusaciones de infringir derechos de autor.

“Planeamos indemnizar las salidas de Veo en Vertex AI cuando esté disponible de forma general”, dijo Barkley.

Veo en todas partes

Google ha integrado lentamente a Veo en más de sus aplicaciones y servicios a medida que trabaja en pulir el modelo.

En mayo, Google llevó Veo a Google Labs, su programa de acceso anticipado, para probadores seleccionados. Y en septiembre, Google anunció una integración de Veo para YouTube Shorts, el formato de video de corta duración de YouTube, para permitir a los creadores generar fondos y clips de video de seis segundos.

¿Y cuál es el riesgo de los deepfakes en todo esto, te estarás preguntando? Google dice que está utilizando su tecnología de marca de agua propietaria, SynthID, para incrustar marcadores invisibles en los fotogramas que genera Veo. Es cierto que SynthID no es infalible contra ediciones, y Google no ha puesto a disposición de terceros la pieza de identificación de contenido.

Otro ejemplo de Veo. Créditos de imagen: Google

Estos pueden ser puntos sin importancia si Veo no gana una tracción significativa. En el frente de las asociaciones, Google ha cedido terreno a los rivales de IA generativa, que se han apresurado a cautivar a productores, estudios y agencias creativas con sus herramientas. Runway recientemente firmó un acuerdo con Lionsgate para entrenar un modelo personalizado en el catálogo de películas del estudio, y OpenAI se asoció con marcas y directores independientes para mostrar el potencial de Sora.

En un momento, Google dijo que estaba explorando las aplicaciones de Veo en colaboración con artistas, incluido Donald Glover (también conocido como Childish Gambino). La empresa no proporcionó una actualización sobre esos esfuerzos de contacto hoy.

La propuesta de Google para Veo —una forma de reducir costos e iterar rápidamente en contenido de video— corre el riesgo de alienar a los creativos. Un estudio de 2024 encargado por Animation Guild, un sindicato que representa a animadores y dibujantes de Hollywood, estima que más de 100,000 empleos en cine, televisión y animación en EE. UU. serán perturbados por la IA para 2026.

Esto podría explicar el enfoque cauto y “lento y constante” de Google. Cuando se le preguntó, Barkley no dio una fecha para la disponibilidad general de Veo en Vertex, ni dijo cuándo Veo podría llegar a plataformas y servicios adicionales de Google.

Créditos de imagen: Google

“Normalmente lanzamos productos en versión preliminar primero, ya que nos permite recibir comentarios del mundo real de un grupo selecto de nuestros clientes empresariales antes de que esté disponible de forma general para un uso más amplio”, dijo. “Esto ayuda a mejorar la funcionalidad y garantizar que el producto satisfaga las necesidades de nuestros clientes”.

En un anuncio relacionado hoy, Google dijo que su generador de imágenes emblemático, Imagen 3, ahora está disponible para todos los clientes de Vertex AI sin una lista de espera. Ha ganado nuevas funciones de personalización y edición de imágenes, pero estas están protegidas por una lista de espera separada por ahora.