Google DeepMind presenta un nuevo modelo de vídeo para competir con Sora

Spread the love

Google DeepMind, el laboratorio insignia de investigación en IA de Google, quiere superar a OpenAI en el juego de generación de video, y podría lograrlo, al menos por un tiempo.

El lunes, DeepMind anunció Veo 2, una IA generadora de video de próxima generación y sucesora de Veo, que impulsa una creciente cantidad de productos en el portafolio de Google. Veo 2 puede crear clips de más de dos minutos en resoluciones de hasta 4k (4096 x 2160 píxeles).

Notablemente, esa es una resolución 4 veces mayor, y una duración más de 6 veces mayor, de lo que Sora de OpenAI puede lograr.

Es una ventaja teórica por ahora, concedido. En la herramienta experimental de creación de video de Google, VideoFX, donde Veo 2 está disponible exclusivamente, los videos están limitados a 720p y ocho segundos de duración. (Sora puede producir clips de hasta 1080p, de 20 segundos de duración).

Veo 2 en VideoFX. Créditos de imagen: Google

VideoFX tiene una lista de espera, pero Google dice que esta semana está ampliando el número de usuarios que pueden acceder a ella.

Eli Collins, VP de producto en DeepMind, también le dijo a TechCrunch que Google hará que Veo 2 esté disponible a través de su plataforma de desarrollo de AI Vertex «a medida que el modelo esté listo para su uso a gran escala».

«En los próximos meses, continuaremos iterando basándonos en los comentarios de los usuarios», dijo Collins, «y buscaremos integrar las capacidades actualizadas de Veo 2 en casos de uso convincentes en todo el ecosistema de Google… Esperamos compartir más actualizaciones el próximo año».

Actualizar ahora hasta el 4 de junio para TechCrunch Sessions: AI

Ahorre $300 en su boleto para TC Sessions: AI y obtenga un 50% de descuento en un segundo. Escuche a líderes de OpenAI, Anthropic, Khosla Ventures y más durante un día completo de conocimientos expertos, talleres prácticos y una red de alto impacto. ¡Estas ofertas a bajo precio desaparecen cuando se abren las puertas el 5 de junio!

Exhiba en TechCrunch Sessions: AI

Asegure su lugar en TC Sessions: AI y muestre a más de 1,200 tomadores de decisiones lo que ha construido, sin gastar mucho. Disponible hasta el 9 de mayo o hasta que se agoten las mesas.

Berkeley, CA

5 de junio

REGÍSTRESE AHORA

Más controlable

Al igual que Veo, Veo 2 puede generar videos a partir de una indicación de texto (por ejemplo, «Un auto corriendo por una autopista») o texto e imagen de referencia.

Entonces, ¿qué hay de nuevo en Veo 2? Bueno, DeepMind dice que el modelo, que puede generar clips en una variedad de estilos, tiene una «comprensión» mejorada de la física y los controles de cámara, y produce imágenes «más nítidas».

Con más claridad, DeepMind se refiere a que las texturas e imágenes en los clips son más nítidas, especialmente en escenas con mucho movimiento. En cuanto a los controles de cámara mejorados, permiten que Veo 2 posicione la «cámara» virtual en los videos que genera de manera más precisa y mueva esa cámara para capturar objetos y personas desde diferentes ángulos.

Google Veo 2 de muestra. Tenga en cuenta que los artefactos de compresión se introdujeron en la conversión del clip a un GIF. Créditos de imagen: Google

DeepMind compartió algunas muestras seleccionadas de Veo 2 con TechCrunch la semana pasada. Para videos generados por IA, se veían bastante bien, excepcionalmente bien incluso. Veo 2 parece tener un sólido entendimiento de la refracción y líquidos complicados, como el jarabe de arce, y un don para emular la animación al estilo de Pixar.

Pero a pesar de la insistencia de DeepMind en que el modelo es menos propenso a alucinar elementos como dedos extra o «objetos inesperados», Veo 2 no logra cruzar completamente el valle inquietante.

Note los ojos sin vida en esta criatura de dibujos animados parecida a un perro:

Créditos de imagen: Google

Y la extrañamente resbaladiza carretera en esta grabación, además de los peatones en el fondo mezclándose unos con otros y los edificios con fachadas físicamente imposibles:

Créditos de imagen: Google

Collins admitió que hay trabajo por hacer.

«La coherencia y la consistencia son áreas de mejora», dijo. «Veo puede adherirse consistentemente a una indicación durante un par de minutos, pero no puede adherirse a indicaciones complejas a lo largo de horizontes largos. Del mismo modo, la consistencia de personajes puede ser un desafío. También hay margen para mejorar en la generación de detalles intrincados, movimientos rápidos y complejos, y seguir empujando los límites del realismo».

DeepMind continúa trabajando con artistas y productores para refinar sus modelos y herramientas de generación de video, agregó Collins.