En una reciente aparición en Possible, un podcast co-presentado por Reid Hoffman, co-fundador de LinkedIn, el CEO de Google DeepMind, Demis Hassabis, dijo que el gigante de las búsquedas tiene planes de combinar eventualmente sus modelos de inteligencia artificial Gemini con sus modelos generadores de video Veo para mejorar la comprensión del mundo físico por parte del primero.
«Siempre hemos construido Gemini, nuestro modelo base, para ser multimodal desde el principio», dijo Hassabis, «Y la razón por la que hicimos eso es porque tenemos una visión para esta idea de un asistente digital universal, un asistente que realmente te ayuda en el mundo real».
La industria de la inteligencia artificial se está moviendo gradualmente hacia modelos «omni», por así decirlo, modelos que pueden entender y sintetizar muchas formas de medios. Los nuevos modelos Gemini de Google pueden generar audio, así como imágenes y texto, mientras que el modelo predeterminado de OpenAI en ChatGPT ahora puede crear imágenes, incluyendo arte al estilo de Studio Ghibli, por supuesto. Amazon también ha anunciado planes para lanzar un modelo «cualquiera a cualquiera» más adelante este año.

Estos modelos omni requieren una gran cantidad de datos de entrenamiento, como imágenes, videos, audio, texto, etc. Hassabis insinuó que los datos de video para Veo provienen principalmente de YouTube, una plataforma que Google posee.
«Básicamente, al ver videos de YouTube, muchos videos de YouTube, Veo 2 puede descubrir, ya sabes, la física del mundo», dijo Hassabis.
Anteriormente, Google le dijo a TechCrunch que sus modelos «podrían ser» entrenados en «algunos» contenidos de YouTube de acuerdo con su acuerdo con los creadores de YouTube. Según informes, la compañía amplió sus términos de servicio el año pasado en parte para aprovechar más datos para entrenar sus modelos de inteligencia artificial.