Zuckerberg presenta la última visión de video de Meta con el CEO de Nvidia, Jensen Huang

Spread the love

El año pasado, Meta tuvo un gran éxito con Segment Anything, un modelo de aprendizaje automático que podía identificar y delinear rápidamente casi cualquier cosa en una imagen. La secuela, que el CEO Mark Zuckerberg presentó en SIGGRAPH el lunes, lleva el modelo al dominio del video, mostrando lo rápido que avanza el campo.

La segmentación es el término técnico cuando un modelo de visión mira una imagen y selecciona las partes: «esto es un perro, esto es un árbol detrás del perro», con suerte, y no «esto es un árbol creciendo de un perro». Esto ha estado sucediendo durante décadas, pero recientemente ha mejorado mucho y se ha vuelto más rápido, con Segment Anything siendo un gran avance.

Segment Anything 2 (SA2) es una continuación natural ya que se aplica nativamente al video y no solo a imágenes estáticas; aunque podrías, por supuesto, ejecutar el primer modelo en cada fotograma de un video individualmente, no es el flujo de trabajo más eficiente.

«Los científicos utilizan esto para estudiar, como, arrecifes de coral y hábitats naturales, cosas así. Pero poder hacer esto en video y que sea de cero disparos y decirle lo que quieres, es bastante genial», dijo Zuckerberg en una conversación con el CEO de Nvidia, Jensen Huang.

Procesar video es, por supuesto, mucho más exigente computacionalmente, y es un testimonio de los avances realizados en toda la industria en eficiencia que SA2 puede ejecutarse sin sobrecargar el centro de datos. Por supuesto, sigue siendo un modelo enorme que necesita hardware serio para funcionar, pero la segmentación rápida y flexible era prácticamente imposible incluso hace un año.

El modelo, al igual que el primero, será abierto y gratuito para usar, y no se habla de una versión alojada, algo que estas compañías de IA a veces ofrecen. Pero hay una demostración gratuita.

Naturalmente, un modelo así requiere un montón de datos para entrenar, y Meta también está lanzando una gran base de datos anotada de 50,000 videos que había creado específicamente para este propósito. En el documento que describe SA2, también se utilizó otra base de datos de más de 100,000 videos «disponibles internamente» para el entrenamiento, y esta no se está haciendo pública, he pedido más información a Meta sobre qué es esto y por qué no se está liberando (Nuestra conjetura sería que se obtiene de perfiles públicos de Instagram y Facebook).