El GPT-4V de OpenAI está siendo aclamado como la próxima gran cosa en IA: un modelo «multimodal» que puede entender tanto texto como imágenes. Esto tiene una utilidad obvia, por eso un par de proyectos de código abierto han lanzado modelos similares, pero también hay un lado oscuro en el que podrían tener más problemas para manejar. Aquí te contamos cómo se comparan.
Los modelos multimodales pueden hacer cosas que los modelos estrictamente de análisis de texto o imágenes no pueden. Por ejemplo, GPT-4V podría proporcionar instrucciones que son más fáciles de mostrar que de explicar, como arreglar una bicicleta. Y debido a que los modelos multimodales no solo pueden identificar lo que hay en una imagen, sino también extrapolar y comprender el contenido (al menos en cierta medida), van más allá de lo obvio; por ejemplo, sugiriendo recetas que se pueden preparar utilizando ingredientes de un refrigerador mostrado en una imagen.
Pero los modelos multimodales presentan nuevos riesgos. OpenAI inicialmente retrasó el lanzamiento de GPT-4V, temiendo que se pudiera utilizar para identificar a personas en imágenes sin su consentimiento o conocimiento. Incluso ahora, GPT-4V, que solo está disponible para suscriptores del plan ChatGPT Plus de OpenAI, tiene fallas preocupantes, incluida una incapacidad para reconocer símbolos de odio y una tendencia a discriminar ciertos sexos, demografías y tipos de cuerpo. ¡Y esto es según OpenAI mismo!
A pesar de los riesgos, las empresas y los grupos sueltos de desarrolladores independientes están avanzando, lanzando modelos multimodales de código abierto que, si bien no son tan capaces como GPT-4V, pueden lograr muchas, si no la mayoría, de las mismas cosas.

A principios de este mes, un equipo de investigadores de la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia lanzaron LLaVA-1.5 (acrónimo de «Large Language-and-Vision Assistant»), que, al igual que GPT-4V, puede responder preguntas sobre imágenes dadas instrucciones como «¿Qué es inusual en esta imagen?» y «¿En qué debo tener cuidado cuando visite este lugar?».
LLaVA-1.5 siguió los pasos de Qwen-VL, un modelo multimodal de código abierto desarrollado por un equipo de Alibaba (y que Alibaba está licenciando a empresas con más de 100 millones de usuarios activos mensuales), y modelos de comprensión de imágenes y texto de Google, incluidos PaLI-X y PaLM-E. Pero LLaVA-1.5 es uno de los primeros modelos multimodales fáciles de poner en funcionamiento en hardware a nivel de consumidor, una GPU con menos de 8 GB de VRAM.
En otras partes, Adept, una startup que construye modelos de IA que pueden navegar por software y la web de forma autónoma, hizo de código abierto un modelo multimodal de texto e imagen similar a GPT-4V, pero con un giro. El modelo de Adept comprende datos de «trabajadores del conocimiento» como gráficos, gráficos y pantallas, lo que le permite manipular — y razonar sobre — estos datos.
LLaVA-1.5 es una versión mejorada de LLaVA, que fue lanzada hace varios meses por un equipo de investigación afiliado a Microsoft.
Al igual que LLaVA, LLaVA-1.5 combina un componente llamado «codificador visual» y Vicuna, un chatbot de código abierto basado en el modelo Llama de Meta, para dar sentido a las imágenes y al texto y cómo se relacionan.
