Mistral lanza Pixtral 12B, su primer modelo multimodal

Spread the love

La startup francesa de inteligencia artificial Mistral ha lanzado su primer modelo que puede procesar imágenes además de texto.

Llamado Pixtral 12B, el modelo de 12 mil millones de parámetros tiene un tamaño de aproximadamente 24GB. Los parámetros corresponden aproximadamente a las habilidades para resolver problemas de un modelo, y los modelos con más parámetros generalmente funcionan mejor que aquellos con menos parámetros.

Construido sobre uno de los modelos de texto de Mistral, Nemo 12B, el nuevo modelo puede responder preguntas sobre un número arbitrario de imágenes de un tamaño arbitrario dado ya sea a través de URL o imágenes codificadas usando base64, el esquema de codificación binario a texto. Al igual que otros modelos multimodales como la familia Claude de Anthropic y el GPT-4o de OpenAI, Pixtral 12B debería, al menos en teoría, poder realizar tareas como subtitular imágenes y contar el número de objetos en una foto.

Imagem destacada

Disponible a través de un enlace torrent en GitHub y en la plataforma de desarrollo de inteligencia artificial y aprendizaje automático Hugging Face, Pixtral 12B se puede descargar, afinar y utilizar bajo una licencia Apache 2.0 sin restricciones. (Un portavoz de Mistral confirmó la licencia aplicada a Pixtral 12B por correo electrónico).

Este escritor no pudo probar Pixtral 12B, desafortunadamente, ya que no había demos web funcionales en el momento de la publicación. En una publicación en X, Sophia Yang, jefa de relaciones con desarrolladores de Mistral, dijo que Pixtral 12B estará disponible para pruebas en las plataformas de chatbot y API de Mistral, Le Chat y Le Plateforme, pronto.

No está claro qué datos de imagen utilizó Mistral para desarrollar Pixtral 12B.

La mayoría de los modelos de inteligencia artificial generativa, incluidos los otros modelos de Mistral, se entrenan en vastas cantidades de datos públicos de todo internet, que a menudo están protegidos por derechos de autor. Algunos proveedores de modelos argumentan que los derechos de «uso justo» les permiten rascar cualquier dato público, pero muchos titulares de derechos de autor no están de acuerdo y han presentado demandas contra proveedores más grandes como OpenAI y Midjourney para detener esta práctica.

¡La startup de garantía de vehículos eléctricos Amber lanza un servicio de diagnóstico remoto para Teslas!

¡Oprah acaba de presentar un especial sobre inteligencia artificial con Sam Altman y Bill Gates – esto son los puntos destacados!