¡Meta lanza Llama 3 y afirma que es uno de los mejores modelos abiertos disponibles!

Spread the love

Meta ha lanzado la última entrada en su serie Llama de modelos de inteligencia artificial generativa abierta: Llama 3. O, más precisamente, la empresa ha presentado dos modelos en su nueva familia Llama 3, con el resto por llegar en una fecha futura no especificada.

Meta describe los nuevos modelos, Llama 3 8B, que contiene 8 mil millones de parámetros, y Llama 3 70B, que contiene 70 mil millones de parámetros, como un «gran salto» en comparación con los modelos Llama anteriores, Llama 2 8B y Llama 2 70B, en cuanto a rendimiento. De hecho, Meta asegura que, para sus respectivas cuentas de parámetros, Llama 3 8B y Llama 3 70B, entrenados en dos clústeres de GPU personalizados de 24,000, se encuentran entre los mejores modelos de inteligencia artificial generativa disponibles hoy en día.

Esa es una afirmación bastante fuerte. Entonces, ¿cómo la respalda Meta? Bueno, la empresa menciona los puntajes de los modelos Llama 3 en benchmarks populares de inteligencia artificial como MMLU (que intenta medir conocimiento), ARC (que intenta medir la adquisición de habilidades) y DROP (que prueba el razonamiento de un modelo sobre fragmentos de texto). Como hemos mencionado antes, la utilidad, y validez, de estos benchmarks está sujeta a debate. Pero para bien o para mal, siguen siendo una de las pocas formas estandarizadas por las cuales jugadores de inteligencia artificial como Meta evalúan sus modelos.

Llama 3 8B supera a otros modelos abiertos como Mistral’s Mistral 7B y Gemma 7B de Google, ambos con 7 mil millones de parámetros, en al menos nueve benchmarks: MMLU, ARC, DROP, GPQA (un conjunto de preguntas relacionadas con biología, física y química), HumanEval (una prueba de generación de código), GSM-8K (problemas matemáticos de palabras), MATH (otro benchmark de matemáticas), AGIEval (un conjunto de pruebas de resolución de problemas) y BIG-Bench Hard (una evaluación de razonamiento de sentido común).

Ahora, Mistral 7B y Gemma 7B no están exactamente en la vanguardia (Mistral 7B fue lanzado en septiembre pasado), y en algunos de los benchmarks que Meta menciona, Llama 3 8B obtiene solo unos pocos puntos porcentuales más altos que cualquiera de ellos. Pero Meta también afirma que el modelo Llama 3 de mayor cantidad de parámetros, Llama 3 70B, es competitivo con modelos insignia de inteligencia artificial generativa, incluido Gemini 1.5 Pro, lo último en la serie Gemini de Google.

Sin embargo, Llama 3 70B supera a Gemini 1.5 Pro en MMLU, HumanEval y GSM-8K, y, aunque no rivaliza con el modelo más performante de Anthropic, Claude 3 Opus, Llama 3 70B obtiene mejores resultados que el segundo modelo más débil de la serie Claude 3, Claude 3 Sonnet, en cinco benchmarks (MMLU, GPQA, HumanEval, GSM-8K y MATH).

Más cualitativamente, Meta dice que los usuarios de los nuevos modelos Llama deben esperar más «direccionabilidad», una menor probabilidad de negarse a responder preguntas y una mayor precisión en preguntas de trivialidades, preguntas relacionadas con historia y campos STEM como ingeniería y ciencia y recomendaciones generales de codificación. Esto se debe en parte a un conjunto de datos mucho más grande: una colección de 15 billones de tokens, o aproximadamente ~750,000,000,000 palabras, siete veces el tamaño del conjunto de entrenamiento de Llama 2.

¡Meta lanza Llama 3 y afirma que es uno de los mejores modelos abiertos disponibles!

Órgão de privacidade da UE adota posição sobre a polêmica tática de ‘consentir ou pagar’ da Meta

Wall Street no parece muy entusiasmada con una posible unión entre Salesforce e Informatica.

noticias generales

Elon Musk’s Neuralink closes a $650M Series E

¡Valla recauda $2.7 millones para hacer más accesible la vía legal a los empleados!

Desafío de crecimiento frenético de los centros de datos desafía los objetivos de sostenibilidad de Microsoft.

IBM adquiere startup de análisis de datos Seek AI y abre acelerador de IA en NYC

Sindicato de videojuegos firma primer acuerdo con Microsoft

Influencers de izquierda abrazan Bluesky sin abandonar X, afirma Pew

NAACP exige que autoridades de Memphis parem operações no ‘centro de dados sujo’ da xAI

Meta planea automatizar muchas de sus evaluaciones de riesgo de productos

Resumen Semanal: ¡Perplexity Labs quiere hacer tu trabajo!

Space Forge recauda $30 millones en Serie A para fabricar materiales de chips en el espacio

seguridad digital

Qualcomm resuelve tres vulnerabilidades zero-day explotadas por hackers

¡Supermercado indio KiranaPro hackeado y servidores eliminados, CEO lo confirma!

¡Kettering, el gigante de la salud, sigue luchando contra interrupciones tras el ataque de ransomware!

¡Desapareció el informe de seguridad prometido por XAI!

Google anuncia nuevas funciones de seguridad para Android ¡protégete de estafas y robos!