¡Meta lanza Llama 3 y afirma que es uno de los mejores modelos abiertos disponibles!

Spread the love

Meta ha lanzado la última entrada en su serie Llama de modelos de inteligencia artificial generativa abierta: Llama 3. O, más precisamente, la empresa ha presentado dos modelos en su nueva familia Llama 3, con el resto por llegar en una fecha futura no especificada.

Meta describe los nuevos modelos, Llama 3 8B, que contiene 8 mil millones de parámetros, y Llama 3 70B, que contiene 70 mil millones de parámetros, como un «gran salto» en comparación con los modelos Llama anteriores, Llama 2 8B y Llama 2 70B, en cuanto a rendimiento. De hecho, Meta asegura que, para sus respectivas cuentas de parámetros, Llama 3 8B y Llama 3 70B, entrenados en dos clústeres de GPU personalizados de 24,000, se encuentran entre los mejores modelos de inteligencia artificial generativa disponibles hoy en día.

Esa es una afirmación bastante fuerte. Entonces, ¿cómo la respalda Meta? Bueno, la empresa menciona los puntajes de los modelos Llama 3 en benchmarks populares de inteligencia artificial como MMLU (que intenta medir conocimiento), ARC (que intenta medir la adquisición de habilidades) y DROP (que prueba el razonamiento de un modelo sobre fragmentos de texto). Como hemos mencionado antes, la utilidad, y validez, de estos benchmarks está sujeta a debate. Pero para bien o para mal, siguen siendo una de las pocas formas estandarizadas por las cuales jugadores de inteligencia artificial como Meta evalúan sus modelos.

Imagem destacada

Llama 3 8B supera a otros modelos abiertos como Mistral’s Mistral 7B y Gemma 7B de Google, ambos con 7 mil millones de parámetros, en al menos nueve benchmarks: MMLU, ARC, DROP, GPQA (un conjunto de preguntas relacionadas con biología, física y química), HumanEval (una prueba de generación de código), GSM-8K (problemas matemáticos de palabras), MATH (otro benchmark de matemáticas), AGIEval (un conjunto de pruebas de resolución de problemas) y BIG-Bench Hard (una evaluación de razonamiento de sentido común).

Ahora, Mistral 7B y Gemma 7B no están exactamente en la vanguardia (Mistral 7B fue lanzado en septiembre pasado), y en algunos de los benchmarks que Meta menciona, Llama 3 8B obtiene solo unos pocos puntos porcentuales más altos que cualquiera de ellos. Pero Meta también afirma que el modelo Llama 3 de mayor cantidad de parámetros, Llama 3 70B, es competitivo con modelos insignia de inteligencia artificial generativa, incluido Gemini 1.5 Pro, lo último en la serie Gemini de Google.

Sin embargo, Llama 3 70B supera a Gemini 1.5 Pro en MMLU, HumanEval y GSM-8K, y, aunque no rivaliza con el modelo más performante de Anthropic, Claude 3 Opus, Llama 3 70B obtiene mejores resultados que el segundo modelo más débil de la serie Claude 3, Claude 3 Sonnet, en cinco benchmarks (MMLU, GPQA, HumanEval, GSM-8K y MATH).

Más cualitativamente, Meta dice que los usuarios de los nuevos modelos Llama deben esperar más «direccionabilidad», una menor probabilidad de negarse a responder preguntas y una mayor precisión en preguntas de trivialidades, preguntas relacionadas con historia y campos STEM como ingeniería y ciencia y recomendaciones generales de codificación. Esto se debe en parte a un conjunto de datos mucho más grande: una colección de 15 billones de tokens, o aproximadamente ~750,000,000,000 palabras, siete veces el tamaño del conjunto de entrenamiento de Llama 2.

Órgão de privacidade da UE adota posição sobre a polêmica tática de ‘consentir ou pagar’ da Meta

Wall Street no parece muy entusiasmada con una posible unión entre Salesforce e Informatica.