Por qué la decisión de Elon Musk de ‘liberar’ Grok importa

Spread the love

El modelo de lenguaje grande de Grok de xAI de Elon Musk fue lanzado como «código abierto» durante el fin de semana. El multimillonario claramente espera poner a su empresa en desacuerdo con el rival OpenAI, que, a pesar de su nombre, no es particularmente abierto. Pero, ¿realmente contribuye soltar el código de algo como Grok a la comunidad de desarrollo de inteligencia artificial? Sí y no.

Grok es un chatbot entrenado por xAI para desempeñar el mismo papel vagamente definido que algo como ChatGPT o Claude: le preguntas, te responde. Sin embargo, a este LLM se le dio un tono descarado y un acceso adicional a datos de Twitter como una forma de diferenciarlo del resto.

Como siempre, estos sistemas son casi imposibles de evaluar, pero la opinión general parece ser que es competitivo con modelos de tamaño mediano de la última generación, como GPT-3.5. (Si decides si esto es impresionante dado el breve marco de tiempo de desarrollo o decepcionante dada la inversión y alarde que rodea a xAI, depende completamente de ti.)

En cualquier caso, Grok es un LLM moderno y funcional de un tamaño y capacidad significativos, y cuánto más acceso tenga la comunidad de desarrolladores a las entrañas de estas cosas, mejor. El problema está en definir «abierto» de una manera que haga más que permitir que una empresa (o un multimillonario) reclame la posición moral alta.

Esto no es la primera vez que se cuestionan o abusan los términos «abierto» y «código abierto» en el mundo de la inteligencia artificial. Y no estamos hablando solo de un problema técnico, como elegir una licencia de uso que no sea tan abierta como otra (Grok es Apache 2.0, si te estás preguntando).

5 inversores sobre los pros y los contras de los modelos de negocio de inteligencia artificial de código abierto

Para empezar, los modelos de IA son diferentes a otro tipo de software cuando se trata de hacerlos «código abierto».

Si estás haciendo, digamos, un procesador de texto, es relativamente simple hacerlo de código abierto: publicas todo tu código públicamente y permites que la comunidad proponga mejoras o haga su propia versión. Parte de lo que hace valioso al código abierto como concepto es que cada aspecto de la aplicación es original o acreditado a su creador original: esta transparencia y el cumplimiento de la correcta atribución no son solo un subproducto, sino que son fundamentales para el mismo concepto de apertura.

Con IA, esto probablemente no sea posible en absoluto, porque la forma en que se crean los modelos de aprendizaje automático implica un proceso en gran medida desconocido, mediante el cual una inmensa cantidad de datos de entrenamiento se destila en una representación estadística compleja cuya estructura no fue dirigida realmente por ningún humano, ni siquiera se entiende. Este proceso no se puede inspeccionar, auditar y mejorar de la manera en que el código tradicional puede, por lo que aunque sigue teniendo un valor inmenso en un sentido, realmente no puede ser abierto. (La comunidad de estándares ni siquiera ha definido qué será abierto en este contexto, pero lo están discutiendo activamente).

Eso no ha impedido a los desarrolladores y empresas de IA diseñar y afirmar que sus modelos son «abiertos», un término que ha perdido gran parte de su significado en este contexto. Algunos llaman a su modelo «abierto» si hay una interfaz o API para el público. Algunos lo llaman «abierto» si publican un artículo describiendo el proceso de desarrollo.

Argüiblemente, lo más cercano a «código abierto» que puede ser un modelo de IA es cuando sus desarrolladores publican sus pesos, es decir, los atributos exactos de los innumerables nodos de sus redes neuronales, que realizan operaciones matemáticas vectoriales en un orden preciso para completar el patrón iniciado por la entrada de un usuario. Pero incluso los modelos de «pesos abiertos» como LLaMa-2 excluyen otros datos importantes, como el conjunto de datos de entrenamiento y el proceso; lo cual sería necesario para recrearlo desde cero. (Algunos proyectos van más allá, por supuesto).

Todo esto antes de mencionar siquiera el hecho de que se necesitan millones de dólares en recursos informáticos e ingenieriles para crear o replicar estos modelos, restringiendo efectivamente quién puede crearlos y replicarlos a las empresas con recursos considerables.

xAI libera el modelo base de Grok, pero sin código de entrenamiento.

Entonces, ¿en qué parte de este espectro se sitúa el lanzamiento de Grok de xAI?

Como modelo de «pesos abiertos», está listo para que cualquiera lo descargue, lo use, lo modifique, lo ajuste o lo destile. ¡Eso es bueno! Parece estar entre los modelos más grandes a los que cualquiera puede acceder de esta manera de forma gratuita, en términos de parámetros, 314 mil millones, lo que le da a los ingenieros curiosos mucho con qué trabajar si desean probar cómo se desempeña después de varias modificaciones.

Sin embargo, el tamaño del modelo tiene serias desventajas. Necesitarás cientos de gigabytes de RAM de alta velocidad para usarlo en esta forma cruda. Si no tienes, digamos, una docena de Nvidia H100 en un equipo de inferencia de IA de seis cifras, ni siquiera te molestes en hacer clic en ese enlace de descarga.

Y aunque Grok es argumentablemente competitivo con otros modelos modernos, es también mucho, mucho más grande que ellos, lo que significa que requiere más recursos para lograr lo mismo. Siempre hay una jerarquía de tamaño, eficiencia y otras métricas, y sigue siendo valioso, pero es más material en bruto que producto final. Tampoco está claro si esta es la versión más reciente y mejor de Grok, como la versión claramente ajustada a la que algunos tienen acceso a través de X.

En general, es bueno liberar estos datos, pero no es un cambio de juego como algunos esperaban que fuera.

También es difícil no preguntarse por qué Musk está haciendo esto. ¿Está realmente su empresa de IA dedicada al desarrollo de código abierto? ¿O es solo un golpe en el ojo de OpenAI, con la que Musk está persiguiendo actualmente un enfrentamiento a nivel de multimillonario?

Si realmente están dedicados al desarrollo de código abierto, este será el primero de muchos lanzamientos y espero que tengan en cuenta los comentarios de la comunidad, liberen otra información crucial, caractericen el proceso de datos de entrenamiento y expliquen más a fondo su enfoque. Si no lo están, y esto se hace solo para que Musk pueda señalarlo en discusiones en línea, sigue siendo valioso, pero no es algo en lo que cualquiera en el mundo de la IA confiará o prestará mucha atención después de los próximos meses mientras juegan con el modelo.