Miembro de la junta de Mistral y VC de a16z, Anjney Midha, dice que DeepSeek no detendrá el hambre de GPU de la IA.

Spread the love

El socio general de Andreessen Horowitz y miembro de la junta directiva de Mistral, Anjney «Anj» Midha, divisó por primera vez el impresionante rendimiento de DeepSeek hace seis meses, según le cuenta a TechCrunch.

Fue cuando DeepSeek presentó Coder V2, que rivalizaba con el GPT4-Turbo de OpenAI para tareas específicas de codificación, según un papel que publicó el año pasado. Esto puso a DeepSeek en un camino para lanzar modelos mejorados cada par de meses hasta R1, dijo. R1 es su nuevo modelo de razonamiento de código abierto que ha revolucionado la industria tecnológica al ofrecer un rendimiento estándar de la industria a una fracción del costo.

A pesar de la venta de acciones de Nvidia, Midha dice que R1 no significa que los modelos de IA fundamentales dejarán de gastar miles de millones de dólares para adquirir chips GPU y construir más centros de datos tan rápido como puedan.

Significa que harán más con la potencia informática que puedan obtener.

«Cuando la gente dice, ¿ok Anj, Mistral ha recaudado mil millones de dólares?» él dice. «¿Significa DeepSeek que todos esos mil millones de dólares son completamente innecesarios? No, de hecho, es extraordinariamente valioso para ellos poder ver las mejoras de eficiencia de DeepSeek, internalizarlas y luego invertir mil millones de dólares en ello.»

Añade, «Ahora podemos obtener 10 veces más producción con la misma potencia informática.»

Eso no significa que Mistral esté irremediablemente detrás de sus rivales OpenAI y Anthropic, argumenta. Cada uno de ellos ha recaudado muchos más miles de millones que Mistral. OpenAI está supuestamente en conversaciones para recaudar otros asombrosos 40 mil millones de dólares.

Mistral sigue siendo competitivo con ellos porque es de código abierto, dice. Y su lógica tiene mérito. El código abierto proporciona a una empresa acceso a mano de obra técnica esencialmente gratuita de aquellos que desean ayudar porque utilizan el proyecto. Los rivales de código cerrado guardan sus secretos y tienen que pagar por toda la mano de obra además de la potencia informática.

«No necesitas 20 mil millones. Solo necesitas más potencia informática que cualquier otra aplicación de modelo de código abierto. Así que Mistral está posicionado [bien]. Tienen la mayor potencia informática de cualquier proveedor de código abierto», dijo Midha sobre su empresa en cartera.

El modelo rival más grande de IA de código abierto de Occidente, Llama de Facebook, también recibirá mucha más inversión. El director ejecutivo Mark Zuckerberg dijo el miércoles que todavía planea gastar «cientos de miles de millones de dólares» en total en IA. Eso incluye 60 mil millones de dólares en 2025 en gastos de capital, principalmente centros de datos.

El programa Oxygen de GPU de a16z «sobrecontratado»

Midha, quien también es miembro de la junta de Black Forest Labs, generador de imágenes de IA, y Luma, fabricante de modelos 3D (y un ángel en empresas de IA como Anthropic, ElevenLabs, entre otros), tiene otra razón por la que no ve que el hambre de las GPUs de la IA disminuya pronto.

Es el líder del programa Oxygen de a16z. Las GPUs, en particular las H100s de última generación de Nvidia, se han convertido en una mercancía tan escasa que la firma de capital de riesgo tomó cartas en el asunto hace aproximadamente un año y medio. Compró una gran cantidad de ellas para que las utilicen las empresas de su cartera.

Oxygen está «sobrecontratado en este momento. No puedo asignar lo suficiente», se ríe Midha. No solo sus startups necesitan GPUs para el entrenamiento de modelos de IA, sino que luego necesitan aún más para ejecutar sus productos de IA en curso para los clientes.

«Ahora hay esta demanda insaciable de inferencia, para el consumo», explica.

Esa es también la razón por la que cree que los avances de ingeniería de DeepSeek no cambiarán Stargate, tampoco. Ese es el gran socio de 500 mil millones de dólares de OpenAI anunciado a principios de este mes con SoftBank y Oracle para centros de datos de IA.

El cambio importante que introduce DeepSeek es el reconocimiento por parte de los estados nacionales de que la IA es la próxima infraestructura fundamental, como la electricidad y la Internet. Midha quiere que consideren la «independencia de la infraestructura», como él la llama. ¿Quieren depender de los modelos chinos, con su censura y garras en sus datos? ¿O quieren modelos occidentales que sigan las leyes y ética occidentales y cumplan con los acuerdos de la OTAN?

Obviamente está abogando por que las naciones occidentales utilicen modelos occidentales, como su Mistral con sede en París. Cientos de empresas comparten esa preocupación y ya han bloqueado DeepSeek, que es tanto un servicio de aplicación para consumidores como un modelo de código abierto.

No todos compran ese miedo a los modelos de código abierto chinos. Las empresas pueden ejecutarlos localmente en sus propios centros de datos. Y DeepSeek ya está disponible como un servicio en la nube seguro de empresas estadounidenses como Microsoft Azure Foundry, para que los desarrolladores no tengan que usar el servicio en la nube de DeepSeek.

De hecho, Pat Gelsinger, ex CEO de Intel, alguien muy familiarizado con China, dijo a TechCrunch que su startup Gloo está construyendo servicios de chat de IA en su propia versión de DeepSeek R1 en lugar de opciones como Llama o OpenAI.

Pero si alguien quiere abandonar sus planes de centro de datos a la luz de DeepSeek, Midra se ríe y hace una solicitud: «Si tienes GPUs de más, por favor envíamelas a Anj.»