DeepSeek ‘perfora’ los planes de gastos de los líderes en IA, y lo que dicen los analistas

Spread the love

La empresa china de IA DeepSeek ha surgido como un posible desafiante para las empresas de IA de EE. UU., demostrando modelos innovadores que afirman ofrecer un rendimiento comparable a las principales ofertas a una fracción del costo. La aplicación móvil de la empresa, lanzada a principios de enero, ha liderado recientemente las listas de la App Store en importantes mercados como EE. UU., Reino Unido y China, pero no ha escapado a las dudas sobre si sus afirmaciones son verdaderas.

Fundada en 2023 por Liang Wenfeng, ex jefe del fondo de cobertura quant AI High-Flyer, los modelos de DeepSeek son de código abierto e incorporan una función de razonamiento que articula su pensamiento antes de proporcionar respuestas.

Las reacciones de Wall Street han sido mixtas. Mientras la firma de corretaje Jefferies advierte que el enfoque eficiente de DeepSeek «perfora parte de la euforia de capex» tras los recientes compromisos de gastos de Meta y Microsoft, que superan los 60 mil millones de dólares este año, Citi cuestiona si tales resultados se lograron realmente sin GPUs avanzados.

Goldman Sachs ve implicaciones más amplias, sugiriendo que el desarrollo podría remodelar la competencia entre los gigantes tecnológicos establecidos y las startups al reducir las barreras de entrada.

Aquí está cómo los analistas de Wall Street están reaccionando a DeepSeek, en sus propias palabras (énfasis nuestro):

Bank of America

El rumor de que los modelos R1 o R1-Zero de DeepSeek costaron 5,6 millones de dólares para su desarrollo frente a más de mil millones para modelos de frontera alternativos es engañoso, pero también se pierde el panorama general. DeepSeek señaló que los 5,6 millones eran el costo para entrenar su modelo DeepSeek-V3 previamente lanzado usando GPUs Nvidia H800, pero que el costo excluía otros gastos relacionados con investigación, experimentos, arquitecturas, algoritmos y datos. Nuestra opinión es que más importantes que el costo significativamente reducido y los chips de menor rendimiento que DeepSeek usó para desarrollar sus dos modelos más nuevos son las innovaciones introducidas que permiten que ocurra un entrenamiento e inferencia más eficientes (menos costosos) en primer lugar. Los costos de computación AI más bajos deberían permitir servicios de AI más amplios, desde automóviles hasta teléfonos inteligentes.

Morgan Stanley

Más grande ya no siempre es mejor. DeepSeek demuestra un camino alternativo para el entrenamiento eficiente de modelos que la actual carrera armamentista entre los hipercaladores al aumentar significativamente la calidad de los datos y mejorar la arquitectura del modelo. DeepSeek es ahora el costo más bajo de fabricación de LLM, permitiendo un rendimiento AI de frontera a una fracción del costo con un precio de salida 9-13 veces más bajo que GPT-4o y Claude 3.5.

Por qué importa. Las capacidades de la IA de frontera podrían ser alcanzables sin los recursos computacionales masivos previamente considerados necesarios. El uso eficiente de recursos, con ingeniería inteligente y métodos de entrenamiento eficientes, podría ser más importante que la pura potencia informática. Esto puede inspirar una ola de innovación en la exploración de métodos rentables de desarrollo e implementación de AI. Esto significa que el ROI de LLM que es de preocupación hoy podría mejorar significativamente sin sacrificar la calidad o el cronograma para la implementación de aplicaciones de AI. El logro también sugiere la democratización de la IA al hacer que los modelos sofisticados sean más accesibles para impulsar eventualmente una mayor adopción y proliferación de la IA.

Línea de fondo. Las restricciones en chips pueden terminar actuando como un impuesto significativo sobre el desarrollo de AI chino, pero no como un límite estricto. China ha demostrado que se pueden lograr capacidades de AI de vanguardia con hardware significativamente inferior, desafiando las expectativas convencionales sobre los requisitos de potencia informática. Un modelo que logra resultados de grado de frontera a pesar del acceso limitado al hardware podría significar un cambio en el panorama global de la IA, redefiniendo el panorama competitivo de las empresas de AI globales y fomentando una nueva era de progreso impulsado por la eficiencia.

Nomura

Aunque la primera impresión de la efectividad de DeepSeek para entrenar LLMs puede generar preocupaciones por la demanda reducida de hardware, creemos que las perspectivas de gasto de capex de los grandes CSPs no cambiarían significativamente en el corto plazo, ya que necesitan seguir en el juego competitivo, aunque puedan acelerar el desarrollo con las innovaciones tecnológicas. Sin embargo, es posible que el mercado se vuelva más ansioso por el retorno de la inversión de AI si no hay corrientes de ingresos significativas a corto plazo. Por lo tanto, las principales empresas tecnológicas o CSPs pueden necesitar acelerar la adopción e innovaciones de AI; de lo contrario, la sostenibilidad de la inversión de AI podría estar en riesgo. Otro factor de riesgo es el potencial de una competencia más intensa entre EE. UU. y China por el liderazgo en AI, lo que podría llevar a más restricciones tecnológicas y disrupciones en la cadena de suministro, en nuestra opinión.

Jefferies

Las implicaciones de potencia de DeepSeek para el entrenamiento de AI perforan parte de la euforia de capex que siguió a los importantes compromisos de Stargate y Meta la semana pasada. Con DeepSeek ofreciendo un rendimiento comparable a GPT-4o por una fracción de la potencia computacional, hay posibles implicaciones negativas para los constructores, ya que la presión sobre los jugadores de AI para justificar planes de capex cada vez mayores podría conducir en última instancia a una trayectoria menor para los ingresos y las ganancias de los centros de datos.

Si los modelos más pequeños pueden funcionar bien, es potencialmente positivo para los teléfonos inteligentes. Somos pesimistas sobre los teléfonos inteligentes de AI ya que la AI no ha ganado tracción con los consumidores. Se necesita una mejora de hardware (paquete avanzado+DRAM rápido) para ejecutar modelos más grandes en el teléfono, lo que aumentará los costos. El modelo de AAPL de hecho se basa en MoE, pero 3 mil millones de parámetros de datos todavía son demasiado pequeños para hacer que los servicios sean útiles para los consumidores. Por lo tanto, el éxito de DeepSeek ofrece algo de esperanza, pero no hay impacto en las perspectivas a corto plazo de los teléfonos inteligentes de AI.

China es el único mercado que persigue la eficiencia de LLM debido a la restricción de chips. Es probable que Trump/Musk reconozcan el riesgo de más restricciones para forzar a China a innovar más rápido. Por lo tanto, creemos que es probable que Trump relaje la política de Difusión de AI.

Citi

Si bien el logro de DeepSeek podría ser innovador, cuestionamos la idea de que sus hazañas se lograron sin el uso de GPUs avanzadas para ajustarlo y/o construir los LLMs subyacentes en los que se basa el modelo final a través de la técnica de Destilación. Si bien la dominación de las empresas estadounidenses en los modelos de AI más avanzados podría ser desafiada potencialmente, estimamos que en un entorno inevitablemente más restrictivo, el acceso de EE. UU. a chips más avanzados es una ventaja. Por lo tanto, no esperamos que las principales empresas de AI se alejen de las GPUs más avanzadas que proporcionan una relación costo/rendimiento más atractiva a escala. Vemos los recientes anuncios de capex de AI como Stargate como un gesto a la necesidad de chips más avanzados.

Bernstein

En resumen, creemos que 1) DeepSeek NO «construyó OpenAI por 5M”; 2) los modelos se ven fantásticos pero no creemos que sean milagros; y 3) la reacción en Twitter sobre el fin de semana parece exagerada.

Nuestra propia reacción inicial no incluye pánico (ni mucho menos). Si reconocemos que DeepSeek puede haber reducido los costos para lograr un rendimiento de modelo equivalente en, digamos, 10 veces, también observamos que las trayectorias de costos actuales de los modelos aumentan aproximadamente en esa cantidad cada año de todos modos (las infames «leyes de escala…») que no pueden continuar para siempre. En ese contexto, necesitamos innovaciones como esta (MoE, destilación, precisión mixta, etc.) si la AI quiere seguir progresando. Y para aquellos que buscan la adopción de AI, como analistas semi, creemos firmemente en la paradoja de Jevons (es decir, que las ganancias de eficiencia generan un aumento neto en la demanda), y creemos que cualquier nueva capacidad de cálculo desbloqueada es mucho más probable que se absorba debido al aumento de uso y demanda vs. afectar la perspectiva de gasto a largo plazo en este momento, ya que no creemos que las necesidades de cálculo estén cerca de alcanzar su límite en AI. También parece una exageración pensar que las innovaciones implementadas por DeepSeek sean completamente desconocidas por el gran número de investigadores de AI de primer nivel en los numerosos laboratorios de AI del mundo (francamente no sabemos qué han estado usando los grandes laboratorios cerrados para desarrollar e implementar sus propios modelos, pero simplemente no podemos creer que no hayan considerado o incluso tal vez usado estrategias similares ellos mismos).

Goldman Sachs

Con los últimos desarrollos, también vemos 1) una competencia potencial entre gigantes de internet con capital vs. startups, dado que se reducen las barreras de entrada, especialmente con los nuevos modelos desarrollados a una fracción del costo de los existentes; 2) desde el entrenamiento hasta una mayor inferencia, con un mayor énfasis en el post-entrenamiento (incluidas las capacidades de razonamiento y fortalecimiento) que requiere recursos computacionales significativamente más bajos en comparación con el pre-entrenamiento; y 3) el potencial de una mayor expansión global para los jugadores chinos, dadas su rendimiento y competitividad de costos/precio.

Continuamos esperando que la carrera por la aplicación de AI/agentes de AI continúe en China, especialmente entre las aplicaciones To-C, donde las empresas chinas han sido pioneras en aplicaciones móviles en la era de Internet, por ejemplo, la creación de la superaplicación Weixin (WeChat) de Tencent. Entre las aplicaciones To-C, ByteDance ha estado liderando el camino al lanzar 32 aplicaciones de AI en el último año. Entre ellas, Doubao ha sido el Chatbot de AI más popular hasta ahora en China con la mayor cantidad de usuarios activos mensuales (aprox. 70 millones), que recientemente ha sido actualizado con su modelo Doubao 1.5 Pro. Creemos que las corrientes de ingresos incrementales (suscripción, publicidad) y un camino eventual/sostenible hacia la monetización/economía de unidades positivas entre aplicaciones/agentes serán clave.

En la capa de infraestructura, el foco de los inversores se ha centrado en si habrá una falta de coincidencia a corto plazo entre las expectativas del mercado sobre el capex de AI y la demanda computacional, en caso de mejoras significativas en la eficiencia del costo/modelo de computación. Para los jugadores chinos de la nube/centros de datos, seguimos creyendo que el foco para 2025 se centrará en la disponibilidad de chips y la capacidad de los CSP (proveedores de servicios en la nube) para proporcionar una mejora en la contribución de ingresos de la nube impulsada por AI, y más allá de la infraestructura/alquiler de GPU, cómo las cargas de trabajo de AI y los servicios relacionados con AI podrían contribuir al crecimiento y los márgenes a futuro. Seguimos siendo positivos sobre el crecimiento a largo plazo de la demanda computacional de AI, ya que una mayor reducción de los costos de computación/entrenamiento/inferencia podría impulsar una mayor adopción de AI. Vea también el Tema #5 de nuestro informe de temas clave para nuestros estimados de capex de BBAT, dependiendo de la disponibilidad de chips, donde esperamos que el crecimiento agregado de capex de BBAT continúe en 2025E en nuestro caso base (GSe: +38% en términos interanuales) aunque a un ritmo ligeramente más moderado que en un 2024 fuerte (GSe: +61% interanual), impulsado por la inversión continua en la infraestructura de AI.

J.P.Morgan

Sobre todo, se habla mucho de los documentos de investigación de DeepSeek, y de la eficiencia de sus modelos. No está claro en qué medida DeepSeek está aprovechando las ~ 50 mil GPUs de High-Flyer (de tamaño similar al clúster en el que se cree que OpenAI está entrenando GPT-5), pero lo que parece probable es que están reduciendo drásticamente los costos (los costos de inferencia para su modelo V2, por ejemplo, se dice que son 1/7 de los de GPT-4 Turbo). Su afirmación subversiva (aunque no nueva) – que comenzó a impactar a los nombres de AI estadounidenses esta semana – es que «más inversiones no significan más innovación». Liang: «En este momento no veo nuevos enfoques, pero las grandes empresas no tienen una clara ventaja. Las grandes empresas tienen clientes existentes, pero sus negocios de flujo de efectivo también son una carga, y esto los hace vulnerables a la disrupción en cualquier momento.» Y cuando se le preguntó sobre el hecho de que GPT5 aún no se ha lanzado: «OpenAI no es un dios, no siempre estarán en la vanguardia».

UBS

A lo largo de 2024, el primer año en el que vimos una carga de trabajo masiva de entrenamiento de AI en China, más del 80-90% de la demanda de IDC fue impulsada por el entrenamiento de AI y se concentró en 1-2 clientes hipercaladores, lo que se tradujo en una demanda de IDC hiperscala mayorista en áreas relativamente remotas (ya que el entrenamiento de AI que consume energía es sensible al costo de la utilidad en lugar de la latencia del usuario).

Si el costo de entrenamiento e inferencia de AI es significativamente inferior, esperaríamos que más usuarios finales aprovechen la AI para mejorar su negocio o desarrollar nuevos casos de uso, especialmente los clientes minoristas. Esta demanda de IDC significa un mayor enfoque en la ubicación (ya que la latencia del usuario es más importante que el costo de la utilidad), y por lo tanto, un mayor poder de fijación de precios para los operadores de IDC que tienen recursos abundantes en ciudades de primer nivel y satélites. Mientras tanto, una cartera de clientes más diversificada también implicaría un mayor poder de fijación de precios.

William Blair

Desde la perspectiva de la industria de semiconductores, nuestra primera impresión es que las empresas semi centradas en AI es improbable que vean cambios significativos en las tendencias de demanda a corto plazo dadas las actuales limitaciones de suministro (alrededor de chips, memoria, capacidad de centros de datos y energía). A largo plazo, sin embargo, la presión continua para reducir el costo de la computación y la capacidad de reducir el costo de entrenamiento e inferencia utilizando técnicas algorítmicas nuevas y más eficientes podría resultar en un capex más bajo de lo previsto anteriormente y disminuir la dominancia de Nvidia, especialmente si los clústeres de GPU a gran escala no son tan críticos para lograr un rendimiento de modelo de nivel fronterizo como pensábamos. Con muchas preguntas y variables aún sin respuesta (¿cuáles son los costos reales de R1, qué datos de entrenamiento se utilizaron [solo se compartieron los pesos del modelo] y qué tan replicables son los resultados), dudamos en llegar a conclusiones definitivas sobre las perspectivas futuras del capex de AI de GenAI (y si DeepSeek lo ha alterado fundamentalmente). Dicho esto, reconocemos la hiper-sensibilidad en los mercados de acciones al exceso de riesgo, lo que lleva a la reacción actual de «disparar primero y hacer preguntas después».

Iremos actualizando la historia a medida que más analistas reaccionen.