Un laboratorio chino lanza un modelo de inteligencia artificial ‘de razonamiento’ para competir con el OpenAI’s o1.

Spread the love

Un laboratorio chino ha presentado lo que parece ser uno de los primeros modelos de IA «de razonamiento» para competir con el modelo o1 de OpenAI.

El miércoles, DeepSeek, una empresa de investigación de IA financiada por operadores cuantitativos, lanzó una vista previa de DeepSeek-R1, que la empresa afirma que es un modelo de razonamiento competitivo con o1.

A diferencia de la mayoría de los modelos, los modelos de razonamiento verifican efectivamente sus propios hechos al pasar más tiempo considerando una pregunta o consulta. Esto les ayuda a evitar algunas de las dificultades que normalmente tropiezan con los modelos.

Similar a o1, DeepSeek-R1 razona a través de tareas, planeando con anticipación y realizando una serie de acciones que ayudan al modelo a llegar a una respuesta. Esto puede llevar algo de tiempo. Al igual que o1, dependiendo de la complejidad de la pregunta, DeepSeek-R1 podría «pensar» durante segundos antes de responder.

[ [IMG:: DeepSeek-R1

] ] Créditos de la imagen: DeepSeek

DeepSeek afirma que DeepSeek-R1 (o DeepSeek-R1-Lite-Preview, para ser precisos) se desempeña al nivel del modelo de vista previa o1 de OpenAI en dos populares pruebas de inteligencia artificial, AIME y MATH. AIME utiliza otros modelos de IA para evaluar el rendimiento de un modelo, mientras que MATH es una colección de problemas de palabras. Pero el modelo no es perfecto. Algunos comentaristas en X señalaron que DeepSeek-R1 tiene dificultades con el tres en raya y otros problemas lógicos (al igual que o1).

DeepSeek también puede ser fácilmente desbloqueado, es decir, provocado de tal manera que ignora las protecciones. Un usuario de X logró que el modelo diera una receta detallada de metanfetamina.

Y DeepSeek-R1 parece bloquear consultas consideradas demasiado políticamente sensibles. En nuestras pruebas, el modelo se negó a responder preguntas sobre el líder chino Xi Jinping, la Plaza Tiananmen y las implicaciones geopolíticas de China invadiendo Taiwán.

Imagem destacada

Es probable que este comportamiento sea el resultado de la presión del gobierno chino sobre los proyectos de IA en la región. Los modelos en China deben someterse a pruebas de referencia por el regulador de internet de China para asegurar que sus respuestas «encarnen valores socialistas fundamentales». Según se informa, el gobierno ha llegado incluso a proponer una lista negra de fuentes que no se pueden utilizar para entrenar modelos, lo que resulta en que muchos sistemas de IA chinos se nieguen a responder a temas que podrían molestar a los reguladores.

La mayor atención a los modelos de razonamiento llega en un momento en que la viabilidad de las «leyes de escala», teorías de larga data que afirmaban que arrojar más datos y potencia informática a un modelo aumentaría continuamente sus capacidades, está siendo cuestionada. Una serie de informes de prensa sugieren que los modelos de importantes laboratorios de IA como OpenAI, Google y Anthropic no están mejorando tan dramáticamente como solían hacerlo.

Esto ha llevado a una carrera por nuevas aproximaciones de IA, arquitecturas y técnicas de desarrollo. Una es el cálculo en tiempo de prueba, que respalda modelos como o1 y DeepSeek-R1. También conocido como cálculo de inferencia, el cálculo en tiempo de prueba proporciona esencialmente a los modelos tiempo extra de procesamiento para completar tareas.

«Estamos viendo la emergencia de una nueva ley de escala», declaró esta semana el CEO de Microsoft, Satya Nadella, durante una presentación en la conferencia Ignite de Microsoft, refiriéndose al cálculo en tiempo de prueba.

DeepSeek, que dice que tiene planes de abrir DeepSeek-R1 y lanzar una API de código abierto, es una operación curiosa. Está respaldada por High-Flyer Capital Management, un fondo de cobertura cuantitativo chino que utiliza la IA para informar sus decisiones comerciales.

Uno de los primeros modelos de DeepSeek, un modelo de análisis de texto e imagen de propósito general llamado DeepSeek-V2, obligó a competidores como ByteDance, Baidu y Alibaba a reducir los precios de uso para algunos de sus modelos, y hacer que otros fueran completamente gratuitos.

High-Flyer construye sus propios grupos de servidores para la formación de modelos, el más reciente de los cuales al parecer tiene 10,000 GPU Nvidia A100 y costó 1 billón de yenes (~$138 millones). Fundada por Liang Wenfeng, graduada en informática, High-Flyer tiene como objetivo lograr una IA «superinteligente» a través de su organización DeepSeek.

TechCrunch tiene un boletín centrado en la IA. ¡Regístrese aquí para recibirlo en su bandeja de entrada todos los miércoles!

¡Workbrew convierte el gestor de paquetes de código abierto Homebrew en una herramienta amigable para empresas!

Reino Unido considera prohibir redes sociales para niños mientras el gobierno inicia estudio de viabilidad