Cartesia afirma que su inteligencia artificial es lo suficientemente eficiente para funcionar en casi cualquier lugar

Spread the love

Es cada vez más costoso desarrollar y ejecutar inteligencia artificial. Los costos de operaciones de IA de OpenAI podrían alcanzar los $7 mil millones este año, mientras que el CEO de Anthropic sugirió recientemente que pronto podrían llegar modelos que cuesten más de $10 mil millones.

Entonces, la búsqueda está en marcha de formas de hacer que la IA sea más barata.

Algunos investigadores se centran en técnicas para optimizar las arquitecturas de modelos existentes, es decir, la estructura y los componentes que hacen que los modelos funcionen. Otros están desarrollando nuevas arquitecturas que creen que tienen una mejor oportunidad de expandirse de manera asequible.

Karan Goel está en el último grupo. En la startup que ayudó a cofundar, Cartesia, Goel trabaja en lo que él llama modelos de espacio de estado (SSM), una arquitectura de modelo nueva y altamente eficiente que puede manejar grandes cantidades de datos —texto, imágenes, y más— a la vez.

«Creemos que nuevas arquitecturas de modelos son necesarias para construir modelos de IA realmente útiles», dijo Goel a TechCrunch. «La industria de la IA es un espacio competitivo, tanto comercial como de código abierto, y construir el mejor modelo es crucial para el éxito.»

Raíces académicas

Antes de unirse a Cartesia, Goel era candidato a doctorado en el laboratorio de IA de Stanford, donde trabajó bajo la dirección del científico de la computación Christopher Ré, entre otros. Mientras estaba en Stanford, Goel conoció a Albert Gu, otro candidato a doctorado en el laboratorio, y los dos esbozaron lo que se convertiría en el SSM.

Goel eventualmente tomó trabajos a tiempo parcial en Snorkel AI, luego en Salesforce, mientras que Gu se convirtió en profesor asistente en Carnegie Mellon. Pero Gu y Goel continuaron estudiando los SSM, lanzando varios documentos de investigación clave sobre la arquitectura.

En 2023, Gu y Goel —junto con dos de sus antiguos compañeros de Stanford, Arjun Desai y Brandon Yang— decidieron unir fuerzas para lanzar Cartesia y comercializar su investigación.

El equipo fundador de Cartesia. De izquierda a derecha: Brandon Yang, Karan Goel, Albert Gu y Arjun Desai. Créditos de la imagen: Cartesia

Cartesia, cuyo equipo fundador también incluye a Ré, está detrás de muchas derivaciones de Mamba, quizás el SSM más popular hoy en día. Gu y el profesor de Princeton Tri Dao comenzaron Mamba como un proyecto de investigación abierto en diciembre pasado, y continúan refinándolo a través de versiones posteriores.

Cartesia se basa en Mamba además de capacitar sus propios SSM. Como todos los SSM, los de Cartesia le dan a la IA algo así como una memoria de trabajo, lo que hace que los modelos sean más rápidos —y potencialmente más eficientes— en cómo utilizan la potencia informática.

SSMs vs. transformers

La mayoría de las aplicaciones de IA hoy en día, desde ChatGPT hasta Sora, están impulsadas por modelos con una arquitectura de transformador. A medida que un transformador procesa datos, agrega entradas a algo llamado un «estado oculto» para «recordar» lo que procesó. Por ejemplo, si el modelo está avanzando en un libro, los valores del estado oculto podrían ser representaciones de palabras en el libro.

El estado oculto es parte de la razón por la que los transformadores son tan poderosos. Pero también es la causa de su ineficiencia. Para «decir» incluso una sola palabra sobre un libro que un transformador acaba de absorber, el modelo tendría que escanear todo su estado oculto —una tarea tan exigente computacionalmente como releer todo el libro.

En contraste, los SSM comprimen cada punto de datos anterior en una especie de resumen de todo lo que han visto antes. A medida que llegan nuevos datos, el «estado» del modelo se actualiza, y el SSM descarta la mayoría de los datos anteriores.

¿El resultado? Los SSM pueden manejar grandes cantidades de datos mientras superan a los transformers en ciertas tareas de generación de datos. Con los costos de inferencia yendo en la dirección que van, esa es una proposición atractiva en efecto.

Preocupaciones éticas

Cartesia opera como un laboratorio de investigación comunitario, desarrollando SSM en colaboración con organizaciones externas y también internamente. Sonic, el último proyecto de la empresa, es un SSM que puede clonar la voz de una persona o generar una nueva voz y ajustar el tono y la cadencia en la grabación.

Goel afirma que Sonic, que está disponible a través de una API y un panel web, es el modelo más rápido de su clase. «Sonic es una demostración de cómo los SSM sobresalen en datos de largo contexto, como el audio, al mismo tiempo que mantienen la barra de rendimiento más alta en cuanto a estabilidad y precisión», dijo.

El modelo Sonic de Cartesia puede personalizar el habla en gran medida, incluida la PROSODIA. Créditos de la imagen: Cartesia

Si bien Cartesia ha logrado enviar productos rápidamente, ha caído en muchos de los mismos problemas éticos que han plagado a otros creadores de modelos de IA.

Imagem destacada

Cartesia entrenó al menos algunos de sus SSM en The Pile, un conjunto de datos abierto conocido por contener libros con derechos de autor no licenciados. Muchas empresas de IA argumentan que la doctrina del uso justo las protege de demandas por infracción. Pero eso no ha impedido a los autores demandar a Meta y Microsoft, entre otros, por supuestamente entrenar modelos en The Pile.

Y Cartesia tiene pocas salvaguardias evidentes para su clonador de voz Sonic. Hace unas semanas, pude crear un clon de la voz de la vicepresidenta Kamala Harris utilizando discursos de campaña (escucha a continuación). La herramienta de Cartesia solo requiere que marques una casilla indicando que cumplirás con los Términos de Servicio de la startup.

Cartesia no es necesariamente peor en este sentido que otras herramientas de clonación de voz en el mercado. Sin embargo, con informes de clones de voz burlando los controles de seguridad de los bancos, la percepción no es increíble.

Goel no diría que Cartesia ya no entrena modelos en The Pile. Pero sí abordó los problemas de moderación, diciéndole a TechCrunch que Cartesia tiene sistemas de revisión automatizados y manuales en marcha y está «trabajando en sistemas para la verificación de voz y el marcado de agua».

«Tenemos equipos dedicados que prueban aspectos como el rendimiento técnico, el mal uso y el sesgo», dijo Goel. «También estamos estableciendo asociaciones con auditores externos para proporcionar verificaciones independientes adicionales sobre la seguridad y confiabilidad de nuestros modelos… Reconocemos que este es un proceso continuo que requiere un refinamiento constante.»

Después de que se publicó esta historia, un representante de relaciones públicas de Cartesia dijo por correo electrónico que la empresa «ya no está entrenando modelos en The Pile».

Negocio incipiente

Goel dice que «miles» de clientes están pagando por el acceso a la API de Sonic, la principal fuente de ingresos de Cartesia, incluida la aplicación de llamadas automáticas Goodcall. La API de Cartesia es gratuita para hasta 100,000 caracteres leídos en voz alta, con el plan más caro alcanzando los $299 al mes por 8 millones de caracteres. (Cartesia también ofrece un nivel empresarial con soporte dedicado y límites personalizados).

Por defecto, Cartesia utiliza los datos de los clientes para mejorar sus productos —una política no poco común, pero poco probable que sea bien recibida por usuarios conscientes de la privacidad. Goel señala que los usuarios pueden optar por no participar si lo desean, y que Cartesia ofrece políticas de retención personalizadas para organizaciones más grandes.

Las prácticas de datos de Cartesia no parecen estar perjudicando el negocio, por lo que vale la pena señalarlo —al menos no mientras Cartesia tenga una ventaja técnica. El CEO de Goodcall, Bob Summers, dice que eligió Sonic porque era el único modelo de generación de voz con una latencia inferior a 90 milisegundos.

«[Sonic] superó a su siguiente mejor alternativa por un factor de cuatro», agregó Summers.

El servicio de «agente» de inteligencia artificial de Goodcall depende de la API de Sonic de Cartesia. Créditos de la imagen: Goodcall

Hoy en día, Sonic se está utilizando para juegos, doblaje de voz y más. Pero Goel cree que solo está arañando la superficie de lo que los SSM pueden hacer.

Su visión son modelos que se ejecuten en cualquier dispositivo y comprendan y generen cualquier modalidad de datos —texto, imágenes, videos, y más— casi al instante. Como un pequeño paso hacia esto, Cartesia lanzó este verano una beta de Sonic On-Device, una versión de Sonic optimizada para ejecutarse en teléfonos y otros dispositivos móviles para aplicaciones como la traducción en tiempo real.

Junto con Sonic On-Device, Cartesia publicó Edge, una biblioteca de software para optimizar los SSM para diferentes configuraciones de hardware, y Rene, un modelo de lenguaje compacto.

«Temos una gran visión a largo plazo de convertirnos en el modelo base multimodal por excelencia para cada dispositivo», dijo Goel. «Nuestro plan a largo plazo incluye el desarrollo de modelos de IA multimodales, con el objetivo de crear inteligencia en tiempo real que pueda razonar sobre contextos masivos.»

Si esto llega a suceder, Cartesia tendrá que convencer a los posibles nuevos clientes de que su arquitectura vale la pena para superar la curva de aprendizaje. También tendrá que mantenerse por delante de otros proveedores que experimentan con alternativas al transformer.

Startups como Zephyra, Mistral y AI21 Labs han entrenado modelos híbridos basados en Mamba. En otros lugares, Liquid AI, dirigida por la luminaria de la robótica Daniela Rus, está desarrollando su propia arquitectura.

Goel afirma que Cartesia, con 26 empleados, está posicionada para el éxito, en parte gracias a una nueva inyección de efectivo. La empresa cerró este mes una ronda de financiación de $22 millones liderada por Index Ventures, lo que eleva el total recaudado por Cartesia a $27 millones.

Shardul Shah, socio de Index Ventures, ve la tecnología de Cartesia conduciendo un día aplicaciones para servicio al cliente, ventas y marketing, robótica, seguridad y más.

«Al desafiar la dependencia tradicional de arquitecturas basadas en transformadores, Cartesia ha desbloqueado nuevas formas de construir aplicaciones de IA en tiempo real, rentables y escalables», dijo. «El mercado está demandando modelos más rápidos y eficientes que puedan ejecutarse en cualquier lugar —desde centros de datos hasta dispositivos. La tecnología de Cartesia está única y estratégicamente posicionada para cumplir esta promesa y liderar la próxima ola de innovación en IA.»

A* Capital, Conviction, General Catalyst, Lightspeed y SV Angel también participaron en la última ronda de financiación de la empresa con sede en San Francisco, Cartesia.

HongShan y Peak XV lanzan el neobanco KAST impulsado por stablecoins

Threads lanza su propia versión de los ‘Starter Packs’ de Bluesky