Dos estudiantes crearon un modelo de lenguaje AI para competir con NotebookLM

Spread the love

Un par de estudiantes universitarios, ninguno con una amplia experiencia en IA, dicen que han creado un modelo de IA disponible abiertamente que puede generar clips estilo podcast similar al NotebookLM de Google.

El mercado de herramientas de voz sintética es vasto y está creciendo. ElevenLabs es uno de los jugadores más grandes, pero no faltan competidores (ver PlayAI, Sesame, y otros). Los inversores creen que estas herramientas tienen un potencial inmenso. Según PitchBook, las startups que desarrollan tecnología de voz AI recaudaron más de $398 millones en financiamiento de capital de riesgo el año pasado.

Toby Kim, uno de los cofundadores de Nari Labs con sede en Corea, el grupo detrás del modelo recién lanzado, dijo que él y su compañero cofundador comenzaron a aprender sobre IA de voz hace tres meses. Inspirados por NotebookLM, querían crear un modelo que ofreciera más control sobre las voces generadas y “libertad en el guión”.

Kim dice que utilizaron el programa Google’s TPU Research Cloud, que proporciona a los investigadores acceso gratuito a los chips de inteligencia artificial TPU de la compañía, para entrenar el modelo de Nari, Dia. Con 1.6 mil millones de parámetros, Dia puede generar diálogo a partir de un guión, permitiendo a los usuarios personalizar los tonos de los hablantes e insertar disfluencias, tos, risas y otros gestos no verbales.

Los parámetros son las variables internas que los modelos utilizan para hacer predicciones. En general, los modelos con más parámetros funcionan mejor.

Disponible en la plataforma de desarrollo de IA Hugging Face y en GitHub, Dia puede ejecutarse en la mayoría de las PC modernas con al menos 10GB de VRAM. Genera una voz aleatoria a menos que se le solicite una descripción de un estilo deseado, pero también puede clonar la voz de una persona.

Dos estudiantes crearon un modelo de lenguaje AI para competir con NotebookLM

Directivo de Palantir apoya la labor de vigilancia de inmigración de la empresa

Superpower wants to help people detect and address health issues before symptoms appear

noticias generales

Elon Musk’s Neuralink closes a $650M Series E

¡Valla recauda $2.7 millones para hacer más accesible la vía legal a los empleados!

Desafío de crecimiento frenético de los centros de datos desafía los objetivos de sostenibilidad de Microsoft.

IBM adquiere startup de análisis de datos Seek AI y abre acelerador de IA en NYC

Sindicato de videojuegos firma primer acuerdo con Microsoft

Influencers de izquierda abrazan Bluesky sin abandonar X, afirma Pew

NAACP exige que autoridades de Memphis parem operações no ‘centro de dados sujo’ da xAI

Meta planea automatizar muchas de sus evaluaciones de riesgo de productos

Resumen Semanal: ¡Perplexity Labs quiere hacer tu trabajo!

Space Forge recauda $30 millones en Serie A para fabricar materiales de chips en el espacio

seguridad digital

Qualcomm resuelve tres vulnerabilidades zero-day explotadas por hackers

¡Supermercado indio KiranaPro hackeado y servidores eliminados, CEO lo confirma!

¡Kettering, el gigante de la salud, sigue luchando contra interrupciones tras el ataque de ransomware!

¡Desapareció el informe de seguridad prometido por XAI!

Google anuncia nuevas funciones de seguridad para Android ¡protégete de estafas y robos!