Un par de estudiantes universitarios, ninguno con una amplia experiencia en IA, dicen que han creado un modelo de IA disponible abiertamente que puede generar clips estilo podcast similar al NotebookLM de Google.
El mercado de herramientas de voz sintética es vasto y está creciendo. ElevenLabs es uno de los jugadores más grandes, pero no faltan competidores (ver PlayAI, Sesame, y otros). Los inversores creen que estas herramientas tienen un potencial inmenso. Según PitchBook, las startups que desarrollan tecnología de voz AI recaudaron más de $398 millones en financiamiento de capital de riesgo el año pasado.
Toby Kim, uno de los cofundadores de Nari Labs con sede en Corea, el grupo detrás del modelo recién lanzado, dijo que él y su compañero cofundador comenzaron a aprender sobre IA de voz hace tres meses. Inspirados por NotebookLM, querían crear un modelo que ofreciera más control sobre las voces generadas y “libertad en el guión”.

Kim dice que utilizaron el programa Google’s TPU Research Cloud, que proporciona a los investigadores acceso gratuito a los chips de inteligencia artificial TPU de la compañía, para entrenar el modelo de Nari, Dia. Con 1.6 mil millones de parámetros, Dia puede generar diálogo a partir de un guión, permitiendo a los usuarios personalizar los tonos de los hablantes e insertar disfluencias, tos, risas y otros gestos no verbales.
Los parámetros son las variables internas que los modelos utilizan para hacer predicciones. En general, los modelos con más parámetros funcionan mejor.
Disponible en la plataforma de desarrollo de IA Hugging Face y en GitHub, Dia puede ejecutarse en la mayoría de las PC modernas con al menos 10GB de VRAM. Genera una voz aleatoria a menos que se le solicite una descripción de un estilo deseado, pero también puede clonar la voz de una persona.