Hay mucho dinero en la clonación de voz. Prueba de ello es ElevenLabs, una startup que desarrolla herramientas basadas en inteligencia artificial para crear y editar voces sintéticas, anunció hoy que cerró una ronda de financiamiento Serie B de $80 millones, copatrocinada por prominentes inversores, incluyendo Andreessen Horowitz, el ex CEO de GitHub Nat Friedman y el emprendedor Daniel Gross.
Esta ronda, en la que también participaron Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital y Credo Ventures, eleva el total recaudado por ElevenLabs a $101 millones y valora a la compañía en más de $1 mil millones (un aumento respecto a los ~$100 millones del año pasado). El CEO Mati Staniszewski dijo que el nuevo efectivo se destinará al desarrollo del producto, la expansión de la infraestructura y el equipo de ElevenLabs, la investigación en inteligencia artificial y «mejorar las medidas de seguridad para asegurar un desarrollo responsable y ético de la tecnología de IA».
«Recaudamos el nuevo dinero para consolidar la posición de ElevenLabs como líder global en investigación y despliegue de IA de voz», dijo Staniszewski a TechCrunch en una entrevista por correo electrónico. Fundada en 2022 por Piotr Dabkowski, un ex ingeniero en aprendizaje automático de Google, y Staniszewski, un ex estratega de implementación de Palantir, ElevenLabs se lanzó en beta hace aproximadamente un año. Staniszewski dice que él y Dabkowski, quienes crecieron en Polonia, se inspiraron para crear herramientas de clonación de voz en películas americanas mal dobladas. Pensaron que la IA podría hacerlo mejor.
Hoy en día, ElevenLabs es conocida principalmente por su aplicación generadora de habla basada en el navegador que puede crear voces realistas con controles ajustables para entonación, emoción, cadencia y otras características vocales clave. De forma gratuita, los usuarios pueden ingresar texto y obtener una grabación de ese texto leído en voz alta por una de varias voces predeterminadas. Los clientes de pago pueden subir muestras de voz para crear nuevos estilos usando la clonación de voz de ElevenLabs. Cada vez más, ElevenLabs está invirtiendo en versiones de su tecnología generadora de habla destinadas a crear audiolibros y doblar películas y programas de televisión, así como generar voces de personajes para juegos y activaciones de marketing.
El año pasado, la compañía lanzó una herramienta «de habla a habla» que intenta preservar la voz, prosodia e entonación de un orador mientras elimina automáticamente el ruido de fondo y, en el caso de películas y programas de televisión, traduce y sincroniza el habla con el material original. En el plan para las próximas semanas está un nuevo flujo de trabajo de estudio de doblaje con herramientas para generar y editar transcripciones y traducciones y una aplicación móvil basada en suscripción que narra páginas web y texto utilizando las voces de ElevenLabs.
Las innovaciones de ElevenLabs han ganado a la startup clientes como Paradox Interactive (el desarrollador de juegos cuyos proyectos recientes incluyen Cities: Skylines II y Stellaris) y The Washington Post, entre otras compañías editoriales, de medios y entretenimiento. Staniszewski afirma que los usuarios de ElevenLab han generado el equivalente a más de 100 años de audio y que la plataforma está siendo utilizada por empleados de un 41% de las compañías Fortune 500.
Pero la publicidad no ha sido totalmente positiva. El infame foro 4chan, conocido por su contenido conspiranoico, utilizó las herramientas de ElevenLabs para compartir mensajes odiosos imitando a celebridades como la actriz Emma Watson. El reportero de The Verge, James Vincent, pudo aprovechar a ElevenLabs para clonar voces maliciosamente en cuestión de segundos, generando muestras que contienen desde amenazas de violencia hasta comentarios racistas y transfóbicos. Y en Vice, el periodista Joseph Cox documentó cómo generó un clon lo suficientemente convincente como para engañar al sistema de autenticación de un banco.

En respuesta, ElevenLabs ha intentado erradicar a los usuarios que violan repetidamente sus términos de servicio, que prohíben el abuso, y ha lanzado una herramienta para detectar discursos creados por su plataforma. Este año, ElevenLabs planea mejorar la herramienta de detección para marcar audios de otros modelos de IA generadores de voz y asociarse con «jugadores de distribución» no nombrados para que la herramienta esté disponible en plataformas de terceros, dice Staniszewski.
ElevenLabs también ha enfrentado críticas de actores de voz que afirman que la compañía utiliza muestras de sus voces sin su consentimiento, muestras que podrían utilizarse para promocionar contenido que no respaldan o difundir información errónea. En un artículo reciente de Vice, las víctimas narran cómo ElevenLabs se utilizó en campañas de acoso en su contra, en un ejemplo para compartir la información privada de un actor, su dirección, utilizando una voz clonada.
Luego está el elefante en la habitación: la amenaza existencial que plataformas como ElevenLabs representan para la industria de la actuación de voz. Motherboard escribe sobre cómo cada vez más se le pide a los actores de voz que renuncien a los derechos sobre sus voces para que los clientes puedan utilizar la IA para generar versiones sintéticas que eventualmente podrían reemplazarlos, a veces sin una compensación correspondiente. El temor es que el trabajo de voz, especialmente el trabajo barato y de nivel inicial, eventualmente sea reemplazado por voces generadas por IA y que los actores no tengan recurso.
Algunas plataformas intentan encontrar un equilibrio. A principios de este mes, Replica Studios, un competidor de ElevenLabs, firmó un acuerdo con SAG-AFTRA para crear y licenciar réplicas digitales de las voces de los miembros del sindicato de artistas de medios. En un comunicado de prensa, las organizaciones dijeron que el acuerdo estableció términos y condiciones «justos» y «éticos» para asegurar el consentimiento del intérprete y negociar términos para el uso de dobles de voz digitales en nuevas obras.
Incluso esto no complació a algunos actores de voz, sin embargo, incluidos los propios miembros de SAG-AFTRA. La solución de ElevenLabs es un mercado de voces. Actualmente en fase alfa y listo para estar más ampliamente disponible en las próximas semanas, el mercado permite a los usuarios crear una voz, verificarla y compartirla. Cuando otros usan una voz, los creadores originales reciben una compensación, dice Staniszewski.
«Los usuarios siempre conservan el control sobre la disponibilidad de su voz y los términos de compensación», agregó. «El mercado está diseñado como un paso hacia la armonización de los avances en IA con las prácticas establecidas de la industria, además de traer una amplia gama de voces a la plataforma de ElevenLabs».
Los actores de voz pueden tener problemas con el hecho de que ElevenLabs no pague en efectivo, al menos por ahora. La configuración actual hace que los creadores reciban créditos hacia los servicios premium de ElevenLabs (lo que algunos encuentran irónico, me atrevería a decir). Quizás eso cambie en el futuro mientras ElevenLabs, que ahora se encuentra entre las startups de voz sintética mejor financiadas, intenta repeler la competencia emergente como Papercup, Deepdub, Acapela, Respeecher y Voice.ai, así como los grandes incumbentes de la tecnología como Amazon, Microsoft y Google. En cualquier caso, ElevenLabs, que planea aumentar su plantilla de 40 personas a 100 para finales de año, tiene la intención de mantenerse y causar sensación en el mercado de la voz sintética en rápido crecimiento.