¡ElevenLabs lanza su propio modelo de conversión de voz a texto!

Spread the love

ElevenLabs, una startup de inteligencia artificial que acaba de recaudar una ronda de financiación mega de $180 millones, ha sido conocida principalmente por su habilidad en la generación de audio. La compañía dio un paso en otra dirección tecnológica al lanzar su primer modelo de conversión de voz a texto independiente llamado Scribe.

La startup, valuada en $3.3 mil millones, ha ayudado a muchas otras empresas a ofrecer servicios de texto a voz a través de su vasta biblioteca de voces. Sin embargo, la compañía ahora busca incursionar en la detección de voz y competir con empresas como Gladia, Speechmatics, AssemblyAI, Deepgram y los modelos Whisper de OpenAI.

El modelo Scribe de ElevenLabs admite más de 99 idiomas en su lanzamiento. La compañía categoriza más de 25 idiomas en una categoría de excelente precisión para el modelo, donde la tasa de error de palabras es inferior al 5%. Esta lista incluye inglés (con una precisión declarada del 97%), francés, alemán, hindi, indonesio, japonés, kannada, malayalam, polaco, portugués, español y vietnamita. Otros idiomas se clasifican en diferentes categorías con tasas de error de palabras altas (5% a 10%), buenas (10% a 20%) y moderadas (25% a 50%).

Imagem destacada

La compañía dijo que el modelo superó a Google Gemini 2.0 Flash y Whisper Large V3 en varios idiomas en pruebas de referencia FLEURS & Common Voice.

ElevenLabs había desarrollado el componente de voz a texto para su plataforma de agente conversacional de inteligencia artificial, que se lanzó el año pasado. Sin embargo, esta es la primera vez que la compañía lanza un modelo independiente de detección de voz. En una conversación con TechCrunch el mes pasado, el CEO Mati Staniszewski habló sobre la mejora de los modelos de detección de voz.

«Queremos entender lo que se está diciendo en una conversación de manera más eficaz. Estamos trabajando en formas de alejarnos de solo generar contenido y entender y transcribir el discurso», dijo Staniszewski en ese momento. «Muchas personas dicen que la conversión de voz a texto es un problema resuelto. Pero para muchos idiomas, es bastante malo. Creemos que podemos construir mejores modelos de detección de voz porque tenemos equipos internos para anotar datos y brindarnos comentarios rápidos».

El modelo también cuenta con diarización de altavoces inteligentes para decirle quién está hablando, marca de tiempo a nivel de palabra para subtítulos precisos y etiquetado automático de eventos de sonido como risas de la audiencia. La startup ofrece una forma para que los clientes transcriban directamente contenido de video para agregar subtítulos o leyendas en su estudio.

Australia prohíbe uso de software Kaspersky por riegos de seguridad inaceptables

Junta de Supervisión de Meta está revisando las nuevas políticas de discurso de odio de la empresa