Tecnologías de Voz: Supertonic 3, el Avance en la Síntesis de Voz
Análisis y reporte de infraestructura IT global. Imagen ilustrativa validada por FocoIA.
Tijuana, B.C. -
Introducción a Supertonic 3
Supertone ha lanzado Supertonic 3, la tercera generación de su sistema de síntesis de voz basado en ONNX. Este avance tecnológico ofrece soporte para 31 idiomas, una mayor precisión en la lectura y una reducción en los fallos de repetición y salto. Además, es compatible con los activos ONNX públicos de la versión 2.
Características clave de Supertonic 3
Entre las características destacadas de Supertonic 3 se encuentran:
- Soporte para 31 idiomas, incluyendo japonés, árabe, búlgaro, checo, danés, alemán, griego, estonio, finés, croata, húngaro, indonesio, italiano, lituano, letón, neerlandés, polaco, rumano, ruso, eslovaco, esloveno, sueco, turco, ucraniano y vietnamita.
- Mejora en la similitud de los hablantes a lo largo del conjunto de idiomas compartidos.
- Expansión del modelo para acomodar los nuevos idiomas, con un tamaño modesto de aproximadamente 99M parámetros.
Arquitectura y Funcionalidades
La arquitectura subyacente de Supertonic 3 se basa en un autoencoder de habla que codifica ondas sonoras en representaciones latentes continuas, un módulo de texto a latente basado en el flujo de coincidencia que asigna texto a características de audio, y un predictor de duración que controla el tiempo natural. Esta técnica de modelado generativo permite una síntesis de voz rápida y eficiente.
Expressive Tag Support
Una de las nuevas capacidades en la versión 3 es el soporte para etiquetas expresivas, como
Eficiencia y Desempeño
Supertonic 3 se ejecuta rápidamente en CPU, incluso en comparación con modelos más grandes medidos en GPU A100, y utiliza significativamente menos memoria. No requiere una GPU, lo que facilita la implementación local, en el navegador y en el borde.
Comparación con Otros Modelos
En términos de eficiencia, Supertonic 3 se mantiene dentro de un rango competitivo de WER/CER frente a modelos de TTS más grandes y abiertos, como VoxCPM2, al mismo tiempo que preserva una ruta de implementación ligera y en dispositivo.
Conclusión
Supertonic 3 representa un avance significativo en la tecnología de síntesis de voz, ofreciendo soporte multilingüe, precisión mejorada y una arquitectura eficiente. Su capacidad para ejecutarse en dispositivos sin requerir una GPU lo hace ideal para aplicaciones en el borde y en dispositivos móviles.