▶ usa

Tecnologías de Voz: Supertonic 3, el Avance en la Síntesis de Voz

Por Eduardo Ortiz G. • 17 May, 2026 a las 10:15

Análisis y reporte de infraestructura IT global. Imagen ilustrativa validada por FocoIA.

Tijuana, B.C. -

Introducción a Supertonic 3

Supertone ha lanzado Supertonic 3, la tercera generación de su sistema de síntesis de voz basado en ONNX. Este avance tecnológico ofrece soporte para 31 idiomas, una mayor precisión en la lectura y una reducción en los fallos de repetición y salto. Además, es compatible con los activos ONNX públicos de la versión 2.

Características clave de Supertonic 3

Entre las características destacadas de Supertonic 3 se encuentran:

Soporte para 31 idiomas, incluyendo japonés, árabe, búlgaro, checo, danés, alemán, griego, estonio, finés, croata, húngaro, indonesio, italiano, lituano, letón, neerlandés, polaco, rumano, ruso, eslovaco, esloveno, sueco, turco, ucraniano y vietnamita.
Mejora en la similitud de los hablantes a lo largo del conjunto de idiomas compartidos.
Expansión del modelo para acomodar los nuevos idiomas, con un tamaño modesto de aproximadamente 99M parámetros.

Arquitectura y Funcionalidades

La arquitectura subyacente de Supertonic 3 se basa en un autoencoder de habla que codifica ondas sonoras en representaciones latentes continuas, un módulo de texto a latente basado en el flujo de coincidencia que asigna texto a características de audio, y un predictor de duración que controla el tiempo natural. Esta técnica de modelado generativo permite una síntesis de voz rápida y eficiente.

Expressive Tag Support

Una de las nuevas capacidades en la versión 3 es el soporte para etiquetas expresivas, como , y . Estas etiquetas permiten embedir señales de prosodia directamente en el texto de entrada sin requerir un paso de preprocesamiento adicional o un modelo separado para la expresividad.

Eficiencia y Desempeño

Supertonic 3 se ejecuta rápidamente en CPU, incluso en comparación con modelos más grandes medidos en GPU A100, y utiliza significativamente menos memoria. No requiere una GPU, lo que facilita la implementación local, en el navegador y en el borde.

Comparación con Otros Modelos

En términos de eficiencia, Supertonic 3 se mantiene dentro de un rango competitivo de WER/CER frente a modelos de TTS más grandes y abiertos, como VoxCPM2, al mismo tiempo que preserva una ruta de implementación ligera y en dispositivo.

Conclusión

Supertonic 3 representa un avance significativo en la tecnología de síntesis de voz, ofreciendo soporte multilingüe, precisión mejorada y una arquitectura eficiente. Su capacidad para ejecutarse en dispositivos sin requerir una GPU lo hace ideal para aplicaciones en el borde y en dispositivos móviles.

Eduardo OG

Redactor & Editor

Especialista en infraestructura de sistemas y auditoría de ciberseguridad. Todos nuestros artículos técnicos están validados y cuentan con fuentes Periodisticas.