REGRESAR AL RADAR
usa

Tecnologías de Voz: Supertonic 3, el Avance en la Síntesis de Voz

Por Eduardo Ortiz G. • 17 May, 2026 a las 10:15
Tecnologías de Voz: Supertonic 3, el Avance en la Síntesis de Voz

Análisis y reporte de infraestructura IT global. Imagen ilustrativa validada por FocoIA.

Tijuana, B.C. -

Introducción a Supertonic 3

Supertone ha lanzado Supertonic 3, la tercera generación de su sistema de síntesis de voz basado en ONNX. Este avance tecnológico ofrece soporte para 31 idiomas, una mayor precisión en la lectura y una reducción en los fallos de repetición y salto. Además, es compatible con los activos ONNX públicos de la versión 2.

Características clave de Supertonic 3

Entre las características destacadas de Supertonic 3 se encuentran:

  • Soporte para 31 idiomas, incluyendo japonés, árabe, búlgaro, checo, danés, alemán, griego, estonio, finés, croata, húngaro, indonesio, italiano, lituano, letón, neerlandés, polaco, rumano, ruso, eslovaco, esloveno, sueco, turco, ucraniano y vietnamita.
  • Mejora en la similitud de los hablantes a lo largo del conjunto de idiomas compartidos.
  • Expansión del modelo para acomodar los nuevos idiomas, con un tamaño modesto de aproximadamente 99M parámetros.

Arquitectura y Funcionalidades

La arquitectura subyacente de Supertonic 3 se basa en un autoencoder de habla que codifica ondas sonoras en representaciones latentes continuas, un módulo de texto a latente basado en el flujo de coincidencia que asigna texto a características de audio, y un predictor de duración que controla el tiempo natural. Esta técnica de modelado generativo permite una síntesis de voz rápida y eficiente.

Expressive Tag Support

Una de las nuevas capacidades en la versión 3 es el soporte para etiquetas expresivas, como , y . Estas etiquetas permiten embedir señales de prosodia directamente en el texto de entrada sin requerir un paso de preprocesamiento adicional o un modelo separado para la expresividad.

Eficiencia y Desempeño

Supertonic 3 se ejecuta rápidamente en CPU, incluso en comparación con modelos más grandes medidos en GPU A100, y utiliza significativamente menos memoria. No requiere una GPU, lo que facilita la implementación local, en el navegador y en el borde.

Comparación con Otros Modelos

En términos de eficiencia, Supertonic 3 se mantiene dentro de un rango competitivo de WER/CER frente a modelos de TTS más grandes y abiertos, como VoxCPM2, al mismo tiempo que preserva una ruta de implementación ligera y en dispositivo.

Conclusión

Supertonic 3 representa un avance significativo en la tecnología de síntesis de voz, ofreciendo soporte multilingüe, precisión mejorada y una arquitectura eficiente. Su capacidad para ejecutarse en dispositivos sin requerir una GPU lo hace ideal para aplicaciones en el borde y en dispositivos móviles.

Eduardo Ortiz G.

Eduardo OG

Redactor & Editor

Especialista en infraestructura de sistemas y auditoría de ciberseguridad. Todos nuestros artículos técnicos están validados y cuentan con fuentes Periodisticas.

🔥 NOTICIAS DESTACADAS

rusia Nuevas Amenazas para la Seguridad de Linux: La Vulnerabilidad DirtyDecrypt

Nuevas Amenazas para la Seguridad de Linux: La Vulnerabilidad DirtyDecrypt

china Tencent lanza una nueva función para crear robots de chat en QQ con OpenClaw

Tencent lanza una nueva función para crear robots de chat en QQ con OpenClaw

mexico Recuperación de Billetera Bitcoin: Guía Completa

Recuperación de Billetera Bitcoin: Guía Completa

mexico El futuro del empleo en la era de la inteligencia artificial

El futuro del empleo en la era de la inteligencia artificial

rusia Cultura sin Culpa en la Gestión de Incidentes: Cómo Mejorar la Confiabilidad de los Sistemas

Cultura sin Culpa en la Gestión de Incidentes: Cómo Mejorar la Confiabilidad de los Sistemas

usa Actualizaciones de Google Gemini: Un Nuevo Enfoque en la Inteligencia Artificial

Actualizaciones de Google Gemini: Un Nuevo Enfoque en la Inteligencia Artificial

usa Google Lanza Nuevos Agentes de Información en su Motor de Búsqueda

Google Lanza Nuevos Agentes de Información en su Motor de Búsqueda

usa Introducción a la Arquitectura de Agentes Inteligentes

Introducción a la Arquitectura de Agentes Inteligentes