Un nuevo avance en generación de voz

La compañía francesa Mistral ha presentado recientemente un modelo de texto a voz (TTS) que se suma a la creciente oferta en inteligencia artificial para empresas. Este nuevo modelo, denominado Voxtral TTS, promete revolucionar la forma en que las empresas pueden interactuar con sus clientes mediante asistentes de voz. La solución, accesible y adaptada a cada necesidad, abre un abanico de posibilidades en áreas como ventas y atención al cliente.

Características destacadas del modelo Voxtral TTS

Uno de los aspectos más notables de Voxtral TTS es su capacidad para soportar hasta nueve idiomas, entre ellos el español, el inglés, el alemán y el francés. Esta versatilidad permite que las empresas personalicen la voz del asistente con muestras de voz de menos de cinco segundos, capturando sutilezas como acentos e inflexiones. Pierre Stock, vicepresidente de operaciones científicas de Mistral, destacó que el objetivo era desarrollar un modelo que no sonara robótico, sino humanizado.

Rendimiento y adaptabilidad

El modelo ha sido diseñado para ofrecer un rendimiento en tiempo real, mostrando un tiempo de respuesta de 90 milisegundos al iniciar la emisión de audio tras recibir el input. Gracias a su eficiencia, puede generar un clip de diez segundos en solo 1.6 segundos. Esta capacidad de respuesta rápida y adaptable resulta ideal para aplicaciones que requieren traducciones en tiempo real o doblaje de contenido multimedia.

Enfoque en la personalización y código abierto

La estrategia de Mistral enfatiza la importancia de su modelo de código abierto, ya que permitirá a las empresas adecuar el sistema a sus necesidades específicas, algo que podría brindarles una ventaja competitiva frente a firmas como ElevenLabs o OpenAI. La flexibilidad y adaptabilidad de Voxtral TTS se traducen en una herramienta valiosa para quienes buscan soluciones a medida en el ámbito de la inteligencia artificial.

Visión a futuro

Con el lanzamiento de Voxtral TTS, Mistral parece estar preparada para ofrecer una suite completa de productos de voz que podrán integrar flujos multimodales de entrada y salida, lo que ampliará significativamente las capacidades de interacción en diversos escenarios. El objetivo final es la creación de un sistema integral que gestione múltiples formas de comunicación, proporcionando un mayor volumen de información y respuestas más precisas en entornos empresariales.

Related Articles