El texto a voz es la tecnología que permite a tu ordenador hablar a partir de un texto de entrada. Las personas con problemas de visión están muy acostumbradas a su uso, pero en cualquier momento puede surgir la necesidad de que el ordenador te lea un texto en voz alta: para montarte un audiolibro rápido cuando no puedes mirar la pantalla, para montar un asistente virtual…
Sin embargo, pese a que en otros sistemas operativos exista software como Loquendo desde hace ya varias décadas, en GNU/Linux, típicamente el lector de pantalla ha tenido una voz terriblemente robótica. Si alguna vez has activado Orca, aunque sea por accidente, sabrás a qué me refiero. Es como meter accidentalmente el dedo en el enchufe.
Por suerte, el machine learning también puede tener cosas buenas y abiertas, y Piper es un ejemplo de ello. Piper es un modelo de voz libre y publicado con licencia GPL. Tiene una larga trayectoria que se remonta a un intento que tuvo Mozilla hace casi una década de fabricar un dataset abierto de voces que pudiese ser usado para entrenar modelos de voz libres. Actualmente, Piper lo mantiene la Open Home Foundation, que es la fundación que está detrás de Home Assistant, la herramienta abierta de domótica.
Pero Piper es un modelo, y hacerlo funcionar puede ser complicado si no sabes programar en Python o no tienes paciencia. Y aquí es donde entra Parolu, que es una aplicación que oculta la complejidad para que sea sencillo y accesible. No tiene en este momento todas las funciones del mundo, pero es una primera versión que tiene potencial de evolucionar, y que para tareas puntuales ahora mismo funciona bien.

Parolu se puede instalar a través de Flatpak, desde donde está disponible desde hace unos días. La primera vez que abras Parolu, te encontrarás con una ventana muy sencilla. Un área de escritura y una barra de herramientas para configurar el idioma, el tono y la velocidad.
Por defecto, Parolu utiliza una voz llamada Ludoviko y el idioma se configura a esperanto. Parolu de hecho se traduce por el verbo imperativo habla. En cualquier caso, su selector de idiomas te deja elegir español, entre otros idiomas (aunque de momento no el inglés).

Para usarlo en español, tendrás que descargar al menos un modelo de voz. Los modelos pueden pesar más o menos dependiendo de su capacidad. No todos los modelos funcionan igual de bien. Abajo te cuento cuáles he encontrado que funcionan mejor.

Con el modelo descargado, todo lo que te queda es elegir la voz que quieras usar, escribir el texto y pulsar el botón Play. Puedes configurar antes la velocidad y el tono con el que quieras que hable, si más agudo o más grave. También puedes exportar a un archivo la voz si le das al botón de Guardar que hay junto al botón de Reproducir. Se exporta como archivo .wav.

Tienes que tener en cuenta una limitación muy importante: los modelos necesarios para generar la voz se tienen que descargar en tu disco y ocupan espacio. No es mucho, pero son entre 20 y 100 MB por voz. Además, debido a que son más avanzados que un texto a voz tradicional, hay cierta latencia. Cuando reproduzcas el sonido, verás brevemente una ventana con una barra de progreso en lo que se genera la voz. A cambio, el sonido será de bastante buena calidad en algunos casos.
Además, algunas voces pueden presentar fallos. Por ejemplo, he encontrado que Parolu es muy sensible a las faltas de ortografía y que aun así algunas voces tienen problemas para pronunciar algunas palabras.
¿Qué voces funcionan mejor? Después de hacer varias pruebas aquí te traigo algunas evidencias con las voces en español después de ejecutarlas en mi ordenador. No sé si los resultados son consistentes entre máquina y máquina o si es mi tarjeta gráfica, que me odia.
Claude: Habla bastante bien. La que recomendaría por ser la que mejor lo hace de todas. Nota: 9/10.
Daniela: También habla muy bien y entona bien las palabras. Acento bastante argentino. Nota: 8/10.
Sharvard: Entona un poco regular y no sabe lo que es esperar entre frase y frase, pero a cambio la voz tiene un timbre agradable. Nota: 6/10.
Davefx: Habla bien y tiene un tono de voz aceptable. Se escucha eco, parece que te está hablando en un submarino. Nota: 5/10.
Carlfm: Tono de voz muy pitufado. Habla bien, pero no la recomendaría para textos muy largos. Nota: 5/10.
Mls9972: Cómicamente mal. Lo hace peor aún que Mls10246 en muchos casos, aunque compiten por ver quién lo hace peor. Nota: 1/10.
Mls10246: Lee mal. Cuando no le dan embolias, no acentúa bien las palabras, se inventa las comas. No la recomendaría. Nota: 1/10.
Ald: (Dio un mensaje de error, así que no puedo opinar.) Nota: 0/10.
Aun así, si buscas una voz para tu ordenador y no te convence la voz por defecto que trae espeak, tal vez esto te sirva si sólo necesitas generar .wavs o si buscas leer en voz alta un texto y no te importa instalar aplicaciones extra, esta aplicación resultará de gran utilidad para poder completar esta tarea por fin en GNU/Linux sin tener que tirar de otros sistemas operativos o de soluciones cloud privativas como las de OpenAI o Elevenlabs.






Deja una respuesta