El texto a voz es la tecnología que permite a tu ordenador hablar a partir de un texto de entrada. Las personas con problemas de visión están muy acostumbradas a su uso, pero en cualquier momento puede surgir la necesidad de que el ordenador te lea un texto en voz alta: para montarte un audiolibro rápido cuando no puedes mirar la pantalla, para montar un asistente virtual…

Sin embargo, pese a que en otros sistemas operativos exista software como Loquendo desde hace ya varias décadas, en GNU/Linux, típicamente el lector de pantalla ha tenido una voz terriblemente robótica. Si alguna vez has activado Orca, aunque sea por accidente, sabrás a qué me refiero. Es como meter accidentalmente el dedo en el enchufe.

Por suerte, el machine learning también puede tener cosas buenas y abiertas, y Piper es un ejemplo de ello. Piper es un modelo de voz libre y publicado con licencia GPL. Tiene una larga trayectoria que se remonta a un intento que tuvo Mozilla hace casi una década de fabricar un dataset abierto de voces que pudiese ser usado para entrenar modelos de voz libres. Actualmente, Piper lo mantiene la Open Home Foundation, que es la fundación que está detrás de Home Assistant, la herramienta abierta de domótica.

Pero Piper es un modelo, y hacerlo funcionar puede ser complicado si no sabes programar en Python o no tienes paciencia. Y aquí es donde entra Parolu, que es una aplicación que oculta la complejidad para que sea sencillo y accesible. No tiene en este momento todas las funciones del mundo, pero es una primera versión que tiene potencial de evolucionar, y que para tareas puntuales ahora mismo funciona bien.

Una ventana que lleva por título Parolu muestra un área para escribir. Abajo hay una barra de herramientas que dice "Esperanto", "Ludoviko", dos botones con un icono y un multiplicador, y un botón grande con un triángulo multimedia de Play.

Parolu se puede instalar a través de Flatpak, desde donde está disponible desde hace unos días. La primera vez que abras Parolu, te encontrarás con una ventana muy sencilla. Un área de escritura y una barra de herramientas para configurar el idioma, el tono y la velocidad.

Por defecto, Parolu utiliza una voz llamada Ludoviko y el idioma se configura a esperanto. Parolu de hecho se traduce por el verbo imperativo habla. En cualquier caso, su selector de idiomas te deja elegir español, entre otros idiomas (aunque de momento no el inglés).

Un desplegable muestra idiomas: Esperanto, Alemán, Italiano, Español y Francés.

Para usarlo en español, tendrás que descargar al menos un modelo de voz. Los modelos pueden pesar más o menos dependiendo de su capacidad. No todos los modelos funcionan igual de bien. Abajo te cuento cuáles he encontrado que funcionan mejor.

Una ventana llamada Descargar voces muestra una lista con varios nombres de voz. Junto a cada uno hay un botón que dice Instalar.

Con el modelo descargado, todo lo que te queda es elegir la voz que quieras usar, escribir el texto y pulsar el botón Play. Puedes configurar antes la velocidad y el tono con el que quieras que hable, si más agudo o más grave. También puedes exportar a un archivo la voz si le das al botón de Guardar que hay junto al botón de Reproducir. Se exporta como archivo .wav.

Pantallazo de Parolu una vez que he cargado un texto de prueba sacado de este artículo.

Tienes que tener en cuenta una limitación muy importante: los modelos necesarios para generar la voz se tienen que descargar en tu disco y ocupan espacio. No es mucho, pero son entre 20 y 100 MB por voz. Además, debido a que son más avanzados que un texto a voz tradicional, hay cierta latencia. Cuando reproduzcas el sonido, verás brevemente una ventana con una barra de progreso en lo que se genera la voz. A cambio, el sonido será de bastante buena calidad en algunos casos.

Además, algunas voces pueden presentar fallos. Por ejemplo, he encontrado que Parolu es muy sensible a las faltas de ortografía y que aun así algunas voces tienen problemas para pronunciar algunas palabras.

¿Qué voces funcionan mejor? Después de hacer varias pruebas aquí te traigo algunas evidencias con las voces en español después de ejecutarlas en mi ordenador. No sé si los resultados son consistentes entre máquina y máquina o si es mi tarjeta gráfica, que me odia.

Claude: Habla bastante bien. La que recomendaría por ser la que mejor lo hace de todas. Nota: 9/10.

Daniela: También habla muy bien y entona bien las palabras. Acento bastante argentino. Nota: 8/10.

Sharvard: Entona un poco regular y no sabe lo que es esperar entre frase y frase, pero a cambio la voz tiene un timbre agradable. Nota: 6/10.

Davefx: Habla bien y tiene un tono de voz aceptable. Se escucha eco, parece que te está hablando en un submarino. Nota: 5/10.

Carlfm: Tono de voz muy pitufado. Habla bien, pero no la recomendaría para textos muy largos. Nota: 5/10.

Mls9972: Cómicamente mal. Lo hace peor aún que Mls10246 en muchos casos, aunque compiten por ver quién lo hace peor. Nota: 1/10.

Mls10246: Lee mal. Cuando no le dan embolias, no acentúa bien las palabras, se inventa las comas. No la recomendaría. Nota: 1/10.

Ald: (Dio un mensaje de error, así que no puedo opinar.) Nota: 0/10.

Aun así, si buscas una voz para tu ordenador y no te convence la voz por defecto que trae espeak, tal vez esto te sirva si sólo necesitas generar .wavs o si buscas leer en voz alta un texto y no te importa instalar aplicaciones extra, esta aplicación resultará de gran utilidad para poder completar esta tarea por fin en GNU/Linux sin tener que tirar de otros sistemas operativos o de soluciones cloud privativas como las de OpenAI o Elevenlabs.


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

To respond on your own website, enter the URL of your response which should contain a link to this post’s permalink URL. Your response will then appear (possibly after moderation) on this page. Want to update or remove your response? Update or delete your post and re-enter your post’s URL again. (Find out more about Webmentions.)

Puedes seguir este blog desde tu agregador de noticias o desde tu lector RSS favorito:

Con estos links también puedes suscribirte desde algunas aplicaciones lectoras de RSS:

También puedes seguir este blog desde tu cuenta en el fediverso, como Mastodon o Pleroma. Pulsa el botón y te ayudo:

Nos Gusta Linux
Nos Gusta Linux
@nosgustalinux@nosgustalinux.es

Actualidad, guías, software útil y reviews sobre GNU/Linux. Temas de los que se hablan aquí: tutoriales, noticias sobre lanzamientos, reviews de software, a veces algo de BSD, y ahora también cubriendo un poco del fediverso. Este perfil comparte enlaces a las nuevas entradas publicadas en el blog.

This account is powered by a small server, so PLEASE: #nobot #nobots. Disrespectful bots will be blocked and reported.

118 publicaciones
22 seguidores

Blog libre de IA

(Si esto de momento no te preocupa, no pasa nada: en unos años lo entenderás y lo apreciarás.)