Le estoy dando vueltas a si se pueden convertir auto o semiautomaticamente las entradas de bitacoras a entradas de podcast. El unico soft de sintesis de voz totalmente libre que he visto es festival, y solo lleva un hablante de castellano, asi que aqui ya tenemos el primer tropiezo. Para hacerme a la idea, he intentado la lectura de una entrada larga, Progreso por Ferrocarril / Regreso por carretera. He escogido esta porque es la unica de mi blog con la acentuación bien puesta.
En mi P4 a 1700MHz, festival ha tardado 4m 14 seg (1m 10 seg de CPU) en procesar un largo texto de 19Kbytes que se leeria en 23 minutos. Asi que en principio incluso es posible la transformacion al vuelo, ahorrando espacio de almacenamiento o directamente procesando fuentes externas. El fichero .wav de este proceso ocupa a lo bruto 30Mbytes. El fichero MP3 procesado con lame usando -m monofonico y-b 48k, ocupa aun 8.3 Mbytes. El transformar a MP3 añade 1 m 11seg (28 seg CPU) de procesado, pero en principio se puede ejecutar en paralelo.
Va el ejemplo con los dos primeros parrafos:
Lo malo (lo peor), ya veis, es que festival viene con una sola voz para castellano, y no he encontrado ninguna otra. Hay otro programa que tiene voces mas finas, mbrola, pero aunque es libre su licencia de uso es bastante mas restringida de lo normal, y por ello no esta empaquetado en Debian. De todas formas si lees la letra pequeña todas las licencias de voces son algo raras, estilo creative commons con uso no comercial o cosas asi.
Hay un “modulo” que añade un par de voces mejicanas a festival, pero hay que recompilar el codigo fuente. La pagina de ejemplo suena asi:
Hay cinco voces más en mbrola, voy a ir probandolas.
El segundo problema de la automatización es localizar el texto a leer. Tomarlo de una pagina html no es la mejor solucion porque leeriamos tambien cabeceras margen y pies. Habria que capturarlo de un XML, y para ello el sistema de bitacoras nos tendria que proveer el texto completo en la feed. Esta no es la configuracion por defecto de wordpress, asi que habria que rehacer el estilo.
Y en relación con esto de escoger el texto, esta el lio de la codificación de los acentos, porque si al sintetizador se le mete una palabra con caracteres extraños la regla por defecto es deletrearla. Menos mal que los editores actuales, como el gedit, te dejan probar varias codificaciones. Pero vuelve a ser un lio para automatizar.
Otra aplicacion, si se soluciona lo de obtener mas voces para evitar la monotonia, es emitir entradas de blog por la radio de FM de toda la vida, quizas con la colaboracion de las emisoras libres que existen en las grandes ciudades y que normalmente tienen dificultades para llenar la parrilla.
http://codex.wordpress.org/Podcasting
http://en.wikipedia.org/wiki/Audioblogging
http://www.podcast-es.org/index.php/Portada
http://www.podcastellano.com/
http://es.wikipedia.org/wiki/Podcasting
http://en.wikipedia.org/wiki/Podcasting