text2podcast
Le estoy dando vueltas a si se pueden convertir auto o semiautomaticamente las entradas de bitacoras a entradas de podcast. El unico soft de sintesis de voz totalmente libre que he visto es festival, y solo lleva un hablante de castellano, asi que aqui ya tenemos el primer tropiezo. Para hacerme a la idea, he intentado la lectura de una entrada larga, Progreso por Ferrocarril / Regreso por carretera. He escogido esta porque es la unica de mi blog con la acentuación bien puesta.
En mi P4 a 1700MHz, festival ha tardado 4m 14 seg (1m 10 seg de CPU) en procesar un largo texto de 19Kbytes que se leeria en 23 minutos. Asi que en principio incluso es posible la transformacion al vuelo, ahorrando espacio de almacenamiento o directamente procesando fuentes externas. El fichero .wav de este proceso ocupa a lo bruto 30Mbytes. El fichero MP3 procesado con lame usando -m monofonico y-b 48k, ocupa aun 8.3 Mbytes. El transformar a MP3 añade 1 m 11seg (28 seg CPU) de procesado, pero en principio se puede ejecutar en paralelo.
Va el ejemplo con los dos primeros parrafos:
Lo malo (lo peor), ya veis, es que festival viene con una sola voz para castellano, y no he encontrado ninguna otra. Hay otro programa que tiene voces mas finas, mbrola, pero aunque es libre su licencia de uso es bastante mas restringida de lo normal, y por ello no esta empaquetado en Debian. De todas formas si lees la letra pequeña todas las licencias de voces son algo raras, estilo creative commons con uso no comercial o cosas asi.
Hay un “modulo” que añade un par de voces mejicanas a festival, pero hay que recompilar el codigo fuente. La pagina de ejemplo suena asi:
Hay cinco voces más en mbrola, voy a ir probandolas.
El segundo problema de la automatización es localizar el texto a leer. Tomarlo de una pagina html no es la mejor solucion porque leeriamos tambien cabeceras margen y pies. Habria que capturarlo de un XML, y para ello el sistema de bitacoras nos tendria que proveer el texto completo en la feed. Esta no es la configuracion por defecto de wordpress, asi que habria que rehacer el estilo.
Y en relación con esto de escoger el texto, esta el lio de la codificación de los acentos, porque si al sintetizador se le mete una palabra con caracteres extraños la regla por defecto es deletrearla. Menos mal que los editores actuales, como el gedit, te dejan probar varias codificaciones. Pero vuelve a ser un lio para automatizar.
Otra aplicacion, si se soluciona lo de obtener mas voces para evitar la monotonia, es emitir entradas de blog por la radio de FM de toda la vida, quizas con la colaboracion de las emisoras libres que existen en las grandes ciudades y que normalmente tienen dificultades para llenar la parrilla.
http://codex.wordpress.org/Podcasting
http://en.wikipedia.org/wiki/Audioblogging
http://www.podcast-es.org/index.php/Portada
http://www.podcastellano.com/
http://es.wikipedia.org/wiki/Podcasting
http://en.wikipedia.org/wiki/Podcasting


Noviembre 22nd, 2005 a las 19:40
El problema de la monotonía es de entonación, no de voces variadas. Me temo que suena algo robótico.
Noviembre 22nd, 2005 a las 23:43
Si, calramente monotono…pero como comienzo no es malo.
Noviembre 23rd, 2005 a las 22:53
Igual para solucionar el problema de la entonación habría que incluir signos en el texto de entonación ascendente o descendente, de pausas largas o breves, de alargar vocales, etc. Ahora bien, eso llevaría tiempo. ¿compensaría?
Noviembre 24th, 2005 a las 18:02
Creo q esto puede seros de interes
http://aleph.llull.net/archives/2005/10/29/plugin-para-wordpress-post-to-speech/
Un saludo.
Noviembre 25th, 2005 a las 13:32
Te recomiendo mirar algo parecido al AT&T Natural Voices (busca en google y sorprendete con la naturalidad q tiene). Puede que haya algo GPL en ese plan…
Noviembre 25th, 2005 a las 16:15
AT&T Natural Voices es alucinante y hasta barato en terminos empresariales (todo es relativo; por ejemplo es algo mas caro que el hosting anual de una web en host exclusivo)
Noviembre 27th, 2005 a las 4:52
[…] El viernes en la tarde no tube mejor cosa que hacer que despues de trabajar irme a escuchar un par de conferencias, en una de ella hablaron del web 2.0 donde se dijo que este nuevo estandar no queda claramente definido, y que sería un conjunto cosas, como web sociales como del.icio.us, o de fotolog al estilo de flirck, pero se dejaron fuera el tema del podcast. La verdad es que a mi me parace muy interesante el fenomeno podcasting… y al parecer hay gente dandole vueltas para ver la forma de pasar automaticamente un blog a podcast… lo que ha mencionado como text2podcast… Para saber mas http://arivero.ciberpunk.net/text2podcast Escrito por Nacho Garcia (0) Comentarios • (0) Referencias • Permalink […]
Noviembre 27th, 2005 a las 19:53
Por cierto que uno esperaria que la ONCE ofreciera GRATUITAMENTE este servicio en la web o al menos a sus asociados. Tan solo he encontrado una referencha a un producto a 100 euros, aunque puede que sea este mismo que se ha liberado, en visual basic:
http://www.educar.org/tiflo/proyecto/
Enero 26th, 2006 a las 19:36
El Mundo te lee las noticias
No me pregunten por qué, pero hay cosas tecnológicas que a los medios les gustan rápidamente, y otras que no. Lo del podcasting y el sonido parece de las primeras y si hace nada hablábamos de los experimentos de Alejandro Rivero (por ejemplo en Podca
Febrero 2nd, 2006 a las 13:27
La única utilidad que le vería, sería descargarlo al mp3 para escucharlo en el metro… pero no para las personas discapacitadas, que ya tienen un software que les lee cualquier texto de una forma más cómoda.