El último hovercraft

Una bitácora de Alejandro Rivero

¿Cree usted que el Maine fue la causa de la guerra de Cuba?

« « La Rueda (y IV) « --- » Physics Research Map » »

text2podcast

Clasificado bajo: Desclasificados — Alejandro Rivero a las 4:00 pm el Lunes, Noviembre 21, 2005

Le estoy dando vueltas a si se pueden convertir auto o semiautomaticamente las entradas de bitacoras a entradas de podcast. El unico soft de sintesis de voz totalmente libre que he visto es festival, y solo lleva un hablante de castellano, asi que aqui ya tenemos el primer tropiezo. Para hacerme a la idea, he intentado la lectura de una entrada larga, Progreso por Ferrocarril / Regreso por carretera. He escogido esta porque es la unica de mi blog con la acentuación bien puesta.

En mi P4 a 1700MHz, festival ha tardado 4m 14 seg (1m 10 seg de CPU) en procesar un largo texto de 19Kbytes que se leeria en 23 minutos. Asi que en principio incluso es posible la transformacion al vuelo, ahorrando espacio de almacenamiento o directamente procesando fuentes externas. El fichero .wav de este proceso ocupa a lo bruto 30Mbytes. El fichero MP3 procesado con lame usando -m monofonico y-b 48k, ocupa aun 8.3 Mbytes. El transformar a MP3 añade 1 m 11seg (28 seg CPU) de procesado, pero en principio se puede ejecutar en paralelo.

Va el ejemplo con los dos primeros parrafos:

Lo malo (lo peor), ya veis, es que festival viene con una sola voz para castellano, y no he encontrado ninguna otra. Hay otro programa que tiene voces mas finas, mbrola, pero aunque es libre su licencia de uso es bastante mas restringida de lo normal, y por ello no esta empaquetado en Debian. De todas formas si lees la letra pequeña todas las licencias de voces son algo raras, estilo creative commons con uso no comercial o cosas asi.

Hay un “modulo” que añade un par de voces mejicanas a festival, pero hay que recompilar el codigo fuente. La pagina de ejemplo suena asi:

Hay cinco voces más en mbrola, voy a ir probandolas.
El segundo problema de la automatización es localizar el texto a leer. Tomarlo de una pagina html no es la mejor solucion porque leeriamos tambien cabeceras margen y pies. Habria que capturarlo de un XML, y para ello el sistema de bitacoras nos tendria que proveer el texto completo en la feed. Esta no es la configuracion por defecto de wordpress, asi que habria que rehacer el estilo.

Y en relación con esto de escoger el texto, esta el lio de la codificación de los acentos, porque si al sintetizador se le mete una palabra con caracteres extraños la regla por defecto es deletrearla. Menos mal que los editores actuales, como el gedit, te dejan probar varias codificaciones. Pero vuelve a ser un lio para automatizar.

Otra aplicacion, si se soluciona lo de obtener mas voces para evitar la monotonia, es emitir entradas de blog por la radio de FM de toda la vida, quizas con la colaboracion de las emisoras libres que existen en las grandes ciudades y que normalmente tienen dificultades para llenar la parrilla.

http://codex.wordpress.org/Podcasting
http://en.wikipedia.org/wiki/Audioblogging
http://www.podcast-es.org/index.php/Portada
http://www.podcastellano.com/
http://es.wikipedia.org/wiki/Podcasting
http://en.wikipedia.org/wiki/Podcasting

10 Comentarios en “text2podcast”

  1. Gulliver comentaba que:

    El problema de la monotonía es de entonación, no de voces variadas. Me temo que suena algo robótico.

  2. Cesar Calderon comentaba que:

    Si, calramente monotono…pero como comienzo no es malo.

  3. Pilar comentaba que:

    Igual para solucionar el problema de la entonación habría que incluir signos en el texto de entonación ascendente o descendente, de pausas largas o breves, de alargar vocales, etc. Ahora bien, eso llevaría tiempo. ¿compensaría?

  4. Andrés Nieto comentaba que:

    Creo q esto puede seros de interes

    http://aleph.llull.net/archives/2005/10/29/plugin-para-wordpress-post-to-speech/

    Un saludo.

  5. Oakshiro comentaba que:

    Te recomiendo mirar algo parecido al AT&T Natural Voices (busca en google y sorprendete con la naturalidad q tiene). Puede que haya algo GPL en ese plan…

  6. Alejandro Rivero comentaba que:

    AT&T Natural Voices es alucinante y hasta barato en terminos empresariales (todo es relativo; por ejemplo es algo mas caro que el hosting anual de una web en host exclusivo)

  7. :: Ideas y triquiñuelas :: comentaba que:

    […] El viernes en la tarde no tube mejor cosa que hacer que despues de trabajar irme a escuchar un par de conferencias, en una de ella hablaron del web 2.0 donde se dijo que este nuevo estandar no queda claramente definido, y que sería un conjunto cosas, como web sociales como del.icio.us, o de fotolog al estilo de flirck, pero se dejaron fuera el tema del podcast. La verdad es que a mi me parace muy interesante el fenomeno podcasting… y al parecer hay gente dandole vueltas para ver la forma de pasar automaticamente un blog a podcast… lo que ha mencionado como text2podcast… Para saber mas http://arivero.ciberpunk.net/text2podcast Escrito por Nacho Garcia (0) Comentarios • (0) Referencias • Permalink […]

  8. Alejandro Rivero comentaba que:

    Por cierto que uno esperaria que la ONCE ofreciera GRATUITAMENTE este servicio en la web o al menos a sus asociados. Tan solo he encontrado una referencha a un producto a 100 euros, aunque puede que sea este mismo que se ha liberado, en visual basic:
    http://www.educar.org/tiflo/proyecto/

  9. Reflexiones e irreflexiones comentaba que:

    El Mundo te lee las noticias

    No me pregunten por qué, pero hay cosas tecnológicas que a los medios les gustan rápidamente, y otras que no. Lo del podcasting y el sonido parece de las primeras y si hace nada hablábamos de los experimentos de Alejandro Rivero (por ejemplo en Podca

  10. David comentaba que:

    La única utilidad que le vería, sería descargarlo al mp3 para escucharlo en el metro… pero no para las personas discapacitadas, que ya tienen un software que les lee cualquier texto de una forma más cómoda.

Deja tu comentario

Debes identificarte para comentar.

anuncios google: