Haciendo un backup de las notas de interes que tengo en el Google Reader, he encontrado este manual publicado inicialmente en el desaparecido blog "Todo Ebooks" y lo comparto aquí por que estoy seguro que será de interés a mas de uno.
**********
¿Podemos automatizar la tarea de corrección de un ebook? Os explico cómo lo hago yo (Todo Ebooks) .
A medida que voy leyendo el libro, si encuentro alguna errata, la anoto bien en un papel, en el iPhone o si estoy leyendo en un ebook que permite tomar notas directamente, pues ahí mismo.
Una vez finalizada la lectura, elaboramos una lista en un fichero txt con cada errata y su sustitución correspondiente, como la que habeis visto arriba.
Finalmente, vamos a usar un pequeño script que realizará todas las modificaciones anotadas en el ebook y generará una versión corregida. El script nos pedirá primero el epub a corregir, y en segundo lugar el archivo de texto con las correcciones. (es un script bastante guarro y puede fallar en cualquier caso inesperado, como es simplemente una herramienta personal, no me he tomado la molestia de hacerlo robusto). El script lo podeis consultar aqui. http://snipt.org/wmkkj
--------------
Muchos de los errores tipográficos que aparecen al realizar un OCR a un libro escaneado, o que simplemente contiene el libro si no ha atravesado un exhaustivo proceso de edición, pueden corregirse de manera automática en la mayoría de los casos mediante el uso de expresiones regulares.
Vamos a ver algúnos ejemplos sencillitos.
#Espacio que no aparece tras un punto y seguido
Expresión: "\.([A-Z])"
Sustitución: ". $1"
#Espacio antes de cerrar interrogación
Expresión: "\s\?"
Sustitución: "?"
#Guiones largos en el interior de una palabra, lo sustituimos por un guión corto
Expresión: "([A-Za-zÁÉÍÓÚÑáéíóúü])–([A-Za-zÁÉÍÓÚÑáéíóúü])"
Sustitución: "$1-$2"
Y siguiendo esta estructura podemos confeccionarnos una lista para corregir los errores más frecuentes (espacios antes de exclamaciones, guiones de diálogo, etc..) Mientras más sofisticada sea la búsqueda que queremos hacer, más se complicará la expresión regular, pero con paciencia y maña se puede hacer casi de todo.
Y si las colocamos todas en un archivo de texto siguiendo el formato
#comentario
expresión
sustitución
#comentario
expresión
sustitución
...
podemos aplicarlas todas de golpe a un epub que tengamos ya preparado, mediante el script epubcorrect que mencioné anteriormente.