Gran problema este el de los saltos de línea. Ayer estuve trasteando con el Abby Finereader y efectivamente, aplica el OCR a todas lás páginas. Evidentemente, el resultado es bueno, al ser texto original en el PDF, pero innecesario el paso. Voy a probar el Transformer, que como bien dices, ener, no aplicará OCR y sólo aplicará los patrones de maquetación del Abby, que es lo que nos interesa.
Saludos
Ya he probado el Transformer 3. Tiene dos opciones de conversión, formato texto o formato original. El primero es algo desastroso, por lo que me decanto por el segundo, que es bastante mejor. Se solucionan casi todos los falsos saltos de línea (que ya es decir, teniendo en cuenta que el proceso tarda 1 minuto), pero queda un tipo sin solventarse: una frase a mitad que pasa a otra página del documento. Ejemplo:
esposa y sus hijos, lo cual no era una casualidad, porque nunca hablaba de otra cosa. Traía
(fin de página)
una nevera, una lavadora automática, y una radio y una estufa.
(nueva página).
En el documento .doc aunque quede espacio suficiente, nos coloca "Traía" en una línea sola y varias en blanco debajo. Seguidamente, la continuación de la frase.
Es jodido, sí, y no sé como solventarlo, pues no hay más opciones, pero ya es un comienzo...
Un pequeño truco que seguramente te ayude.
En un documento word suele haber dos tipos de "enter"
Uno de ellos es un salto de linea (se pasa a la linea siguiente) y otros es un salto de parrafo (se comienza un nuevo parrafo).
En la mayoria de estas conversiones los falsos ENTER suelen ser saltos de linea.
Para corregirlos vas al word y con la opcion reemplazar le dices que reemplace "^L" por " " (un espacio en blanco).
Tambien es probable que hay opciones de silabeo, pon lo que puedes decirle que reemplace "-^L" por "" (nada, es decir, en blanco sin espacio)
Despues te quedaran los saltos de pagina del libro original. Estos suelen ser saltos de parrafo.
Para sustituirlos cuando se hizo silabeo usas: "-^p" por "" (nada) y reemplazas todos.
Los que no tienen silabeo son mas complicados, pero son faciles de distinguir porque no acaban en un punto.
Por tanto buscas "^$^p" con lo que te los encontrara facilmente. Asi tambien te encontrara los capitulos, con lo que sera facil darles el formato adecuado (recomiendo marcarlos como TITULO2. La otra posibilidad es ",^p"
Puedes acariciar a la gente con palabras. Francis Scott Fitzgerald
Leer surte un efecto peligroso: Encender fuegos artificiales en la intimidad del cerebro. Terry Pratchett