Iniciado por
johansolo
En eso mi sistema tiene una ventaja.
El doc que obtengo con AbbyFineReader lo convierto a fb2 (tras haber puesto el formato de párrafo Título1 en los títulos de los capítulos para más comodidad) con las OOOFBtools.
Renombro el fb2 a html y lo abro con el notepad++. Me cargo la cabecera, convierto los <emphasis> a <i>, los <strong> a <b>, los <title><p> a <h1>, etc... y convierto la codificación a ansi y al abrir el fichero html con el word tengo un fichero limpísimo desde el que puedo trabajar.
La ventaja con las imágenes es que todas las imágenes son <image l:href="#img_0.png"/>, <image l:href="#img_1.png"/>, etc., así que puedo eliminarlas con un buscar y reemplazar con una expresión regular sencilla.