Pero si partes de un PDF y no de una foto, la parte de reconocimiento de escritura no se hace, en un OCR lo principal es el reconocimiento de escritura, y salvo que hayan sido revisados con cuidado están plagados de errores del tipo cambiar e por o, juntar palabras, etc, y eso no lo he visto, he visto los errores típicos de partir de un archivo digital con páginas de tamaño fijo y no revisarlo con cuidado para evitar esos errores de saltos de línea y guiones en medio de una palabra, por eso sospecho que sólo los libros editados últimamente los tienen guardados en algún tipo de archivo que permita el adaptarse al tamaño de pantalla.
Para mandar a imprenta un libro de bolsillo de nuevo alguien tiene que maquetarlo, por eso lo revisan con más cuidado, pero para un libro digital se deben saltar el proceso de maquetación o hacerlo más por encima, por eso aparecen errores.
No te cuento la mierda que les generaron a La Factoría de Ideas en sus primeras ediciones digitales. Creo que le subcontratan el trabajo a alguna empresa y el que les maquetó los libros lo hizo en una pantalla de ordenador sin revisar el css que les entregaba o como se veía al menos en una pantalla de 6". Yo sí que estuve leyendo alguno en pantalla de seis pulgadas, y era una porquería, aparte de los cortes del párrafo utilizaba al menos tres estilos diferentes para un párrafo normal, cada uno con márgenes y sangrado diferentes. Por eso digo que deben partir de un archivo digital que mandan a imprenta, y hacer la "desmaquetación". No hay errores tipográficos, pero de los otros, todos.
Al corregirme yo los estilos de esos libros vi que el libro se había generado con el programa profesional de Adobe para generación de contenido que utilizan en las editoriales (o al menos en algún momento de la producción pasó por él y quedó registrado en los metadatos), y me suena haber leído algo por ahí referente al mismo. Sospecho que el perpetrador utilizó la herramienta automática que proporciona el mismo Adobe para hacer la ingeniería inversa, con los resultados que Adobe proporciona sin revisar exhaustivamente, y así salieron.