PDA

Ver la versión completa : ¿Alguno de vosotros ha escaneado algún libro?



hedera
17/02/2009, 12:03
Pues eso, ¿alguien lo ha hecho?

Es que tengo pendientes de leer algunos libros que tengo en papel, y me gustaría hacerlo en formato electrónico pues para mi es mucho más cómodo (leo en el metro)

¿Es muy pesado escanearlo o pesadísimo? :D

¿Cómo lo hacéis? ¿Escaneáis en jpg o en pdf...? ¿Qué programa de ocr utilizais? ¿da buenos resultados? ¿escaneáis a doble página o una a una?

No se, toda la información que podáis darme será bienvenida, pues me estoy planteando seriamente el tema y no tengo ni idea de por donde empezar.

Prometo que si consigo hacerlo medianamente bien dejaré los libros por aquí, y son libros que no se encuentran digitales por ninguna parte (logicamente) ;)

Muchas gracias.

katxan
17/02/2009, 14:08
En su día ya surgió ese tema en el foro y lo discutimos brevemente aquí: http://www.lectoreselectronicos.com/index.php?name=PNphpBB2&file=viewtopic&t=27&highli ght=escanear

Olvídate de la primera página, donde nos desviamos totalmente a otro tema (que al final además se quedó en agua de borrajas) y pasa a la segunda página del mensaje, donde un usuario daba algo de información al respecto.
Tiene que haber otro mensaje más en alguno de los foros donde también recuerdo haber hablado de los escaneados, pero no he dado con él. De todas maneras es un trabajo bastante pesado y que al final poca gente se atreve a emprender.

koolau
17/02/2009, 16:04
Hola heredera, te informo de lo que se acerca del escaneo de libros:

Sí es pesadillo, hay que escanear a una buena resolución porque si no el programa de ocr no lo lee bien, por lo menos a 200 dpi, con lo que el escaner tarda más en pasar
Se debe escanear a tiff o algún otro formato sin pérdida por compresión (así el programa de ocr tendrá menos fallos).
Office tiene un programa para escanear y no hace mal la corrección, sin embargo el programa que usan los escaneadores avezados es el Abbyy Fine Reader (está en la sección de descargas)
Lo ideal escanear página a página y luego hacer el ocr de todo el texto, pero va en gustos
Tras pasar el ocr se debe hacer una corrección por lectura porque el programa no es infalible

Tengo por ahí un tutorial de como escanear libros de un grupo que se dedica a ello y está muy bien, si quieres te lo paso.

Espero que te haya servido de algo[/list]

surquizu
17/02/2009, 16:13
Mi experiencia se limita a un tercio del trabajo de escanear. Es decir, el escaneo tiene basicamente tres partes, el escaneo propiamente dicho, la conversión a texto mediante OCR y la corrección.

Yo de un libro escaneado a doble página y baja resolución en formato imagen y tamaño pdf (1ª parte del trabajo hecha con bastante deficiencia) he conseguido un libro mas que decente. Podeis verlo en esta misma web (El peor viaje del mundo)

La parte mas fácil es el escaneado y será mas lenta o mas rápida en función del número de paginas y velocidad del escaner. El OCR a utilizar, sin duda , el ABBY Fine Reader (naturalmente existe vacuna), probé varios gratuitos o de pago menor y el resultado fué pésimo. No obstante es posible que con un buen escaneo el resultado fuera mejor pero en mi caso el parchivo de entrada era muy malo.

Pasar el OCR tambien es rápido. Un par de configuraciones y el programa trabaja solo y da de resultado un .doc

La corrección también es bastante fácil (almenos con el resultado del Abby), fue suficiente pasar el corrector del Word, con lo que detectaba las palabras mal reconocidas al considerarlas faltas de ortografía. Quizá un poco entretenida porque aprovechas para ajustar algun parrafo, alguna titulo,... pero se hace sin problemas.

Vamos que a falta de una experiencia entera, creo que tampoco se puede decir que sea pesado y al hacerlo colaboras en incrementar la lectura libre.

Luego, en casa os pongo un tutorial que tengo.

hedera
17/02/2009, 16:33
Muchísimas gracias a todos. Por supuesto que me interesan el tutorial koolau, te lo agradecería mucho. Y el tuyo, surquizu también, toda información es buena.

Es muy posible que me decida a hacerlo.

Saludos.

Kishpah
17/02/2009, 17:19
Bufff, a mi la parte de escanear me pareció sumamente pesada y lentísima. Hasta el punto que decidí no escanear más libros, si no preparar un soporte para la cámara digital, y sacar fotos de las páginas (al final nunca me monté la mesa de "escaneado", pero aún sigo con la idea)

Hace tiempo también que no pruebo los OCR, en general con 150 puntos por pulgada suele ser suficiente como para que reconozcan las letras sin muchos problemas, con lo que tampoco necesitas unas imágenes de demasiada calidad. La última vez que probé, me pedía confirmación en todas las letras cercanas al lomo del libro, por que con la curvatura de la hoja salían deformadas y no reconocía ninguna.

Si los escaneos que tienes están bien hechos, el OCR es la parte más fácil, si no están bien, el OCR puede ser un suplicio.

Después la parte de corrección.... bueno, depende del libro, en general lleva su tiempo, pero no es especialmente tediosa.

Si me montase una mesa de escaneado, o consiguiese un aparato para libros como los del otro post, me plantearía escanear algún libro, pero con un escaner normal y corriente, y pasando páginas... ni loco XD

xela
17/02/2009, 17:50
Yo, personalmente, buscaría esos libros que tienes pendientes por internet, si no son demasiado raros, los encontrarás fácilmente, y con sólo convertirlos podrás leerlos mas o menos igual.


saludos

hedera
17/02/2009, 18:02
xela666, esos libros están requetebuscados y no ha habido manera. Si encuentras alguno de ellos te lo agradecería infinito, son los dos de Christopher Moore, sus títulos son:

- Un trabajo muy sucio
- ¡Chúpate esa!

(Me flipa Christopher Moore ;) )

Saludos.

xela
17/02/2009, 18:21
Vale, no están xDDD. He buscado 15 minutos y no hay manera, ni en el emule. (solo chupate esa, pero en ingles).
Que mala suerte...

kiermel
17/02/2009, 19:22
Yo cuando usaba Windows escaneé un libro, le pasé el OCR a 300 con el mejor software para eso, el Abby Fine Reader. Y después a corregir.

Fue bastante pesado y eso que el libro no era demasiado gordo. No he vuelto a hacerlo.

Te recomiendo como ya te han dicho que antes los busques por si ya están escaneados, y así te ahorras el trabajo.

De Christopher Moore he encontrado:
La comedia del diablo (RTF)
Descargar de 4Shared (http://www.4shared.com/file/53282179/c81cf099) | Descargar de MediaFire (http://www.mediafire.com/?tb0evnj4lon)

O si puedes leer en inglés:
The Stupidest Angel (http://www.bibliotheka.org/?/ver/33765)

hedera
17/02/2009, 19:26
Gracias, esos dos ya están leídos ;)

El Ángel más tonto del mundo lo leí en papel, la comedia del diablo lo leí en digital.

El Ángel más tonto del mundo también anda por ahí en castellano. Yo lo tengo.

Saludos.

kiermel
17/02/2009, 19:50
Pues para el que le interese El ángel más tonto del mundo en español:
http://rapidshare.com/files/193565260/Christopher_Moore_-El__ngel_M_s_Tonto_del_Mundo.rar

surquizu
17/02/2009, 20:13
Aqui va el tutorial de escaneo:

http://rapidshare.com/files/199294272/Tutorial_de_escaneo_libros.mht

El Abby me transformó sin fallos el pdf escaneado a 90 ppp (aunque salía una advertencia) y para hacer la corrección no es necesaria la lectura del texto, es suficiente el corrector ortografico y algún "reemplazar todo".

dagon
18/02/2009, 09:24
Yo escaneo mucho. Tengo un escáner hp de doble cara y es impresionante. Puedo tener escaneasdo un libro en media hora (ojo, yo les corto el lomo). Recordar que el resultado final puede ser un doc (pasando el OCR) o puede ser un pdf. Por cierto, para el OCR lo optimo es 300 ppp. Y creo que Omipage es el mejor programa de OCR.

hedera
18/02/2009, 14:52
Muchísimas gracisa surquizu :)

koolau
20/02/2009, 12:18
Hola ahí va un tutorial de expertos, de la Biblioteca IRC recargada. Espero que te sea útil.

CONSEJOS Y TRUCOS PARA LA
DIGITALIZACIÓN Y CORRECCIÓN DE TEXTOS
(GUÍA PASO A PASO CON FINE READER Y WORD)

PRESENTACIÓN:
Visto que continuamente hay gente que se integra en la lista y no está familiarizada con la
digitalización y corrección de textos, se me ha ocurrido hacer un resumen paso a paso de las tareas
que componen este proceso y de la resolución de los problemas más comunes que se plantean.
Para hacerlo más ameno y refiero mis experiencias personales. Y agradezco la ayuda que me ha
brindado El Trauko con sus oportunos consejos y a Elfowar por enseñarme el “split” (separación) de
las páginas en FR y su reacomodamiento.
Espero que les sea útil.
Cx.


[EQUIPAMIENTO CON QUE TRABAJO:
Scanner: HP 3c (scsi)
OCR: Fine Reader versión 6.0 Corporated Edition en inglés (en adelante, FR)
Word: Word 2000 en inglés (en adelante, Word)]


EL SCAN:
Escaneo a 300 dpi en la opción solo texto (nada de escala de grises ni rgb, ni nada de nitidez
especial) con un rango bastante claro para evitar sombras e imperfecciones.
Escaneo de a 2 páginas a la vez. Según como pueda colocar el libro en la "cama" del scanner lo
pongo horizontal o vertical (pero prefiero el horizontal).
Escaneo todo el libro de un tirón. No empiezo ninguna otra tarea con el mismo libro hasta terminar el
scan. Comúnmente uso la opción de escanear múltiples páginas de FR porque ya numera
automáticamente los tiff. En opciones de escaneo elijo “split dual pages” para separar las dos
páginas y, si escaneo en vertical, elijo que detecte automáticamente la dirección de la pagina (tengo
cuidado de poner la página de numeración inferior en el ángulo de inicio del escaneo de lo contrario
FR colocará la Pág. 4 antes que la 5, por ejemplo). A medida que voy escaneando en las ventanas
de FR verifico que la imagen venga clara y con la menor cantidad de imperfecciones para ello corrijo
los valores de luminosidad del escaneo (nivel del umbral).
[A veces FR tiene dificultad para reconocer la orientación de las páginas o sencillamente la máquina
se vuelve muy lenta para esta opción en esos casos hago lo siguiente: El Batch (lote) en que pongo
las imágenes no es el definitivo: cuando terminé de escanear y he rotado las imágenes hasta que las
tengo todas en horizontal. Entonces creo un nuevo batch o “lote” (el definitivo, con el nombre
definitivo). Entre las opciones de FR elijo que haga split de las páginas. FR separa entonces todo en
páginas individuales.]
CONTROL DE PAGINACIÓN (C1):
A medida que se escanean las páginas FR, en una ventana de la izquierda coloca miniaturas
(thumbnails) de la páginas escaneadas, con el número de página que le ha correspondido, al pie de
la misma.
Pues bien, al concluir el escaneo HAGO COINCIDIR EL NUMERO DE LA PRIMERA PAGINA CON
EL NUMERO DE ESA PAGINA EN EL LIBRO Y HAGO QUE RENUMERE TODAS LAS PÁGINAS EN
CONSECUENCIA. Y de esta forma verifico que a cada página se corresponda con el número de la
miniatura correspondiente.
La razón es la siguiente: Hay que hacer control de que no se haya salteado ninguna página durante
el escaneo (o que alguna la haya escaneado, por distracción, dos veces). Y se controla que todas
ellas estén en el orden correcto.
Truco: En realidad no es necesario controlar con este procedimiento todas las páginas. Si uno
controla una de cada diez o veinte y siempre halla coincidencia, la posibilidad de error es casi nula. Y
además, controlo siempre las últimas 2 páginas. Si uno está muy apurado, controla la primera y la
última, y luego, algunas de las intermedias (si hay coincidencias probablemente no existan
problemas de paginación)

EL LAYOUT (ENCUADRE DEL TEXTO A RECONOCER):
Para hacer que el OCR reconozca el texto hay que señala en cada páginas las áreas que debe leer.
Esa marcación es el layout y debe hacerse en cada pagina que se desea reconocer. Si una página
no tiene el layout marcado NO SERÁ LEÍDA.
El procesamiento del layout puede hacerse automáticamente y para todas las páginas; o señalar las
áreas de reconocimiento manualmente.

CONTROL DEL LAYOUT (C2):
En el caso del procesamiento automático del layout, conviene (una vez que FR ha definido el layout
de cada página):
1) eliminar del mismo los números de página, y cabezales y pies de página (si los hubiera).
2) eliminar todas otras imperfecciones que el FR hubiera entendido como dibujos o textos.
3) corregir los recuadros cuando hubiera eliminado un texto o un título, o un numero de capítulo
por error.
4) Verificar el orden de los cuadros de texto a reconocer.
En el caso de realizar la marcación manualmente, conviene hacer una revisión del orden de los
recuadros a reconocer.

EL RECONOCIMIENTO ÓPTICO DE CARACTERES (OCR):
Antes de proceder al reconocimiento de todas las páginas hay que verificar:
1) el idioma de reconocimiento (generalmente, español)
2) Verificar en la “opciones” [Tools>Options>Formatting] que retenga “font & font size”
(características de fuente y tamaño) lo que permitirá conservar las itálicas y negritas del texto
y las diferencias de tamaño de títulos y subtítulos.
3) Conviene también que corrija automáticamente los espacios antes y después de la
puntuación (chequear la casilla de esta opción).

Luego hacemos reconocer el texto.
Hasta donde sé FR trabaja de esta manera: 1) reconoce cada letra por su contorno; 2) cuando se
topa con un espacio mayor entre una letra y otra reconoce las letras próximas como palabra; 3) en
una segunda pasada compara esa palabra contra un diccionario del idioma elegido, si la palabra
aparece en su diccionario la acepta como tal; si la palabra tiene alguna alteración (p. ej. lee “opcion”,
busca en su diccionario y la palabra más próxima es “opción”, su algoritmo admite que puede ser un
error de la imagen y escribe opción) escribe la palabra como la considera correcta y señala la duda
con una marca de color (celeste); si la palabra no figura en su diccionario la escribe como reconoce
cada letra y la marca en color (celeste). FR tiene varios niveles de corrección. Y, no lo he probado,
pero creo que puede suspenderse la autocorrección.

CONTROL DE LAS DUDAS Y ERRORES DEL OCR (C3):
Una vez leído el texto FR deja marcas en color celeste de todas las dudas que ha tenido. Hay que
hacer un repaso pagina por página mirando las dudas que ha marcado. La regla es esta: si FR
marca con celeste pero nosotros no observamos que haya ningún problema dejamos esa marcación
tal como está, si en cambio notamos que en lo señalado hay un error, lo corregimos cotejando con la
imagen ampliada que aparece en la ventana inferior. Muchos de estos errores no podrán ser
corregidos o detectados por Word así es que SE HACE NECESARIO realizar estas correcciones aquí
en FR (antes de salvar el texto para Word).
El texto así depurado ya ha cumplido con los controles 123 de modo que su calificación sería [C123],
donde C quiere decir “Control”.
Tip: Cuando uno va a realiza este control conviene reacomodar las tres ventanas de modo que la
ventana del texto ampliado y la del texto leído por OCR tengan mayor espacio. Usando el botón
derecho del mouse se clickea en la ventana y se especifica el zoom más conveniente para la imagen
de texto que se tiene. Esta revisión entonces lleva bastante menos tiempo pues se realiza más
rápidamente. Las ventanas de FR se pueden personalizar y acomodar para que cada tarea se más
fácil y controlada (pueden moverlas, reducirlas, ampliarlas, cerarlas o abrirlas a gusto; vale la pena
dedicarle un poco de tiempo a acomodarlas antes de la tarea).

GUARDAR EL TEXTO RECONOCIDO:
FR da toda una serie de opciones para guardar el texto. Yo generalmente lo guardo como html, sino
como documento de word o como rtf.
Tip: Lo guardo como html cuando quiero tener en Word una marcación adicional para saber donde
estaban en el documento original los finales de página. Al abrir el documento en el explorer, copiar y,
luego, pegar en Word. Los fines de página aparecen marcados por un gráfico pequeño que se puede
usar como marcador para ser removidos a medida que las páginas son ensambladas unas con otras.

CORRECCIÓN DEL TEXTO EN WORD (C4):
Antes de controlar automáticamente el texto con el corrector ortográfico de Word, hago las siguientes
reparaciones:

1) Corrijo los saltos de página en medio de un párrafo.

Truco: Los párrafos interrumpidos por el salto de página comúnmente no terminan en punto sino en el
sino al concluir una palabra (Si es al silabear una palabra véase el punto siguiente). Por lo tanto para
detectarlos rápidamente se realiza una búsqueda (Editar > buscar [Edit>find]) de “cualquier letra" [any
letter] + salto de párrafo [paragraf mark] (^$^p) [pueden cortar y pegar esta orden en la ventana de
dialogo de “Edit > Find” (Editar > Buscar)]
ATENCIÓN: NO HAY QUE HACER EN ESOS CASOS REEMPLAZO AUTOMÁTICO PORQUE
CAMBIARÍA TAMBIÉN LA LETRA (“any letter” [=cualquier letra]) DE LA CONSIGNA. Una vez
ubicado el caso a corregir hay que detenerse y corregirlo manualmente (Actualmente se trabaja en
una macro para solucionar esto automáticamente).

También deben buscarse los casos de línea trunca como ,^p [=coma + salto de párrafo ] o ;^p [=punto
y coma + salto de párrafo ], :^p [dos puntos + salto de párrafo ]. Y cambiar el ^p por 1 espacio. [Se
trabaja en una macro para solucionar este tema].


2) Corregir los saltos de página con corte de palabra.

Solución: los saltos de página con corte de palabra se pueden corregir automáticamente buscando la
secuencia “guión + marca de salto de párrafo ” (-^p) y reemplazándola por nada. Esto suprimirá todos
los guiones y los fin de párrafo dejando las palabras nuevamente unidas.

4) Búsqueda y restablecimiento de las notas a pie de página y otros aditamentos en el interior del
texto.

Solución: las notas a pie de página suelen ir numeradas o con una llamada o asterisco. Basta con
hacer una búsqueda de “any digit” [cualquier número o dígito] o del signo que se utilice en el scan y
restablecer nuevamente el link; esto es: cortar el texto de la nota, ir al punto donde la nota debe ser
insertada, borrar la marca anterior, y seleccionar el comando “insert”, luego “footnote”, aceptar, y en
el espacio destinado a la nota al pie de página “pegar” el texto cortado. Es lento pero no creo que se
lo pueda automatizar más.

5) Corregir Títulos y subtítulos para restablecer su diferenciación y jerarquización tipográfica.

No hay una solución automática. Hay que recorrer el texto y comprobarlos.
CONVENDRÍA ASIGNAR UN ESTILO A LOS TÍTULOS Y OTRO A LOS SUBTÍTULOS (UN ESTILO
DISTINTO DEL TEXTO GENERAL Y DISTINTO DE CUALQUIER OTRO ESTILO USADO).

6) Corrección de los errores ortográficos que a veces no son detectados por el corrector automático:

a)Confusión del nexo coordinante “y” por “v”

Solución automática: cambiar todos los “(espacio) v (espacio)” por “(espacio) y (espacio)” ya
que en la sintaxis castellana “v” no se halla en ningún caso. De todas formas este cambio
automático conviene realizarlo cuando ya se hayan hecho revisiones generales del texto.

b) Reemplazo de letras por dígitos, búsqueda de número de página que hayan escapado al
control de layout, y comprobación de dígitos en el documento:

Solución automática: una vez realizada la corrección ortográfica, realizar una búsqueda de
“any digit” [cualquier número o dígito]. Conviene hacer esta comprobación porque hay veces
en que el texto original tiene defectos que pueden hacer que el OCR confunda por ejemplo “él”
con “61” y el corrector automático no lo detectaría.



CORRECCIÓN CON EL CORRECTOR DE WORD:

Con todo el texto seleccionado se escoge la opción “set lenguaje” [definir lenguaje] y se indica el
lenguaje del documento para que el corrector funcione correctamente; en la exigencia de corrección
(herramientas, opciones [=tools, options]) se elige “exhaustiva”. Y se realiza la corrección interactiva
en word, hasta que el programa indique que ésta ha terminado.


Truco:
Problema: Control de los nombres propios.
Solución: al usar la opción “ignore all” [omitir todos] de la ventana del corrector hacemos que
Word vaya construyendoun diccionario del que después no queda ningún rastro salvo para ese
documento y para la corrección que estamos realizando en ese momento. Ese diccionario
“momentáneo” es muy útil. Cuando vemos un nombre bien escrito, y le damos “Ignore all”
[omitir todos], no vuelve a preguntarnos por él en todo el documento, pero atención, si vuelve a
preguntar por ese mismo nombre es porque no está igual (puede ser que algo esté mal en él: o
le falta alguna letra o le falta un acento o alguna letra a sido sustituida, o ha sido partido por el
silabeo y tiene un guión que no tenía cuando la aceptamos la primera vez, y entonces tenemos
la oportunidad de corregirlo).



CORRECCIÓN MANUAL POR LECTURA DEL DOCUMENTO (C5):

Todavía los programas no son tan inteligentes como para comprender un documento y detectar
coherencia. Si los distintos correctores han detectado que una combinación de letras corresponde a
una palabra que figura en sus diccionarios, sencillamente la dan por buena.
Si el problema está en el original impreso en papel (porque los problemas de corrección han existido
siempre y con alguna ediciones más que con otras, como por ejemplo con las viejas “Nebulae”) la
máquina no podrá ayudarnos. En este sentido es importante: ANTES DE PONERNOS A
ESCANEAR UN LIBRO (cosa que implica considerable trabajo si atendemos a que su corrección a
conciencia lleva cierto tiempo y esfuerzo) que usemos libros que hayamos leído y en los que
recordemos no haber hallado ningún fallo significativo de este tipo (como que le falten páginas o
cosas así) . No sea que nos encontremos, cuando ya habíamos hecho todo el trabajo que alguien le
había arrancado la última página o que un cuadernillo estaba fallado o que ése era el primero de 2
tomos de la misma novela.
En cambio si ya lo habíamos leído y no había problemas y si cumplimos todos los pasos de
corrección arriba descriptos, creo bien podemos pasarnos este último paso sin culpa.


NOMENCLATURA:

Para que el que reciba el documento sepa en que etapa de corrección o de control se halla
recomiendo siempre avisar entre corchetes el estado de control del documento. P. ej: un [C12345] es
un documento que ha pasado por todas las etapas de control e incluso fue controlado por lectura
directa, en cambió un [C1234] todavía no ha recibido una supervisión por lectura directa.



RESPONSABILIDAD DEL CORRECTOR:

La labor de los ulteriores lectores es muy relativa:
- Si es que avisan si encuentran algún problema en el texto.
- Si el que recibe el aviso puede realizar los cambios.
- Que se pueda efectuar el cambio en todas las copias que existan del archivo para evitar que esa
copia defectuosa siga circulando (Cosa no imposible, pero sí altísimamente improbable en los casos
de detección pronta) Pero imposible totalmente en la mayoría de los casos en que existen ciertas
demoras y las copia ya circulan en cds y por donde quién sabe dónde).

koolau
20/02/2009, 12:30
Y ahí va otro sobre las correcciones más comunes en OCR, tomado del mismo lugar (Biblioteca IRC Recargada)

CORRECTOR PROPIO
1) Lo primero que hago es trabajar sobre el documento tal como sale del Fine reader o del programa que sea, porque así es mas fácil detectar errores a simple vista.
2) Luego busco todos estos símbolos o letras que generalmente reemplazan otras letras que son las correctas. Tener cuidado con los corchetes, porque a veces están bien, pero generalmente no.... En cuanto a los paréntesis, suelen reemplazar una "ele" mayúscula u otra letra. Pero todos estos símbolos o letras deben buscarse uno a uno y nunca poner "reemplazar todo" porque a veces están en el documento.

£
#
$
%
&
©
®


'
*
/
[ ]

^
_
__
` ~
{
}
)
|
>
<
(
)

3) 3) Busco dos comas juntas (,,) o dos ;; o dos :: o mas de 3 puntos (....).
Un truco: poner en "buscar" un espacio y una coma o un espacio y un : Suelen haber muchos de estos errores.
Nota: Además de esto, yo suelo buscar puntos suspensivos con espacios entre medio (“.. .”, “. ..”, “. . .”) y puntos, comas y demás sin espacio a continuación (“.[A-Z]”, “,[!a-z]”, “;[a-z]”). En este último caso, hay que activar la opción “Usar caracteres comodín” al hacer la búsqueda. También está bien quitar los dobles espacios, simplemente buscando la cadena “ “ (dos espacios) y reemplazándola por “ “ (un espacio). Se repite hasta que no haya encontrado ningún caso.
4) Después me fijo en las comillas, suelen ser usados como símbolos del fine, " ", y estas otras comillas: « » por ahí no corresponden.
5) Me fijo en la imagen para ver si el guión con el que comienza la frase es corto (–) o largo (—) y pongo "buscar" y "reemplazar todo" según sea lo que corresponda, así quedan todos los guiones iguales.
Nota: Esto hace que palabras como “ex-mujer” queden mal (“ex—mujer”). Una opción para arreglarlo es, después de hacer la sustitución, hacer otra (con caracteres comodín) buscando “([a-zA-Z0-9])—([a-zA-Z0-9])” y reemplazando por “1-2”. No es perfecto, por lo que habrá que revisar después en lectura si se ha escapado algún caso.
6) Sigo con estos errores que son muy, muy comunes y que suelen haber muchísimos en los documentos:
ei por el
vin por un
ja por la
ios por los
jo por lo
ia por la
ias por las
ía por la
io por lo
ios por los
ío por lo
íos por los
de! por del
e! por el
61 por él
“ v ” por “ y ”
cié por de
cíe por de
corno por como
tenía por tenia
había por habia
7) Pongo buscar "palabras completas" y luego busco letras solas. Excepto la "a", pero sí la "á", y no la "o", y la "y"....porque seria tediosísimo, eso se ve en la lectura después. Suelen haber muchas i, o jotas, o k....
Nota: Se puede automatizar la búsqueda con caracteres comodín, buscando “ [b-np-zA-Z0-9] “ (ojo a los espacios a los lados). De esta manera buscará cualquier letra, excepto a y o minúsculas, rodeada de espacios.
8) Después pongo en buscar ".a" y "coincidir mayúsculas o minúsculas" y así lo hago sucesivamente con ".b", ".c", porque generalmente hay puntos entre frases que no corresponden. Mejor con [^A-Z].
Nota: Nuevamente se puede hacer todo de una vez. Aunque ya lo he comentado en el punto 3, sería “.[a-z]” (punto seguido de a-z minúsculas).
9) Busco después cualquier letra o numero en subíndice o superíndices y si no corresponde las selecciono y las paso a su escritura regular.
10) Sigo con los números, pongo " ^# " y me voy fijando en las imágenes si están correctos. Generalmente el 1 reemplaza la " l ", el 0 la " o ".....
11) A esta altura ya corregimos bastante, entonces le toca el turno al " - " . Generalmente separa una palabra, así que es fácil de corregir poniendo en buscar: ¬- y en reemplazar nada, ningún espacio, así se reúne nuevamente la palabra.
12) Después lo del corrector que circula por "nuestra" biblioteca:
,^p
^$^p
^l
-^p
:^p
;^p
^- (para ahorrar espacio en caracteres)
13) Luego reviso el formato de letra y párrafo. Yo suelo trabajar con letras tamaño 11 y párrafos exacto 14 puntos. Se puede leer bien así, pero es cuestión de gustos. Sigo poniendo números de pagina según estén en la imagen. Después de esto miro las imágenes una a una para ver si el "fine" corto alguna parte, falta algún numero de capitulo o no leyó algo.
Nota: Muchas veces, el Finereader asigna diferentes tamaños de letra a cada párrafo. Por tanto, suele estar bien, al principio de todo, seleccionar todo el documento y escoger un tamaño de letra homogéneo para todo el documento. El problema es que esto también afecta a los títulos, pero como de todas formas el Finereader también les asigna tamaños diferentes, tampoco es tan grave. En cualquier caso, es conveniente utilizar estilos para formatear el documento: uno para el texto normal, y alguno más para los diferentes niveles de títulos que puedan haber. Esto, además de reducir el tamaño del documento, permite alterar la apariencia muy fácilmente, cambiando por ejemplo el tamaño/tipo de letra o la indentación del texto sin afectar a cosas como los títulos.
14) Para terminar le paso el corrector ortográfico y el gramatical juntos. Luego leo el texto y corrijo si quedo algún error. El trabajo final sería poner las citas o pies de paginas y lo que yo llamo ordenar con el fine, es decir que el texto quede lo mas fiel a las imágenes, espacios, saltos de paginas y todo eso.
Recalco que los mayores errores que se encuentran en los documentos son los de puntuación incorrecta, queda feíto, por eso las aclaraciones anteriores.
Como no soy docente, me ha costado explicar bastante esto. Pero espero sea de utilidad para alguien.
Saludos LETY

hedera
20/02/2009, 12:58
Muchísimas gracias koolau. En cuanto mi padre me devuelva el escáner intentaré hacer unas pruebas con los manuales que me habéis pasado.

A ver que sale ;)

Saludos.

Brandy
01/03/2009, 23:53
Simplemente queria comentar que yo si que escaneo mis libros (en papel) para pasarlos al aparatillo (en mi caso un papyre) y que para escanearlos, mejor a 200 dpi en blanco y negro con el abby finereader.
El tema de la correccion y todo eso, se lo dejo a otros, ya que estoy metida en un par de grupos (con sus respectivos foros) en los que colaboro precisamente escaneando libros y dejandolos para que otras personas, los corrijan y los adapten a su formato.

El que comenta hereda de Moore: Un trabajo muy sucio ya está digitalizado por uno de estos grupos.

surquizu
02/03/2009, 09:10
El que comenta hereda de Moore: Un trabajo muy sucio ya está digitalizado por uno de estos grupos.

Pues danos el enlace para su descarga !!!

hedera
02/03/2009, 09:20
El que comenta hereda de Moore: Un trabajo muy sucio ya está digitalizado por uno de estos grupos.

Brandy, no me dejes así, por favor. Háblame más de ese grupo, me encantaría pertenecer a él.

Y vamos, si puedo evitarme realizar un trabajo que ya está hecho y en su lugar realizar otro pues pienso que mucho mejor ¿no?

Gracias y saludines.

Brandy
03/03/2009, 07:17
La pagina del grupo es libroslibroslibros.org
Es un grupo que se dedica a recopilar lo que encuentran por la red + aportaciones de los miembros del foro.

Estuve mirando en el foro y me colé. Pensaba que habían sacado el libro al público pero todavía no lo han hecho.
Pero vamos que lo sacaran en breves, porque hecho está.
Lo siento.

hedera
03/03/2009, 08:54
¡¡¡Muchas gracias Brandy!!!

:D :D

Saludos.

surquizu
05/03/2009, 12:45
Con el permiso de Brandy, aqui lo tienes:


http://rapidshare.com/files/205589212/UN_TRABAJO_MUY_SUCIO-_Christopher_Moore.rar

hedera
05/03/2009, 13:01
Jo, como sois. Muchísimas gracias surquizu. Si es que da gusto formar parte de esta comunidad...

Yo he estado escaneando otro de Christopher Moore: "¡Chúpate esa!" No se qué tal ha quedado, pero en cuanto lo revise un poco más lo cuelgo.

Gracias chicos, sois los mejores.

También tengo en tareas pendientes "La Llave del Abismo", de José Carlos Somoza. Si lo veis por ahí decírmelo, para no darme el palizón...

Saludos.

oscarig
05/03/2009, 15:25
Hola Hedera, si por favor, que llevo buscándolo hace tiempo y no he podido conseguirlo. Yo estoy peleándome con un escaner HP scanjet 4100c que no puedo hacer funcionar ni con XP ni con Ubuntu. Si a alguno se le ocurre una manera se lo agradeceré y empezaré a escanear algún libro de los que no hay por ahí.
Un saludo

hedera
05/03/2009, 17:46
oscarig, ya lo he subido.

http://lectoreselectronicos.com/index.php?name=PNphpBB2&file=viewtopic&p=5351

Saludos.

oscarig
05/03/2009, 22:45
Muchas gracias, y si no es mucho pedir el de " La llave del abismo" el siguiente, eh? :D . Corro a por el.

hedera
06/03/2009, 09:00
A ver si este fin de semana empiezo el escaneado de "La Llave del Abismo"

Es cuestión de ganas y de que me dejen un rato los petardos de mis hijos ;)

Saludos.

kiermel
06/03/2009, 16:37
Aquí tenéis algunos libros de ese autor...

Dafne Desvanecida (http://rapidshare.com/files/184457383/Dd.rar) - Jose Carlos Somoza

Juan Cabo, escritor de éxito, ha perdido la memoria en un accidente de tráfico. Pocas horas antes había escrito: «Me he enamorado de una mujer desconocida». Pero Juan no sabe si esta frase pertenece a algún argumento que le rondaba por la cabeza antes del accidente o la mujer es real. El escritor inicia la búsqueda de esa desconocida, una odisea que le llevará a encontrarse con un elenco de personajes estrambóticos, como el poeta que parece tener la clave del misterio pero fallece en extrañas circunstancias, el editor ciego, un detective especializado en ayudar a escritores y Musa, una modelo que vende su extraordinario cuerpo para inspirar a los novelistas..
.
Dafne desvanecida, finalista del premio Nadal 2000, es una divertida, inteligente y bien armada novela de suspense que indaga sobre la finalidad de la literatura.

José Carlos Somoza nació en La Habana en 1959, es psiquiatra y vive en Madrid. Es autor de las novelas :

* Clara y la penumbra (2001) (Premio Fernando Lara)
* La dama número trece (2003)
* La caja de marfil (2004)
* El detalle (tres novelas breves) (2005)
* Zig Zag (2006)
* La llave del abismo (2007) (Premio Ciudad de Torrevieja)
[hr:be29560dd6]
La dama número trece (http://rapidshare.com/files/201704656/La_Dama_Numero_Trece.rar) – José Carlos Somoza

Salomón Rulfo, un profesor de literatura en paro apasionado por la poesía que intenta superar una terrible tragedia en su pasado reciente, sufre extrañas pesadillas. Sueña con un triple asesinato, una casa que no ha visto nunca, una mujer que le pide ayuda. Pronto descubrirá que no son simples sueños: la casa existe, los asesinatos también y la mujer que le pide ayuda fue una de las víctimas. Con la ayuda de una muchacha de pasado enigmático y de un médico, Rulfo intentará adentrarse en el mundo de sus pesadillas para comprobar que, lejos de ser meras fantasías, sus sueños son la puerta abierta hacia otra realidad.
[hr:be29560dd6]
Zig Zag (http://www.4shared.com/file/78350308/2a390ebe/Zig_zag.html) - José Carlos Somoza

Elisa Robledo, joven profesora de física teórica, guarda un secreto terrible. Un secreto que se remonta a diez años atrás, pero que no ha dejado de atormentarla desde entonces. Hasta esa mañana, cuando comprende que tendrá que huir para salvar su vida y que necesitaría la ayuda de su único amigo, un colega de su departamento. Junto a él, Elisa comenzará a recordar las claves de lo sucedido cuando era alumna del prestigioso científico David Blanes, cuyos análisis, basados en la «teoría de cuerdas», quizá harían posible contemplar el pasado de la humanidad, convertirla en testigo de la crucifixión de Cristo o vislumbrar la Tierra en pleno período Jurásico, pero que acabaron ofreciendo un resultado insospechado y escalofriante.
Ahora, años después, Elisa intentará evitar el peligro letal que se cierne sobre ella y todos los que estuvieron relacionados con aquellos experimentos. Un peligro fruto de una implacable persecución...
Una novela imposible de abandonar hasta la última página, que coloca al lector frente a las puertas –temibles y fascinantes– del horror.

ahorso
06/03/2009, 18:21
gracias miles a todos