Iniciar sesión

Ver la versión completa : Digitalizar libros????



ahorso
06/05/2008, 17:57
Estreno esta parte del foro para mandar na pregunta:

¿Sabéis de algun grupo de gente o pagina web que estén organizados para escanear libros y pasarlos a formato electrónico?

Porque estoy dispuesto a ayudar en la digotalizacion de libros, pero necesitaria ayuda con los programas y sobretodo contactar con gente para dividirnos el trabajo.

Otra pregunta: ¿como es posible que "Un dia sin fin" de Ken Follet esté en ebook desde casi el primer dia de su publicación en papel y otros (por ejemplo, el ultimo de Ruiz Zafón, por seguir con best sellers), no? ¿De qué depende?

Acepto toda vuestra ayuda....

katxan
06/05/2008, 18:40
Para digitalizar libros hay scanners especiales como éste que vi en Xataka: http://www.xataka.com/2007/11/21-booksnap-escanea-tus-libros-y-los-convierte-en-ebooks

http://img.xataka.com/2007/11/booksnap_general.jpg

Aunque los hay más sencillos y totalmente automatizados: http://www.noticias.com/articulo/01-03-2006/monica-i/bookdrive-escanear-libros-53fm.html

Y ya el colmo del frikismo, gente que se construye un robot para pasar las páginas del libro mientras lo scanea: http://www.geocities.jp/takascience/lego/fabs_en.html

Con un scanner casero la tarea debe ser titánica, la verdad. Sobre grupos de escaneadores al estilo del CRG que hay en cómics, no conozco ninguno, la verdad.
Supongo que los e-books que aparecen en la red proceden en su mayor parte bien de gente que tiene acceso a scanners profesionales tipo los que he puesto arriba, bien de librerías online que venden directamente los libros en formato electrónico.

Yo tengo ahora mismo un proyecto entre manos que consiste en pasar libros de todo tipo de temáticas a los distintos formatos de e-readers para publicarlos en esta misma web.
En principio, solo lo voy a hacer con libros sin derechos de autor y de uso público, porque no quiero problemas legales. Si alguien quiere echar una mano, ya sabe, le lleno de curro a toda ostia ;).
Unas capturas de una mínima parte de lo que estoy preparando (hay más géneros y, desde luego, muchos más libros):

http://i50.photobucket.com/albums/f343/katxan/liburuak1.jpg

http://i50.photobucket.com/albums/f343/katxan/liburuak2.jpg

tempvs
07/05/2008, 17:00
Hola Ahorso,

http://www.libroslibroslibros.org/foro/index.php?board=59.0

este es un enlace de un grupo que trabaja este campo, hay tematica de todo tipo aunque mucho es romántica.

Saludos Tempvs

Chemo
29/05/2008, 19:10
Caramba, que buena pinta tiene esa sección que preparas... ¿Como tienes pensado realizar ese trabajo? No me quiero comprometer a nada pero esta web me ha ayudado a decidirme por el lector y me está gustando bastante, por lo que me plantearía echar un cabo.

Estoy probando el File Convertor 5.0 para pasar algunos libros al PDA (mientras espero mi Papyre) y si me dices como lo quieres enfocar igual me animo a echar un cable.

katxan
29/05/2008, 21:28
Pues en principio no lo tengo demasiado claro. La cuestión sería ofrecer únicamente obras libres de derechos de autor, principalmente clásicos de la literatura.
Es evidente que son facilísimos de encontrar en la red, pero lo que yo quiero conseguir es que estén en esta web en descarga directa, creadas, supervisadas y revisadas por los usuarios y con garantía de que están perfectos. No es la primera ni la última vez que alguien se baja un libro de internet y luego resulta estar incompleto, ser un resumen, no respetar el formato que debería tener, etc. etc. En definitiva, errores importantes que nos impiden simplemente descargar y disfrutar leyendo, sin necesidad de estar rompiéndonos la cabeza para dejar el documento que nos hemos bajado legible.

Sin embargo, no es éste el detalle más importante, sino que mi intención es que estos ebooks sean legibles perfectamente en cada lector.

Para conseguir ésto dispongo de dos opciones:

1.- Crear los libros en formato RTF, que todos los lectores reconocen y no lo manejan nada mal o

2.- Poner a disposición de los usuarios de la web varias versiones de cada libro, cada una en el formato propio de cada lector. Es decir, crear el libro en LRF, FB2, PDF, RTF,...

Inconvenientes del primer caso, el RTF: es un formato que no acepta imágenes (al menos, es lo que sucede en mi Sony, creo que es un problema del formato y no del lector).

Inconvenientes de la segunda opción: hay que convertir el libro a múltiples formatos diferentes.

En el último caso, no es tan complicado como parece. Se puede preparar el libro en el programa habitual de edición que utilice cada cual y luego guardarlo en doc, html, rtf, etc. A continuación solo hay que abrir dicho archivo con el Book Designer, darle a la opción de "Make ebook" y seleccionar el formato que queramos. Habrá que repetir este paso tantas veces como sea necesario para obtener los distintos formatos.

La sección se organizaría mediante géneros, tales como:

http://i50.photobucket.com/albums/f343/katxan/Untitled8-1.gif

Dentro de cada género iría una imagen de la portada del libro, título, autor, género y un resúmen del libro.

http://i50.photobucket.com/albums/f343/katxan/captura.gif

Soy bastante torpe con la programación web, así que no sé si sería capaz de crear esta sección de manera tal que los colaboradores pudiesen hacer automáticamente sus aportaciones, pudiendo editar y subir ellos mismos sus propias fichas y archivos.

El caso es que estoy a punto de tirar la toalla con ésto, pero si hay voluntarios dispuestos a ayudar, quizá podría sacarlo adelante.

Infovore
29/05/2008, 23:00
@katxan

no he trabajado con el pnphpBB. Si en el foro no hay alguien más experto o fogueado en estas lides intentaré documentarme un poco (ya se acerca el fin de semana y tendré más tiempo) para ver los detalles del sistema. Tengo algo de experiencia con otros CMS (aunque tampoco tanta como para tirar cohetes).

Saludos

Chemo
29/05/2008, 23:14
Yo soy programador profesional y webmaster de http://www.comunidadumbria.com pero mi propia web consume todos mis recursos como programador en tiempo libre. He trabajado poco con el PHPBB (suelo usar mis propias librerías) pero si alguien necesita una ayuda puntual puedo echarle una mano.

En cuanto a lo que comentas de los formatos me convence más el sistema de que estén en varios formatos por lo que dices de que una vez preparados compilarlos de varias maneras no tiene más ciencia que pulsar un botón.

Sobre comprobar el contenido de los ebooks, yo tenía pensado ir montándome la biblioteca de libros clásicos bajándolos de alguna web donde se encuentren disponibles y convirtiéndolos con el BookDesigner. No me importa, una vez lo haya hecho, cedértelos para que los cuelgues por aquí para que otros los tengan a mano. El problema es el ritmo: evidentemente solo se puede garantizar que un libro está 100% bien después de leerlo, jeje.

leandroide
30/05/2008, 11:03
Hola.

Yo creo que empezar con la idea de Katxan es demasiado ambicioso. Al fin y al cabo en este momento hay 50 y pico apuntados al foro, con lo que la capacidad de generar libros para los lectores es bastante limitada. Además estoy de acuerdo con Chemo en que solamente se deberían publicar los libros que hayan sido revisados (leídos).

Para evitar posibles problemas creo que es mejor idea publicar solamente libros libres de derechos de autor. Y además ahí hay que tener cuidado, porque según creo puede haber libros clásicos traducidos al castellano en los cuales hay derechos de autor vigentes por la traducción.

Vamos, que yo pondría un repositorio o subforo para poder subir libros revisados un poco al estilo de mobileread. Además eso permitiría que si alguien baja un libro y detecta algún problema que lo avise en el foro. Pero por ahora lo pondría sin división en categorías de libros, para ver qué tal va...

Un saludo.

Chemo
30/05/2008, 11:15
Pues me parece buena idea, empezar poquito a poquito. Yo incluso diría de poner enlaces a libros concretos revisados y leídos. Me explico: si yo me he bajado un libro de una web y lo he leído correctamente puedo subir una reseña opinando sobre el libro y poniendo el enlace a la web donde se encuentra disponible. Así el que lea la reseña y quiera leerse el libro se lo baja de forma cómoda.

Ganamos en que no hay que hacer un trabajo que quizás otras webs llevan ya más adelantado y sin embargo estamos haciendo una clasificación concreta de contenidos que es muy útil a quienes busquen algo que leer (a mi me suele pasar).

Si luego resulta que esa web desaparece como es probable que conservemos una copia de ese libro (al menos la del autor de la reseña) podemos subirla nosotros mismos a esta web.

Es una propuesta, por supuesto.

Lo que no sé es como funciona el tema de la vigencia de los derechos de autor.

katxan
30/05/2008, 14:03
En la legislación española, caducan a los 70 años de publicada.

Claro que se crean conflictos legales si, por ejemplo, publicas la obra de un francés a los 70 años de su publicación y resulta que en Francia la vigencia de los derechos es de 100 años (es un ejemplo, no tengo ni la más remota idea de cómo está la legislación francesa).

Por otro lado, está el tema de los derechos de las traducciones, como bien indica Leandroide. Ahí ya no sé cómo funciona el tema.

Esto nos deja un ámbito realmente reducido de elección de obras. Ya solo nos quedarían los clásicos españoles (que, obviamente, no necesitan traducción, aunque algunos sí que han sido adaptados para quitarles arcaísmos que pudieran hacer difícil la comprensión del lector moderno) y los libros libres de derechos (por ejemplo los que se encuentran bajo licencia Creative Commons, aunque, sinceramente, desconozco dónde encontrar en la red este tipo de obras). O los clásicos universales con traducciones antiguas.

No veo mal la iniciativa de abrir un subforo específico para ésto (desde luego, para mí sería inmensamente más cómodo y no me daría el menor trabajo). Habría que ver lo que puede dar de sí.

Si quereis, puedo abrir el nuevo subforo a modo de experimento. Si tiene éxito y va engordando poco a poco (no veo conveniente tampoco plantearse fechas o ritmo de subidas, bastaría con ver que hay un par de posteos al mes), se queda ahí, si fracasa y solo consigue unas muy pocas colaboraciones puedo unificar todos los mensajes en uno solo y meterlo en cualquiera de los otros subforos, en Cuestiones de la web, por ejemplo.

katxan
30/05/2008, 14:58
Vaya, los de photobucket me han borrado una imagen en la respuesta de arriba. Realmente no sé qué término he podido violar, ya que la capura era mía, de mi página web, con mis imágenes (creadas por mí con el photoshop). ¿Quizá porque había un género denominado "erotismo" y donde una moza enseñaba media teta?

Hace falta ser mojigato y carca. O yanki.

Esto no viene a cuento de nada, pero me apetecía desahogarme.

Infovore
30/05/2008, 15:26
:D :D :D :D

¿Usarán un software especial para detectarlas?...

En tal caso sí que es bueno... Funciona mejor que mi OCR :D

Chemo
30/05/2008, 17:06
¡Pervertido! ¡Una teta nada más y nada menos! ¡Y aún se queja de que se la censuren! :D Es broma, claro...

Bueno, lo del tema principal. Yo votaría por ese subforo para ir probando. No sé si lo quieres limitar a libros que estén dentro de la literatura clásica hispana o si ampliarás el rango. Yo prefería ampliar el abanico de autores clásicos a los universales (no solo españoles) porque lo considero más interesante pero el tema de los derechos de autor, enlaces a descargas y esas cosas siempre es un tema peliagudo.

ahorso
30/05/2008, 17:25
No intento ser el chinche del grupo, pero ¿tiene sentido tanto trabajo cuando existen páginas como las que hay, en las que te bajas el libro (con o sin licencia) en décimas de segundo, y programas como los que hay con los que cambias el formato en segundos?

¿No sería mejor enseñar a dominar los difernetes programas de edición de formatos y que cada uno se cree su libro con sus caraterísticas propias? A mi me gusta el tamaño 20 y seguro que los que hagáis los voy a tener que modificar.....

Otra cosa es que hablemos de la edición de tal o cual archivo, cosa que veo legal. "He leído tal libro de tal página y está perfecto". Me parece una buena idea y merecedora de un subforo como el que tenemos de recomendaciones....

Chemo
30/05/2008, 17:57
Es más o menos lo que se dijo al final sobre el subforo: comentar el libro y el enlace al mismo.

Yo lo que noto en falta en las webs de descarga (aún las estoy descubriendo, como la magnífica http://www.bibliotheka.org/ que acabo de encontrar gracias a este foro) es una especie de comentario del libro. No la sinopsis, sino comentarios de los propios lectores. ¿La diferencia con otras webs similares o blogs literarios? Que exista al final del comentario el enlace para la descarga y lectura. O al menos eso es lo que yo había entendido en este hilo. Si encima podemos tenerlo clasificado por temáticas pues ya es una maravilla. ¿Que tengo ganas de leer algo de ciencia ficción pero no tengo una idea concreto? Pues consulto el foro... Y de paso si me leo algo cuando lo termine pongo mi opinión.

Lo cual no está reñido con que se le enseñe a la gente a 'maquetar' sus propios libros.

Infovore
01/06/2008, 13:57
He estado informándome un poco y creo que (con mis limitados conocimientos informáticos) habría varias posibilidades.

El problema es, como ya han comentado leandroide y ahorso más arriba, analizar fríamente si el trabajo merece la pena. No me refiero tanto al esfuerzo inicial de crear el sistema, sino más bien al trabajo diario de mantenimiento.

Creo que la idea del subforo, empezando más modestamente y ver cómo evoluciona es una buena idea. Quizás además podrían proporcionarse una plantilla o indicaciones básicas que puedan utilizarse para dar una estructura estandarizada a los posts y así el subforo resulte más claro, ordenado y estructurado.

Saludos

Chemo
04/06/2008, 15:05
Estoy de acuerdo con ese subforo, sobre todo después de ver la cantidad de libros que hay en la web de http://www.bibliotheka.org/ muchos de esos incluso comentados.

Sin embargo la misma virtud de la web anterior es su problema. Tiene tantos libros ¡que no sabes a cual acudir! Opino que un foro literario con enlaces estaría bien.

Yo acabo de recibir mi Papyre y por el momento estoy estudiando cual es el mejor formato (¿FB2?). Voy a poner unas dudas en la sección de conversión.

kiermel
18/07/2008, 10:56
El mejor formato para mi Papyre es el fb2, aunque también va bien el RTF. Lo que me ocurre con el RTF es que salen a veces unos archivos demasiado pesados. Si alguien conoce la forma de hacer los RTF más ligeros, le agradezco la información.

Lo malo es que no consigo que el Book Designer me incluya la imágenes cuando importo de un PDF. En las opciones tengo desmarcado lo de que no importe imágenes, así que no va por ahí la cosa.

Albertog
18/07/2008, 12:49
Yo, puestos a trabajar, eligiría un formato abierto, no propietario. Ciertamente, parte del PDF es ahora un estándar ISO pero... no se, no se.

Yo soy más partidario de usar un formato XML, bien el FB2, bien el EPUB, que alguien ha mencionado que también es XML. Yo utilizo el bookDesigner que es sencillito y fácil de usar. Pero no le pidan maravillas, hay multiples opciones que no funcionan o bien no funcionan como yo esperaba.

Para las imágenes, por ejemplo, da igual que marques o que desmarques, hace lo que le da la regalada gana. Yo lo que hago es, teniendo abierto el documento original, cortar y pegar sobre el bookdesigner.

A veces, si en el PDF original los número de página están en negrita o cursiva, o bien van precedidos de sabe nadie que código, los incorpora al BookDesigner como Capítulos y no hay manera de evitarlo.

En cualquier caso, de los que probé, es el más rápido.

un saludo
Alberto G.

superviviente20
07/09/2008, 14:26
No se si se me ha escapado pero me parece que el tema se desvió un poco y nadie ha contestado a ahorso.

El que ciertos libros estén digitalizados y otros no, depende de si alguien lo a comprado, digitalizado y colgado en algún sitio.

Para digitalizar documentos hay escaner especificos, pero lo normal no es que gente tenga uno, los escaner que la gente suele tener son los normalitos y los de las impresoras multifunción. Para digitalizar documentos con este tipo de escaner existen programas de ocr entre los que destacan fine reader y omnipage. Yo he tenido la oportunidad de trabajar con ambos y son bastante parecidos, para mi gusto es mas cómodo fine reader, pero tiene problemas con los los dispositivos multifunción (impresora, escaner, fotocopia), mientras que omnipage es mas polivalente en este sentido, pero no es tan potente como ocr.

El proceso es similar en los dos programas, colocas el documento como si se tratara de una fotocopiadora, configuras el escaneado pausa, orientacion, etc (que tiene mas posibilidades y es bastante mas rápido en fine reader) y escaneas todo el documento. El programa hará escaneados sucesivos haciendo un tiempo de pausa de segundos entre uno y otro (el que le has programado) que te permite cambiar la pagina y volver a colocar el documento en el escaner. El tiempo varia según el escaner y la habilidad del usuario, pero un libro de unas 400 paginas se puede escanear en una hora, tras unas pruebas de ensayo y sin demasiada habilidad. Después el programa empieza el reconocimiento de texto de las imágenes escaneadas y lo pasa a un documento txt, doc, pdf o lo que le digamos, luego lo repasas para quitar errores y ya esta, lo tienes en versión digital.

En cuanto al proceso de ocr (reconocimiento del texto de las imagenes) fine reader tarda bastante más pero con menos errores, depende del equipo y de las opciones seleccionadas, a mi me ha llegado ha tardar 36 horas y omnipage pasando a txt con salto de pagina un par de horas, eso si con bastantes errores que luego exigen un trabajo mayor de edición.

Espero haberte orientado.

Un saludo

ahorso
08/09/2008, 12:17
No se si se me ha escapado pero me parece que el tema se desvió un poco y nadie ha contestado a ahorso.

El que ciertos libros estén digitalizados y otros no, depende de si alguien lo a comprado, digitalizado y colgado en algún sitio.

Para digitalizar documentos hay escaner especificos, pero lo normal no es que gente tenga uno, los escaner que la gente suele tener son los normalitos y los de las impresoras multifunción. Para digitalizar documentos con este tipo de escaner existen programas de ocr entre los que destacan fine reader y omnipage. Yo he tenido la oportunidad de trabajar con ambos y son bastante parecidos, para mi gusto es mas cómodo fine reader, pero tiene problemas con los los dispositivos multifunción (impresora, escaner, fotocopia), mientras que omnipage es mas polivalente en este sentido, pero no es tan potente como ocr.

El proceso es similar en los dos programas, colocas el documento como si se tratara de una fotocopiadora, configuras el escaneado pausa, orientacion, etc (que tiene mas posibilidades y es bastante mas rápido en fine reader) y escaneas todo el documento. El programa hará escaneados sucesivos haciendo un tiempo de pausa de segundos entre uno y otro (el que le has programado) que te permite cambiar la pagina y volver a colocar el documento en el escaner. El tiempo varia según el escaner y la habilidad del usuario, pero un libro de unas 400 paginas se puede escanear en una hora, tras unas pruebas de ensayo y sin demasiada habilidad. Después el programa empieza el reconocimiento de texto de las imágenes escaneadas y lo pasa a un documento txt, doc, pdf o lo que le digamos, luego lo repasas para quitar errores y ya esta, lo tienes en versión digital.

En cuanto al proceso de ocr (reconocimiento del texto de las imagenes) fine reader tarda bastante más pero con menos errores, depende del equipo y de las opciones seleccionadas, a mi me ha llegado ha tardar 36 horas y omnipage pasando a txt con salto de pagina un par de horas, eso si con bastantes errores que luego exigen un trabajo mayor de edición.

Espero haberte orientado.

Un saludo



Gracias.

400 paginas: 1hora veo que le tienes cogido el vicio, o un escaner cojonudo....

superviviente20
10/09/2008, 13:12
Efectivamente son menos paginas, disculpad por el error. Cuando escaneo lo hago con el libro abierto, es decir 2 paginas a la vez, asi que que con las prisas del post y pensando en mi ultimo escaneo de un libro de algo mas de 200 paginas calcule mal y multiplique por 2 y lo tenia que haber dividido, Siento el error, el caso es que lo que queria decir es que se puede escanear 1.66 paginas por minuto, con una pausa suficiente entre escaneo para colocar el libro y asegurarse de que esta bien.

Un saludo

Mordekai
17/09/2008, 15:37
Ahorso:

Conéctate al IRC, a cualquier servidor de UNDERNET, y entra en un canal llamado #libros. Allí se comparten libros en castellano, y sé que hay un grupo de escaneadores. Por supuesto, todo el asunto es pirata y de lo más ilegal.
Además, creo que en el ftp de los ciegos (el antiguo ftp de michel) aceptan libros, sólo piden que el que los suba sea el que los haya escaneado.

ivanovic
26/09/2008, 21:31
Curiosamente, algunos de los usuarios que ofrecen libros en el canal #libros de Undernet también están en el canal #libreria del IRC-Hispano.

Pendergast
27/09/2008, 06:42
El canal de undernet funciona bastante mal.
Cuando yo empecé en internet, empecé coleccionando libros y colaboré activamente con las listas que por aquel entonces había que luego se desdoblaron, y con el ftp de michel.

Si alguien es de la época igual conoce un archivo que se llamaba "comedia en zip", que es un nombre provisional pero así se quedó, y contiene todos los autores del Siglo de Oro español, que principalmente hacían comedias y por eso el nombre del archivo. Me curré todos y cada uno de los archivos copiando-pegando de la bibioteca Cervantes, que no sé si existe todavía.

Vale, después de la historia del abuelo cebolleta :D :D agradecer la información del irc-hispano, que me funciona mejor que undernet, y lo tengo que probar, a ver si encuentro que llevo buscando meses dos libros, y me estoy volviendo loco. El de Boris Izaguirre para mi mujer, que fue finalista del premio planeta, y el segundo de Michael Chabon, el del "Sindicato de policía Yiddish"

saludos