Página 1 de 5 12345 ÚltimoÚltimo
Resultados 1 al 10 de 43
  1. #1
    Veteran@ en el foro
    Avatar de jcn363

    Fecha de Ingreso
    24/feb/2013
    Ubicación
    Go with the wind (43°19'17.7"N 2°00'19.4"W)
    Mensajes
    132
    Sexo
    Sexo usuari@
    Lector
    PW - KA1
    Últimos leídos
    El libro de arena

    Crear diccionario

    S.O.S.

    Me han "propuesto" crear un diccionario "desde 0":

    "Tiene que funcionar con goldendict en Android. Así que, ya puestos, vamos a hacer que funcione también con los lectores electrónicos más vendidos: kindle, kobo y aquellos que usan stardict."

    Obviamente, tenía que estar hecho "para antesdeayer". Y, por supuesto, no sé ni por donde empezar.

    Creo que comenzaré creando un archivo csv o xml para poder hacer las conversiones más fácilmente. Pero hasta ahí llego... de momento.

    Cualquier ayuda / sugerencia / información... será bienvenida.

    Gracias por adelantado.

    Edito para ofrecer la solución aplicada.



    1. Convertir en digital mendiante escaneo (obtengo JPG o PDF).
    2. Pasar el OCR para tener un texto editable con el que poder trabajar (HTML).
    3. Transformar el fichero obtenido en el paso anterior en un formato con el que trabaje GoldenDict (DSL).
      1. variante jotam: generar un fichero GLS (en el que se puede trabajar con HTML la presentación de la definición) para generar un BGL.
    4. Utilizar PyGlossary para convertir en StarDict (IFO)
    5. Usar Penelope para convertir en Kobo y/o Kindle (DICTHTML/MOBI)


    Fácil, pero no tanto.


    1. Cuestión de tiempo, paciencia y escáner. Obvio es decir que cuanto mejor sea el escáner (resolución) y más rápido sea menos tedio acumularemos. De la calidad del escaneo depende en gran medida que el siguiente paso sea más llevadero. Creo que con una resolución de 300dpi es suficiente para el texto y para las imágenes pero... a mayor resolución más tiempo. Paciencia.
    2. El punto débil de todo el proceso es, sin duda, el OCR (como dijo elchamaco), te obliga a una revisión/edición profunda del texto... si, aunque tengas el mejor programa de OCR posible. ¿Que puedo decir? Paciencia.
    3. Aunque yo elegí HTML (por comodidad), en realidad podría haber elegido cualquier otro (TXT, DOC,...) con el que me sintiera agusto o con el que me resultara fácil trabajar, ya que de lo que se trata es de transformar el fichero obrenido en DSL. ¡Prueba superada! este formato lo lee GoldenDict, por lo que, ya puedes ver los resultados de tu esfuerzo y dedicación. Mi consejo es usar un editor que te permita escribir el BOM Unicode y utilizar codificación UTF-8 o superior. Yo estoy acostrumbrado a Geany (Linux) pero si aún usas Ventanas notepad++ sería una elección.
    4. Es tan fácil como esto. Recuerda que tu fichero es DSL, elige ABBY Lingvo DSL (dsl). Te detectará casi cualquier fallo/omisión que hayas cometido. Bueno, dos de cuatro ¡no está mal!
    5. Aquí la cosa se complica, hay que volver a escribir. Algo así como
      Código:
      penelope -i hiztegia.zip -j stardict -f eu -t es -p mobi -o eus
      si queremos un diccionario para Kindle o
      Código:
      penelope -i hiztegia.zip -j stardict -f eu -t es -p kobo -o eus
      si lo queremos para Kobo.
      El ZIP contiene los cuatro archivos del formato Stardict (ifo, idx, dz y syn).


    Y así hemos conseguido las cuatro versiones del mismo diccionario que tan amablemente nos solicitaron.

    Gracias a elchamaco y Jotam por su ayuda a surquizu por su interés y su web y a cavy por su puntualización.
    Última edición por jcn363; 07/04/2017 a las 10:06
    Es mejor permanecer callado y parecer tonto
    que hablar y despejar las dudas definitivamente.
    Groucho Marx

  2. #2
    Veteran@ en el foro
    Avatar de surquizu

    Fecha de Ingreso
    05/jun/2008
    Ubicación
    Zaragoza
    Mensajes
    3.852
    Sexo
    Sexo usuari@
    Lector
    PRS-505, kobo AuraHD. kobo AuraH2O, kobo GloHD, kobo aura ONE

    Re: Crear diccionario

    ¿Un diccionario de que?

    Enviat des del meu MI 4S usant Tapatalk

  3. El Siguiente Usuario Agradeció a surquizu Por Este Mensaje:


  4. #3
    Veteran@ en el foro
    Avatar de elchamaco

    Fecha de Ingreso
    18/may/2011
    Ubicación
    Villarriba
    Mensajes
    1.467
    Sexo
    Sexo usuari@
    Lector
    onyx internacional boox a60 - kindle
    Últimos leídos
    Rito de cortejo

    Re: Crear diccionario

    Starddict tiene un formato intermedio que es un xml y es la mejor opción para luego crear el diccionario, tiene una herramienta de línea de comandos que lo compila desde ese formato. Busca textual stardict format y te sale el formato. A mi al menos me parece lo más comodo cuando he generado estos diccionarios, permite trabajar con html fácilmente.

    El de kindle también es fácil de generar. Hay información en el pdf con información de maquetación que está en amazon: https://kindlegen.s3.amazonaws.com/A...Guidelines.pdf

    Y para kobo el tema es que no se pueden vender, hay una app penelope que permite convertir hacía kobo. Sino buscando te sale información de cómo hacerlo.

    Luego la cuestión es las inflexiones, y las definiciones... para un buen diccionario es el tema principal.

  5. El Siguiente Usuario Agradeció a elchamaco Por Este Mensaje:


  6. #4
    Veteran@ en el foro
    Avatar de jcn363

    Fecha de Ingreso
    24/feb/2013
    Ubicación
    Go with the wind (43°19'17.7"N 2°00'19.4"W)
    Mensajes
    132
    Sexo
    Sexo usuari@
    Lector
    PW - KA1
    Últimos leídos
    El libro de arena

    Re: Crear diccionario

    Cita Iniciado por surquizu Ver Mensaje
    ¿Un diccionario de que?

    Enviat des del meu MI 4S usant Tapatalk
    Es un diccionario temático (creo que técnico por lo que pude entender).

    Aunque el diccionario (por lo que entendí) será para los clientes, mi intención es documentar todo para que los osados que vengan detrás no pasen por el mismo calvario.
    Siento si ayer parecía desesperado (lo estaba) y no me expliqué como debía.

    Gracias.
    Es mejor permanecer callado y parecer tonto
    que hablar y despejar las dudas definitivamente.
    Groucho Marx

  7. #5
    Veteran@ en el foro
    Avatar de jcn363

    Fecha de Ingreso
    24/feb/2013
    Ubicación
    Go with the wind (43°19'17.7"N 2°00'19.4"W)
    Mensajes
    132
    Sexo
    Sexo usuari@
    Lector
    PW - KA1
    Últimos leídos
    El libro de arena

    Re: Crear diccionario

    Cita Iniciado por elchamaco Ver Mensaje
    Starddict tiene un formato intermedio que es un xml y es la mejor opción para luego crear el diccionario, tiene una herramienta de línea de comandos que lo compila desde ese formato. Busca textual stardict format y te sale el formato. A mi al menos me parece lo más comodo cuando he generado estos diccionarios, permite trabajar con html fácilmente.

    El de kindle también es fácil de generar. Hay información en el pdf con información de maquetación que está en amazon: https://kindlegen.s3.amazonaws.com/A...Guidelines.pdf

    Y para kobo el tema es que no se pueden vender, hay una app penelope que permite convertir hacía kobo. Sino buscando te sale información de cómo hacerlo.

    Luego la cuestión es las inflexiones, y las definiciones... para un buen diccionario es el tema principal.
    Muchas gracias.

    Por lo que entendí es más un servicio añadido (como parte de la documentación que se entregará a los clientes).
    El tema del contenido... espero que me den lo que tenga que meter.
    En cuanto al tema de Kindle y Kobo... es más un valor añadido que una necesidad imperiosa, pero como tengo los dos (y me han tocado la moral)... a acumular conocimientos.

    Mi intención es crear el xml y jugar con él (haciendo todas las conversiones que se supone que tendré que hacer luego) para ir documentando todo el proceso y ver los posibles problemas que puedan surgir a posteriori.

    De momento esto es lo más interesante que he encontrado (creo que es a lo que te referías):

    https://code.google.com/archive/p/ba...ct_format.wiki
    http://www.albertopettarin.it/penelope.html
    https://code.google.com/archive/p/st...rtBabylon.wiki
    http://www.actualidadkd.com/crear-nu...s-para-kindle/

    Junto con unos diccionarios en xml que adjunto por si le sirven a alguien. Son con los que comenzaré a hacer pruebas (para no partir de cero bajo cero).

    Gracias
    Archivos Adjuntados
    Es mejor permanecer callado y parecer tonto
    que hablar y despejar las dudas definitivamente.
    Groucho Marx

  8. El Siguiente Usuario Agradeció a jcn363 Por Este Mensaje:


  9. #6
    Veteran@ en el foro
    Avatar de jcn363

    Fecha de Ingreso
    24/feb/2013
    Ubicación
    Go with the wind (43°19'17.7"N 2°00'19.4"W)
    Mensajes
    132
    Sexo
    Sexo usuari@
    Lector
    PW - KA1
    Últimos leídos
    El libro de arena

    Re: Crear diccionario

    Cita Iniciado por jcn363 Ver Mensaje
    ...Mi intención es crear el xml y jugar con él ...
    Bueno, fracaso total y absoluto con el XML pero... el DSL ha funcionado a la primera en Goldendict (que es de lo que se trataba. Es más limitado (o aún no se lo suficiente) pero lo mejor es que no hay que compilar ni utilizar nada más que un editor de texto puro y duro. Aunque para duro lo del OCR pensé que a estas alturas la cosa habría evolucionado... en fin, si conocéis alguno que funcione (no digo que sea perfecto, me conformo con un 85 ó 90% de acierto:-")...
    He procurado ceñirme al máximo a las condiciones que me han impuesto, y por ello he comenzado con un documento al que le he realizado el oportuno escaneo para obtener el bendito PDF, al que he tratado con un programa de "OCR" que me lo ha devuelto convertido en un chapucero HTML. Gracias al uso intensivo de las expresiones regulares (y a mucha paciencia) lo he limpiado (y he aprovechado para crear un EPUB para consultar). He convertido éste en XDXF (el formato XML para diccionarios) y cuando creía que ya todo iba sobre ruedas y sólo tendría que convertir con Penelope y/o PyGlossary... sólo he conseguido archivos vacíos o con la cabecera. Visto que la opción a) no funcionaba decidí pasar a la b) (en mi caso CSV) más de lo mismo. Pasamos a la opción c)... un momento, no tenía, así que me puse a mirar qué le gustaba a Goldendict, y con qué me podía atrever, y encontré DSL (que ni sabía que existía). Más expresiones regulares y más paciencia para conseguir... el adjunto. Por lo que he leído, de aquí a Kobo y a Kindle no hay nada...

    Suerte

    Edito:
    No soy un experto en diccionarios (apenas un pobre usuario) así que cualquier carencia que veáis o cosas que os gustarían o deberían estar implementadas: pedid y... se intentará.
    Aclaro que para esta prueba no he tenido que escanear yo (es el diccionario HABE euskara-español)
    No me he dedicado a buscar el mejor OCR, he usado lo que tenía a mano.:-"
    Mis problemas con Penelope y/o PyGlossary se deberán más a mi bisoñez que a las posibles carencias que estos tengan.
    Estoy dispuesto a aprender e incluso a pagar un poco de sabiduría con un diccionario... es broma. No hace falta que me enseñéis nada. Mientras esté en este proceso (1-2-3 aprenda diccionario otra vez) trabajaré con los documentos que me faciliten (que no sea PDF por favor). Así que, si tenéis una necesidad, sabéis de alguna carencia o tenéis algún documento (he dicho ya que no quiero PDFs) que sea digno de este humilde aprendiz... a vuestra disposición.
    Gracias por vuestra colaboración
    Archivos Adjuntados
    Última edición por jcn363; 28/03/2017 a las 08:26
    Es mejor permanecer callado y parecer tonto
    que hablar y despejar las dudas definitivamente.
    Groucho Marx

  10. #7
    Veteran@ en el foro
    Avatar de elchamaco

    Fecha de Ingreso
    18/may/2011
    Ubicación
    Villarriba
    Mensajes
    1.467
    Sexo
    Sexo usuari@
    Lector
    onyx internacional boox a60 - kindle
    Últimos leídos
    Rito de cortejo

    Re: Crear diccionario

    El mejor ocr ahora mismo es el abby finereader. Con dsl no he trasteado, como ahora tengo ereader con android y muchas aplicaciones tiran con stardict pues he trasteado con ese. Y también con los de kindle porque antes tenía un kindle y me interesaba este tema. Cuando te pones a mirar sobre el tema esta verde verde, no hay demasiada información.

    Respecto a stardict el formato tiene para mi algunos problemas, la implementación en los ereaders es patética no lo siguiente. No soportan bien el formato, no permiten en algunos casos las inflexiones, ficheros de imagenes etc. De los mejores que lo soportan es goldendict. Y luego el formato en si mismo tiene cosas que no me gustan, como no poder meter un enlace a una parte de una definición, si puedes enlazar de una definición a otra pero en la cabecera. Por cierto para ver como se hace tuve que decompilar un dicfcionario que lo hacía porque no está explicado por ningún lado (bueno una vez encontre un sitio que lo explicaba pero lo debieron quitar de la red) jajaja.

    A los dsl de abby lingvo le eche un vistazo pero no me terminó de convencer porque no vi la forma de meter inflexiones (supongo que la tiene pero no lo vi http://lingvo.helpmax.net/en/trouble.../dsl-compiler/). Es decir creas una ficha para Amar, pero quieres que el diccionario encuentre amas, amado,… etc y use la misma ficha.

    Por cierto en mobileread hay algunos hilos en los que se trata el tema de diccionarios aunque muy enfocados a kindle/kobo. Y luego hay foros rusos que tratan sobre stardict, pero no me he encontrado con nada demasiado decente con mucha info. En su día hice un script que generaba directamente stardict pero con un problema que la ordenación de las palabras debe seguir un esquema y al final me tocaba decompilar a textual recompilar... en resumen es más rápido usar el textual de origen y compilarlo con la utilidad de línea de comandos, la de ventana no permite usarlo.

    Y para la edición de diccionarios tampoco he encontrado nada que me haya terminado de convencer, tenía la idea de mejorar los de ingles y en ello ando pero como tampoco ando muy sobrado de tiempo la cosa va despacio. Al final los tengo en excel, y luego convirto desde el excel a lo que me interesa. En su día pense en Access y luego hacer un editor y tal, o usar xml y un editor ... sigue en proyecto. Al final si dedico mucho tiempo a esto no leo.

  11. El Siguiente Usuario Agradeció a elchamaco Por Este Mensaje:


  12. #8
    Veteran@ en el foro
    Avatar de jotam

    Fecha de Ingreso
    02/dic/2010
    Mensajes
    2.900
    Sexo
    Sexo usuari@
    Lector
    Sony PRS-T1

    Re: Crear diccionario

    Nunca he hecho ningún diccionario. Entiendo un poco cómo funcionan y tal y he usado varios conversores, así que no puedo comentar con profundidad. En cualquier caso, quería recordar un software propietario que servía para crear los glosarios de babylon, Babylon Glossary Builder:
    http://www.babylon-software.com/prod...y-builder.html
    https://support.babylon.com/index.ph...ild-a-glossary
    Podéis también encontrar videos en youtube de cómo funciona.

    Básicamente se trataría de crear un diccionario/glosario/listado de palabras con su correspondiente significado en un archivo de excel (o en un archivo estructurado tipo csv), como mejor se maneje el asunto, y mediante éste software BabylonGlossaryBuilder convertirlo al formato bgl.
    A partir del bgl, usando pyglossary, se puede convertir al formato que más nos guste. Y con penelope, convertirlo a kobo.

    Si ya tienes un pequeño glosario, puedes probar a ver si funciona el proceso.

    Y no me extiendo más porque aunque creo que se puede hacer así, no es más que un, teóricamente es como yo intentaría hacerlo.

  13. El Siguiente Usuario Agradeció a jotam Por Este Mensaje:


  14. #9
    Veteran@ en el foro
    Avatar de jcn363

    Fecha de Ingreso
    24/feb/2013
    Ubicación
    Go with the wind (43°19'17.7"N 2°00'19.4"W)
    Mensajes
    132
    Sexo
    Sexo usuari@
    Lector
    PW - KA1
    Últimos leídos
    El libro de arena

    Re: Crear diccionario

    Cita Iniciado por elchamaco Ver Mensaje
    El mejor ocr ahora mismo es el abby finereader. Con dsl no he trasteado, como ahora tengo ereader con android y muchas aplicaciones tiran con stardict pues he trasteado con ese. Y también con los de kindle porque antes tenía un kindle y me interesaba este tema. Cuando te pones a mirar sobre el tema esta verde verde, no hay demasiada información.

    Respecto a stardict el formato tiene para mi algunos problemas, la implementación en los ereaders es patética no lo siguiente. No soportan bien el formato, no permiten en algunos casos las inflexiones, ficheros de imagenes etc. De los mejores que lo soportan es goldendict. Y luego el formato en si mismo tiene cosas que no me gustan, como no poder meter un enlace a una parte de una definición, si puedes enlazar de una definición a otra pero en la cabecera. Por cierto para ver como se hace tuve que decompilar un dicfcionario que lo hacía porque no está explicado por ningún lado (bueno una vez encontre un sitio que lo explicaba pero lo debieron quitar de la red) jajaja.

    A los dsl de abby lingvo le eche un vistazo pero no me terminó de convencer porque no vi la forma de meter inflexiones (supongo que la tiene pero no lo vi http://lingvo.helpmax.net/en/trouble.../dsl-compiler/). Es decir creas una ficha para Amar, pero quieres que el diccionario encuentre amas, amado,… etc y use la misma ficha.

    Por cierto en mobileread hay algunos hilos en los que se trata el tema de diccionarios aunque muy enfocados a kindle/kobo. Y luego hay foros rusos que tratan sobre stardict, pero no me he encontrado con nada demasiado decente con mucha info. En su día hice un script que generaba directamente stardict pero con un problema que la ordenación de las palabras debe seguir un esquema y al final me tocaba decompilar a textual recompilar... en resumen es más rápido usar el textual de origen y compilarlo con la utilidad de línea de comandos, la de ventana no permite usarlo.

    Y para la edición de diccionarios tampoco he encontrado nada que me haya terminado de convencer, tenía la idea de mejorar los de ingles y en ello ando pero como tampoco ando muy sobrado de tiempo la cosa va despacio. Al final los tengo en excel, y luego convirto desde el excel a lo que me interesa. En su día pense en Access y luego hacer un editor y tal, o usar xml y un editor ... sigue en proyecto. Al final si dedico mucho tiempo a esto no leo.

    Gracias por... todo.

    Del OCR... sin comentarios... o sí: es el que yo he usado (v.12).

    El DSL me lo cogió Goldendict tal cual sin compilar ni nada.
    Dentro del propio archivo DSL he incluido un comentario con las instrucciones básicas que he encontrado con sus equivalencias a XDXF.
    Con los enlaces no hay problema. Al final de algunas traducciones e incluido enlaces a sinónimos y funcionan (Creo que es a lo que te referías).
    Contenido oculto:
    Yo lo he hecho con <<palabra>> pero creo que con [ref]concepto[/ref] también funciona.

    El tema de las inflexiones y gráficos no lo he visto (ni creo que se pueda) pero a lo mejor me sorprende.
    Aunque mi objetivo principal está cubierto (de momento porque no depende de mí) ahora voy a por el secundario (pero más importante por ser más interesante para mí): stardict-kobo-kindle. ¿Alguna sugerencia, indicación o preferencia por el orden?
    Por cierto, ¿qué es lo que le pedirías al diccionario perfecto?

    ¿Hay editores de diccionarios y yo con estos pelos? ¡Qué calladito te lo tenías! ¡Cuenta! ¡cuenta! Yo lo he hecho con Geany, el editor de texto que utilizo para programar (si necesitas ayuda para que vaya la mitad de despacio, quieres compartir la información el proyecto,... o un cable que no sea al cuello...).

    A mí se me ha ocurrido la idea del SQLite... porque he visto en el kobo dos archivos pero me imagino que cada lector será un mundo aparte y usará lo que le venga en gana y habría que andar convirtiendo... Prefiero algo lo más universal posible.

    Es mi primera vez pero estoy contento con el resultado.

    Gracias de nuevo.

    P.D.: yo siempre leo.
    Es mejor permanecer callado y parecer tonto
    que hablar y despejar las dudas definitivamente.
    Groucho Marx

  15. #10
    Veteran@ en el foro
    Avatar de jcn363

    Fecha de Ingreso
    24/feb/2013
    Ubicación
    Go with the wind (43°19'17.7"N 2°00'19.4"W)
    Mensajes
    132
    Sexo
    Sexo usuari@
    Lector
    PW - KA1
    Últimos leídos
    El libro de arena

    Re: Crear diccionario

    Cita Iniciado por jotam Ver Mensaje
    Nunca he hecho ningún diccionario...
    Gracias,
    Yo sólo uno.
    A mí me gustaría saber cómo funcionan... los diccionarios.
    Lo miraré. Haber que aprendo.
    No me atrae el tema de la propiedad, pero si puedo aprender... ¡bienvenido sea!
    Probaré con BGL y lo intentaré, de nuevo, con PyGlossary y Penelope.
    Es mejor permanecer callado y parecer tonto
    que hablar y despejar las dudas definitivamente.
    Groucho Marx

  16. El Siguiente Usuario Agradeció a jcn363 Por Este Mensaje:


Temas Similares

  1. Respuestas: 2
    Último Mensaje: 21/02/2014, 18:04
  2. Respuestas: 5
    Último Mensaje: 12/06/2013, 15:56
  3. Respuestas: 3
    Último Mensaje: 07/07/2011, 09:43
  4. Crear colecciones
    Por feniano en el foro Amazon Kindle
    Respuestas: 4
    Último Mensaje: 14/06/2010, 11:07
  5. Crear ebooks
    Por murray en el foro Formatos de e-books
    Respuestas: 11
    Último Mensaje: 09/06/2010, 09:48

Permisos de Publicación

  • No puedes crear nuevos temas
  • No puedes responder temas
  • No puedes subir archivos adjuntos
  • No puedes editar tus mensajes
  •