Crear diccionario

**jcn363** · 20/03/2017, 18:23

S.O.S.

Me han "propuesto" crear un diccionario "desde 0":

"Tiene que funcionar con goldendict en Android. Así que, ya puestos, vamos a hacer que funcione también con los lectores electrónicos más vendidos: kindle, kobo y aquellos que usan stardict."

Obviamente, tenía que estar hecho "para antesdeayer". Y, por supuesto, no sé ni por donde empezar.

Creo que comenzaré creando un archivo csv o xml para poder hacer las conversiones más fácilmente. Pero hasta ahí llego... de momento.

Cualquier ayuda / sugerencia / información... será bienvenida.

Gracias por adelantado.

Edito para ofrecer la solución aplicada.

Convertir en digital mendiante escaneo (obtengo JPG o PDF).
Pasar el OCR para tener un texto editable con el que poder trabajar (HTML).
Transformar el fichero obtenido en el paso anterior en un formato con el que trabaje GoldenDict (DSL).
1. variante jotam: generar un fichero GLS (en el que se puede trabajar con HTML la presentación de la definición) para generar un BGL.
Utilizar PyGlossary para convertir en StarDict (IFO)
Usar Penelope para convertir en Kobo y/o Kindle (DICTHTML/MOBI)

Fácil, pero no tanto.

Cuestión de tiempo, paciencia y escáner. Obvio es decir que cuanto mejor sea el escáner (resolución) y más rápido sea menos tedio acumularemos. De la calidad del escaneo depende en gran medida que el siguiente paso sea más llevadero. Creo que con una resolución de 300dpi es suficiente para el texto y para las imágenes pero... a mayor resolución más tiempo. Paciencia.
El punto débil de todo el proceso es, sin duda, el OCR (como dijo elchamaco), te obliga a una revisión/edición profunda del texto... si, aunque tengas el mejor programa de OCR posible. ¿Que puedo decir? Paciencia.
Aunque yo elegí HTML (por comodidad), en realidad podría haber elegido cualquier otro (TXT, DOC,...) con el que me sintiera agusto o con el que me resultara fácil trabajar, ya que de lo que se trata es de transformar el fichero obrenido en DSL. ¡Prueba superada! este formato lo lee GoldenDict, por lo que, ya puedes ver los resultados de tu esfuerzo y dedicación. Mi consejo es usar un editor que te permita escribir el BOM Unicode y utilizar codificación UTF-8 o superior. Yo estoy acostrumbrado a Geany (Linux) pero si aún usas Ventanas notepad++ sería una elección.
Es tan fácil como esto. Recuerda que tu fichero es DSL, elige ABBY Lingvo DSL (dsl). Te detectará casi cualquier fallo/omisión que hayas cometido. Bueno, dos de cuatro ¡no está mal!
Aquí la cosa se complica, hay que volver a escribir. Algo así como
Código:
```
penelope -i hiztegia.zip -j stardict -f eu -t es -p mobi -o eus
```
si queremos un diccionario para Kindle o
Código:
```
penelope -i hiztegia.zip -j stardict -f eu -t es -p kobo -o eus
```
si lo queremos para Kobo.
El ZIP contiene los cuatro archivos del formato Stardict (ifo, idx, dz y syn).

Y así hemos conseguido las cuatro versiones del mismo diccionario que tan amablemente nos solicitaron.

Gracias a elchamaco y Jotam por su ayuda a surquizu por su interés y su web y a cavy por su puntualización.

**surquizu** · 21/03/2017, 08:02

¿Un diccionario de que?

Enviat des del meu MI 4S usant Tapatalk

**elchamaco** · 21/03/2017, 14:09

Starddict tiene un formato intermedio que es un xml y es la mejor opción para luego crear el diccionario, tiene una herramienta de línea de comandos que lo compila desde ese formato. Busca textual stardict format y te sale el formato. A mi al menos me parece lo más comodo cuando he generado estos diccionarios, permite trabajar con html fácilmente.

El de kindle también es fácil de generar. Hay información en el pdf con información de maquetación que está en amazon: https://kindlegen.s3.amazonaws.com/A...Guidelines.pdf

Y para kobo el tema es que no se pueden vender, hay una app penelope que permite convertir hacía kobo. Sino buscando te sale información de cómo hacerlo.

Luego la cuestión es las inflexiones, y las definiciones... para un buen diccionario es el tema principal.

**jcn363** · 21/03/2017, 17:01

Iniciado por elchamaco

Starddict tiene un formato intermedio que es un xml y es la mejor opción para luego crear el diccionario, tiene una herramienta de línea de comandos que lo compila desde ese formato. Busca textual stardict format y te sale el formato. A mi al menos me parece lo más comodo cuando he generado estos diccionarios, permite trabajar con html fácilmente.

El de kindle también es fácil de generar. Hay información en el pdf con información de maquetación que está en amazon: https://kindlegen.s3.amazonaws.com/A...Guidelines.pdf

Y para kobo el tema es que no se pueden vender, hay una app penelope que permite convertir hacía kobo. Sino buscando te sale información de cómo hacerlo.

Luego la cuestión es las inflexiones, y las definiciones... para un buen diccionario es el tema principal.

Muchas gracias.

Por lo que entendí es más un servicio añadido (como parte de la documentación que se entregará a los clientes).
El tema del contenido... espero que me den lo que tenga que meter.

En cuanto al tema de Kindle y Kobo... es más un valor añadido que una necesidad imperiosa, pero como tengo los dos (y me han tocado la moral)... a acumular conocimientos.

Mi intención es crear el xml y jugar con él (haciendo todas las conversiones que se supone que tendré que hacer luego) para ir documentando todo el proceso y ver los posibles problemas que puedan surgir a posteriori.

De momento esto es lo más interesante que he encontrado (creo que es a lo que te referías):

https://code.google.com/archive/p/ba...ct_format.wiki
http://www.albertopettarin.it/penelope.html
https://code.google.com/archive/p/st...rtBabylon.wiki
http://www.actualidadkd.com/crear-nu...s-para-kindle/

Junto con unos diccionarios en xml que adjunto por si le sirven a alguien. Son con los que comenzaré a hacer pruebas (para no partir de cero bajo cero).

Gracias

**jcn363** · 27/03/2017, 23:17

Iniciado por jcn363

...Mi intención es crear el xml y jugar con él ...

Bueno, fracaso total y absoluto con el XML pero... el DSL ha funcionado a la primera en Goldendict (que es de lo que se trataba

. Es más limitado (o aún no se lo suficiente

) pero lo mejor es que no hay que compilar ni utilizar nada más que un editor de texto puro y duro. Aunque para duro lo del OCR

pensé que a estas alturas la cosa habría evolucionado... en fin, si conocéis alguno que funcione (no digo que sea perfecto, me conformo con un 85 ó 90% de acierto:-")...
He procurado ceñirme al máximo a las condiciones que me han impuesto, y por ello he comenzado con un documento al que le he realizado el oportuno escaneo para obtener el bendito PDF, al que he tratado con un programa de "OCR" que me lo ha devuelto convertido en un chapucero HTML. Gracias al uso intensivo de las expresiones regulares (y a mucha paciencia) lo he limpiado (y he aprovechado para crear un EPUB para consultar). He convertido éste en XDXF (el formato XML para diccionarios) y cuando creía que ya todo iba sobre ruedas y sólo tendría que convertir con Penelope y/o PyGlossary... sólo he conseguido archivos vacíos o con la cabecera. Visto que la opción a) no funcionaba decidí pasar a la b) (en mi caso CSV) más de lo mismo. Pasamos a la opción c)... un momento, no tenía, así que me puse a mirar qué le gustaba a Goldendict, y con qué me podía atrever, y encontré DSL (que ni sabía que existía

). Más expresiones regulares y más paciencia para conseguir... el adjunto. Por lo que he leído, de aquí a Kobo y a Kindle no hay nada...

Suerte

Edito:
No soy un experto en diccionarios (apenas un pobre usuario) así que cualquier carencia que veáis o cosas que os gustarían o deberían estar implementadas: pedid y... se intentará.
Aclaro que para esta prueba no he tenido que escanear yo

(es el diccionario HABE euskara-español)
No me he dedicado a buscar el mejor OCR, he usado lo que tenía a mano.:-"
Mis problemas con Penelope y/o PyGlossary se deberán más a mi bisoñez que a las posibles carencias que estos tengan.

Estoy dispuesto a aprender

e incluso a pagar un poco de sabiduría con un diccionario... es broma. No hace falta que me enseñéis nada. Mientras esté en este proceso (1-2-3 aprenda diccionario otra vez) trabajaré con los documentos que me faciliten (que no sea PDF por favor

). Así que, si tenéis una necesidad, sabéis de alguna carencia o tenéis algún documento (he dicho ya que no quiero PDFs) que sea digno de este humilde aprendiz... a vuestra disposición.
Gracias por vuestra colaboración

**elchamaco** · 28/03/2017, 09:36

El mejor ocr ahora mismo es el abby finereader. Con dsl no he trasteado, como ahora tengo ereader con android y muchas aplicaciones tiran con stardict pues he trasteado con ese. Y también con los de kindle porque antes tenía un kindle y me interesaba este tema. Cuando te pones a mirar sobre el tema esta verde verde, no hay demasiada información.

Respecto a stardict el formato tiene para mi algunos problemas, la implementación en los ereaders es patética no lo siguiente. No soportan bien el formato, no permiten en algunos casos las inflexiones, ficheros de imagenes etc. De los mejores que lo soportan es goldendict. Y luego el formato en si mismo tiene cosas que no me gustan, como no poder meter un enlace a una parte de una definición, si puedes enlazar de una definición a otra pero en la cabecera. Por cierto para ver como se hace tuve que decompilar un dicfcionario que lo hacía porque no está explicado por ningún lado (bueno una vez encontre un sitio que lo explicaba pero lo debieron quitar de la red) jajaja.

A los dsl de abby lingvo le eche un vistazo pero no me terminó de convencer porque no vi la forma de meter inflexiones (supongo que la tiene pero no lo vi http://lingvo.helpmax.net/en/trouble.../dsl-compiler/). Es decir creas una ficha para Amar, pero quieres que el diccionario encuentre amas, amado,… etc y use la misma ficha.

Por cierto en mobileread hay algunos hilos en los que se trata el tema de diccionarios aunque muy enfocados a kindle/kobo. Y luego hay foros rusos que tratan sobre stardict, pero no me he encontrado con nada demasiado decente con mucha info. En su día hice un script que generaba directamente stardict pero con un problema que la ordenación de las palabras debe seguir un esquema y al final me tocaba decompilar a textual recompilar... en resumen es más rápido usar el textual de origen y compilarlo con la utilidad de línea de comandos, la de ventana no permite usarlo.

Y para la edición de diccionarios tampoco he encontrado nada que me haya terminado de convencer, tenía la idea de mejorar los de ingles y en ello ando pero como tampoco ando muy sobrado de tiempo la cosa va despacio. Al final los tengo en excel, y luego convirto desde el excel a lo que me interesa. En su día pense en Access y luego hacer un editor y tal, o usar xml y un editor ... sigue en proyecto. Al final si dedico mucho tiempo a esto no leo.

**jcn363** · 21/03/2017, 16:30

Iniciado por surquizu

¿Un diccionario de que?

Enviat des del meu MI 4S usant Tapatalk

Es un diccionario temático (creo que técnico por lo que pude entender).

Aunque el diccionario (por lo que entendí) será para los clientes, mi intención es documentar todo para que los osados que vengan detrás no pasen por el mismo calvario.

Siento si ayer parecía desesperado (lo estaba

) y no me expliqué como debía.

Gracias.

Tema: Crear diccionario

Herramientas

Visualizar

Vista híbrida

Crear diccionario

El Siguiente Usuario Agradeció a jcn363 Por Este Mensaje:

Re: Crear diccionario

El Siguiente Usuario Agradeció a surquizu Por Este Mensaje:

Re: Crear diccionario

Los Siguientes 2 Usuarios Agradecieron a elchamaco por Este Mensaje:

Re: Crear diccionario

El Siguiente Usuario Agradeció a jcn363 Por Este Mensaje:

Re: Crear diccionario

Re: Crear diccionario

El Siguiente Usuario Agradeció a elchamaco Por Este Mensaje:

Re: Crear diccionario

Temas similares

¿Cómo puedo crear un diccionario para el Kobo AURA HD?

¿Se puede crear un diccionario para Kindle a partir de un fichero .db?

Busco Diccionario Larouse y Diccionario Vox para Papyre V3, V3+......

Crear colecciones

Crear ebooks

Permisos de publicación