S.O.S.
Me han "propuesto" crear un diccionario "desde 0":
"Tiene que funcionar con goldendict en Android. Así que, ya puestos, vamos a hacer que funcione también con los lectores electrónicos más vendidos: kindle, kobo y aquellos que usan stardict."
Obviamente, tenía que estar hecho "para antesdeayer". Y, por supuesto, no sé ni por donde empezar.
Creo que comenzaré creando un archivo csv o xml para poder hacer las conversiones más fácilmente. Pero hasta ahí llego... de momento.
Cualquier ayuda / sugerencia / información... será bienvenida.
Gracias por adelantado.
Edito para ofrecer la solución aplicada.
- Convertir en digital mendiante escaneo (obtengo JPG o PDF).
- Pasar el OCR para tener un texto editable con el que poder trabajar (HTML).
- Transformar el fichero obtenido en el paso anterior en un formato con el que trabaje GoldenDict (DSL).
- variante jotam: generar un fichero GLS (en el que se puede trabajar con HTML la presentación de la definición) para generar un BGL.
- Utilizar PyGlossary para convertir en StarDict (IFO)
- Usar Penelope para convertir en Kobo y/o Kindle (DICTHTML/MOBI)
Fácil, pero no tanto.
- Cuestión de tiempo, paciencia y escáner. Obvio es decir que cuanto mejor sea el escáner (resolución) y más rápido sea menos tedio acumularemos. De la calidad del escaneo depende en gran medida que el siguiente paso sea más llevadero. Creo que con una resolución de 300dpi es suficiente para el texto y para las imágenes pero... a mayor resolución más tiempo. Paciencia.
- El punto débil de todo el proceso es, sin duda, el OCR (como dijo elchamaco), te obliga a una revisión/edición profunda del texto... si, aunque tengas el mejor programa de OCR posible. ¿Que puedo decir? Paciencia.
- Aunque yo elegí HTML (por comodidad), en realidad podría haber elegido cualquier otro (TXT, DOC,...) con el que me sintiera agusto o con el que me resultara fácil trabajar, ya que de lo que se trata es de transformar el fichero obrenido en DSL. ¡Prueba superada! este formato lo lee GoldenDict, por lo que, ya puedes ver los resultados de tu esfuerzo y dedicación. Mi consejo es usar un editor que te permita escribir el BOM Unicode y utilizar codificación UTF-8 o superior. Yo estoy acostrumbrado a Geany (Linux) pero si aún usas Ventanas notepad++ sería una elección.
- Es tan fácil como esto. Recuerda que tu fichero es DSL, elige ABBY Lingvo DSL (dsl). Te detectará casi cualquier fallo/omisión que hayas cometido. Bueno, dos de cuatro ¡no está mal!
- Aquí la cosa se complica, hay que volver a escribir. Algo así como
si queremos un diccionario para Kindle oCódigo:penelope -i hiztegia.zip -j stardict -f eu -t es -p mobi -o eus
si lo queremos para Kobo.Código:penelope -i hiztegia.zip -j stardict -f eu -t es -p kobo -o eus
El ZIP contiene los cuatro archivos del formato Stardict (ifo, idx, dz y syn).
Y así hemos conseguido las cuatro versiones del mismo diccionario que tan amablemente nos solicitaron.
Gracias a elchamaco y Jotam por su ayuda a surquizu por su interés y su web y a cavy por su puntualización.