En calidad de Afiliado de Amazon, obtengo ingresos por las compras adscritas que cumplen los requisitos aplicables
Página 10 de 11 PrimerPrimer ... 67891011 ÚltimoÚltimo
Resultados 91 al 100 de 108

Tema: diccionarios traductores para Nolim

  1. #91
    Veteran@ en el foro Avatar de negatus
    Fecha de ingreso
    16 ago, 10
    Mensajes
    1,036

    Predeterminado Re: diccionarios traductores para Nolim

    Cita Iniciado por JIPG Ver mensaje
    Me temo que con ese diccionario va a estar difícil arreglar las palabras problemáticas.

    He estado buscando otros diccionarios y he encontrado este en que parece más fácil de determinar dónde están separadas esas frases hechas. Sin embargo, no aparecen los superíndices ni la itálica ... La palabra principal sí que está al menos determinada por una itálica (solo la usa para eso) aunque esté siempre al final de la línea anterior :

    2. adj. Perteneciente o relativo a esta ciudad de la provincia de
    Burgos, en España.<k>mirar</k>
    mirar.
    (Del lat. mirāri, admirarse).

    1. tr. Dirigir la vista a un objeto. U. t. c. prnl.




    13. prnl. Considerar un asunto y meditar antes de tomar una
    resolución.
    bien mirado.
    1. loc. adv. Si se piensa o considera con exactitud o
    detenimiento. Bien mirado, no tienes razón.
    de mírame y no me toques.
    1. loc. adj. coloq. Dicho de una persona: Sumamente delicada de
    genio o de salud.
    2. loc. adj. coloq. Dicho de una cosa: Muy quebradiza y de poca
    resistencia.


    No se si es la misma versión, pero tiene menos palabras que otros diccionarios que he visto.

    Voy a hacer un paquete de diccionarios que he encontrado por ahí en formato stardict (por lo del número de palabras distinto):

    http://www.filedropper.com/diccionariosraestardict

    , y a mirar cómo se lee la información del fichero .idx que es el que tiene la información de la palabra, de dónde empieza y en dónde acaba. Así sería más fácil extraer la información del fichero .dict, que es de texto puro.
    La verdad, cuando me puse al tajo lo que buscaba era la 23ª edición del diccionario de la RAE en formato electrónico. Como no la pude encontrar me conformé con la que sí encontré, que era la 22ª edición con... bueno, el formato que tiene. Una vez metidos en faena constaté que ese fichero tenía errores, no de formato, sino de contenido, algunos de los cuales detecté y corregí (ciertamente sospecho que ha de haber más, pero me reconozco incapaz de revisar las ochenta y pico mil entradas).

    Otros fallos los generé yo mismo al alterar el formato para darle el aspecto que tiene, al usar expresiones regulares que, si bien procuré que fueran lo más estrictas posible, se metieron en casos que no correspondían. De nuevo corregí los que encontré y de nuevo sospecho que han de quedar otros, por el mismo motivo que he referido.

    Por último, hubo casos como el que nos ocupa que, debido a la práctica imposibilidad de tratarlos mediante expresiones regulares, se escaparon.

    La cuestión estriba en que no dispongo de ningún diccionario más o tan completo como el que he utilizado (excepción hecha de la 23ª edición del diccionario de la RAE, claro está) que carezca de errores, o que tenga muy pocos, y que tenga un formato que permita adaptarlo al que usé o a cualquier otro que convengamos. Como siempre estoy abierto a cualquier sugerencia o aportación en ese sentido.

    De nuevo, gracias por tu interés.

    Un abrazo.

  2. #92
    Veteran@ en el foro Avatar de negatus
    Fecha de ingreso
    16 ago, 10
    Mensajes
    1,036

    Predeterminado Re: diccionarios traductores para Nolim

    Hoy. por fin, vuelvo a la carga con la versión para Nolim/Bookeen del diccionario de la RAE en su vigesimotercera edición.

    Como es de bien nacidos ser agradecidos, antes de entrar en materia quiero darle las gracias a JIPG por… bueno, él sabe por qué.

    La primera cuestión fue aprender el modo en que estaba maquetado el diccionario en su formato de libro electrónico: un fichero epub en el que los lemas ocupaban un total cuarenta y ocho ficheros .html en el número más aproximado posible a dos mil lemas por fichero, en función de la cantidad de lemas por inicial. Evidentemente hay letras en castellano cuya cantidad de lemas en los que figuran como inicial es muy inferior a esos dos mil (“k”, “ñ”, “x”…) y otras que son más de dos mil, pero bastantes menos de cuatro mil, en cuyo caso el fichero los contenía todos. Además hay otros ficheros que contienen el resto de información del libro: agradecimientos, relación de académicos, modo en que está confeccionado el contenido de los lemas... esencial esto último para el paso siguiente.

    Los ficheros .html hacen referencia a una serie de clases CSS y fuentes que, tras un análisis y una serie de comprobaciones, no iban a ser necesarios en el formato resultante, por lo que podían desecharse. Bueno, en realidad, con una excepción que expondré más adelante.

    Tras conocer la manera en que se confeccionaban los lemas, pasé a compararla con la que ya usé como referencia en la elaboración del anterior diccionario: la versión en línea. De aquí salieron varias decisiones que expongo ocultas para quien tenga interés en conocerlas, teniendo en cuenta que en casi todas lo que ha primado es la limitación del formato de tinta electrónica en niveles de grises y la legibilidad de las definiciones y acepciones, más que la consulta (o lectura) en un libro electrónico que es un diccionario.
    Contenido oculto:

    En negrita se señala la opción elegida, siendo la previa al vs. la correspondiente a la versión en línea y la posterior la del libro electrónico. En ocasiones se ha optado por usar características de ambas opciones o solo parte de una de ellas.

    • Lema (y formas complejas): terminado sin punto vs. terminado con un punto.
    • Forma compleja de uso exclusivo del lema: en nueva línea con lema (no virgulilla) vs. a continuación del punto y seguido del lema, sustituido por una virgulilla.
    • Origen de los lemas: sombreado gris con salto(s) de línea tras el lema vs. paréntesis (De | Del | Loc. ...) sin salto de línea.
    • Acepciones: una por línea primero número de acepción, luego categoría gramatical (si la hay) vs. separadas por || primero categoría gramatical (solo en la primera acepción de las que tienen la misma categoría gramatical) luego número si hay más de una acepción.
    • Separación entre acepciones y formas complejas: salto de línea grande y cambio de color a marrón, no virgulilla vs. cuadrado negro y virgulilla.
    • Separación para el resto de formas complejas: salto de línea grande y cambio a naranja, no virgulilla vs. cuadrado marco negro y virgulilla.
    • Plurales en formas complejas: plurales sin subrayar unidos a la forma compleja subrayada vs. virgulilla separada de la desinencia por un espacio.
    • Separación para envíos: una por línea, no virgulilla vs. flecha y virgulilla separados por comas.
    • Separación entra acepciones con distinta categoría gramatical: salto de línea vs. círculo negro.
    • Separación entra acepciones con distinta subcategoría gramatical: salto de línea vs. círculo blanco (o circunferencia negra).
    • Variante del lema: Tb. + variante al 85% del tamaño de fuente, entre paréntesis vs. Tb. + variante en nueva línea.
    • Separación de enunciados dentro del origen de los lemas: salto de línea en el sombreado gris vs. rombo negro en la misma línea del paréntesis.
    • Envíos contiguos agrupados: puntos suspensivos + coma + V. lemas enviados con puntos suspensivos y comas vs. solo uno de los lemas + V. lema enviado, en nueva línea.


    Tengo que reconocer que estas decisiones, que tomé a finales del año pasado, condicionaron el hecho de que la mayor parte del tiempo invertido, algo más de dos meses, haya sido en la conversión de los ficheros .html lo que, curiosamente, ha sido justo al contrario que en la vez anterior.

    Me planteé como alternativas bien la conversión de cada uno de los ficheros de lemas por separado bien la concatenación de todos y proceder a la conversión en un único fichero. Considero que la elección de la primera opción fue la acertada pues me permitió refinar las expresiones regulares utilizadas conforme avanzaba y los tiempos en búsquedas/sustituciones globales eran prácticamente inmediatos. De algo sirvió la experiencia de la vez anterior. Con todo, en la penúltima fase del proceso fue necesario efectuar la mencionada concatenación, para la generación del índice y para hacer más cómodo el traslado del contenido a los ficheros que forman el diccionario.

    A continuación relaciono ocultas las más de cincuenta expresiones regulares utilizadas en búsquedas y sustituciones, explicando su uso, por si a alguien le apetece evaluar la naturaleza de mi manía (tengo la impresión de que si existe un cielo para los maníacos perfeccionistas de mierda, me he ganado una plaza en él) y por si alguien encuentra la manera de mejorar o afinar el proceso, que estoy seguro de que la hay. Para mayor abundamiento, diré que el último paso antes de dar como concluido el proceso en un fichero, consistía en repetir la búsqueda de todas las expresiones regulares (aprovechando la caché del editor, que me permitía recorrerlas en orden inverso)... y en muchos casos aparecieron coincidencias no sustituidas.
    Contenido oculto:

    Convertir los ficheros .html al formato específico (se guardó una copia de cada fichero sin extensión html) atendiendo a:
    1. Eliminar cabeceras y etiquetas <html>, <body>, <div><hr/> y <h1>. Quitar el sangrado y convertir todos los &nbsp; en espacios en blanco, tal cual.
    2. Convertir
    <strong><span class="extrafont2">(.*?)</span>(.*?)</strong> en
    <strong>$1´$2</strong> (elementos compositivos diferenciados sin guión).
    3. <span class="extrafont2">-</span>
    en
    (elementos compositivos diferenciados con guión).
    4. <p class="french"><span class="lema"><em><strong>(\w+)\.</strong></em></span>(\.|)( |)
    en
    <p>$1<br/> (lemas con punto al final que son expresiones del latín clásico).
    5. <p class="french"><span class="lema">(.*?)</span>(\.|)( |)
    en
    <p>$1<br/> (conversión de lemas en general. Para las formas complejas de uso exclusivo conviene comparar el número de coincidencias con
    <p class="french"><span class="lema">(.*?)</span>\.( |).
    Si difiere el número de resultados, Se realiza la conversión usando la expresión anterior como búsqueda y se prueba a convertir
    <p class="french"><span class="lema">(<strong>.*?)\. (.*?)</span> (~\. |\w+ ~\.|)( |)loc\.
    en
    <p>$1</strong><br/><strong>$2$3<br/>loc.
    Los que queden se revisan "manualmente". (ej. acomplexionado. Bien). En la práctica supuso un medio para encontrar gran parte de los fallos de lemas que tenían parte de la definición separada en un lema distinto).
    6. <span class="extrafont-it">(.*?)</span>
    en
    $1 (quitar clases debidas a caracteres de otros idiomas. Conviene ejecutarla ejecutarla más de una vez; dos veces como mínimo).
    7. <br/>\(Tb\. <span class="sans(|-b)">(.*?)</span>(|.*?) <span class="extrafont3">♦</span> (.*?)\)\.( |)
    en
    <br/>Tb. <strong>$2</strong>$3<p style="background:lightgray;">$4.</p> (variantes del lema).
    8. <br/>\(Tb\. <span class="sans(|-b)">(.*?)</span>(.*?)\)\.( |)
    en
    <br/>Tb. <strong>$2</strong>$3.<br/> (numeración de variantes del lema).
    9. (|\.)(| )\(Tb\. (.*?|)<span class="sans(|-b)">(.*?)</span>(.*?)\)\.( |)
    en
    $1<br/>Tb. $3<strong>$5.</strong>$6<br/> (resto de variantes en una forma compleja del lema).
    10. <br/>\((.*?)\)\.( |)
    en
    <p style="background:lightgray;">$1.</p> (origen de los lemas. En ocasiones encontró resultados en la última comprobación después de otras sustituciones).
    11. (</span>|</em>|</strong>)\. \((.*?)\)\.( |)
    en
    $1.<p style="background:lightgray;">$2.</p> (orígenes de los lemas que se han quedado atrás. En la práctica detectó fallos provenientes del fichero html original y necesitaron resolución manual en casi todos los casos).
    12. (<p style="background:lightgray;">.*?) <span class="extrafont3">♦</span> (.*?)</p>
    en
    $1<br/>$2</p> (modelos de conjugación y otras aclaraciones en los orígenes de los lemas. En algún caso habría debido pasarse más de una vez, pero eso se detectó en la comprobación final).
    13. (\.|) <span class="extrafont3">♦</span> (.*?)<br/>
    en
    $1<p style="background:lightgray;">$2</p> (orígenes de los lemas que se quedaron atrás por la conversión de los Tb. (variantes). (ejs. adiós, boya2)).
    14. (\.|) <span class="extrafont3">♦</span> (.*?)</p>
    en
    $1<br/>$2</p> (resto de modelos de conjugación y otras aclaraciones en los orígenes de los lemas. En algún caso habría debido pasarse más de una vez, pero eso se detectó en la comprobación final).
    15. \(<span class="extrafont3">ǁ</span>
    en
    (para indicación condensada de acepción de otro lema).
    16. <span class="extrafont3">ǁ</span><span class="extrafont3">■</span>
    en
    <span class="extrafont3">■</span> (evitar duplicidad de clases que se sustituyen con la misma (y única) expresión regular. (puede no haber ninguna). (ej. ají))
    17. (\.|) <span class="extrafont3">ǁ</span> <span class="sans-b">(.*?)</span>
    en
    $1<br/><strong>$2</strong> (acepciones de la misma categoría gramatical, cada una en una línea).
    18. </span>\.( |)
    en
    </span><br/> (introducir salto de línea en las formas complejas con el punto después del </span>).
    19. ~\.</span>( )
    en
    ~</span><br/> (introducir salto de línea en las formas complejas con el punto antes del </span>).
    20. (\.|) <span class="extrafont(|3)">(<strong>|)☐(</strong>|)</span> (~ |)<span class="sans">(.*?)</span>
    en
    $1<br/>$5$6 (salto de línea y aislar virgulillas (si las tienen, sino simplemente salto de línea) en el segundo bloque de las formas complejas).
    21. (\.|) <span class="extrafont">(<strong>|)☐ (.*?)(</strong>|)(.*?)</span>
    en
    $1<br/>$2$3$4$5 (salto de línea en el resto de los que tienen (o no) virgulilla en el segundo bloque de las formas complejas).
    22. (\.|) <span class="extrafont3">(ǁ|■|☐)</span> (~ |)<span class="sans">(.*?)</span>
    en
    $1<br/>$3$4 (nueva línea en: virgulillas que sustituyen a lemas, paso de acepciones a formas complejas y para el segundo bloque de formas complejas.
    Compruébese (\.|) <span class="extrafont3">ǁ</span> (.*?)<span class="sans">(.*?)<strong>(.*?)</strong>(.*?)</span>
    y sustitúyase por
    $1<br/>$2<strong>$3$4</strong>$5 para el caso en que se dupliquen las negritas).
    23. <br/><span class="extrafont3">(ǁ|■|☐)</span> (~ |)<span class="sans">(.*?)</span>
    en
    <br/>$2$3 (resto de nueva línea en: virgulillas que sustituyen a lemas, salto de acepciones a formas complejas y segundo bloque de formas complejas, que han quedado tras un salto de linea por culpa de sustituciones anteriores).
    24. (\.|) <span class="extrafont3">■</span> (~ |)<span class="sans">(.*?)</span>
    en
    $1<br/>$2$3 (resto de casos que tienen virgulilla en las formas complejas).
    25. <span class="sans">(.*?)</span>
    en
    $1 (expresiones junto a virgulillas que se hayan quedado atrás. En la práctica este también resultó un mecanismo efectivo de localización de errores en el fichero original).
    26. (\.|) <span class="extrafont3">(⚫|⚪|ǁ)</span> (.*?)<span class="sans-b">(\d{1,2}\.)(.*?)</span>( |)
    en
    $1<br/><strong>$4</strong> $3$5 (salto de línea en categoría y subcategoría gramatical (y nueva línea en acepciones de la misma categoría gramatical) además de negrita en la numeración de acepciones y cambio de orden número de acepción <→ categoría o subcategoría gramatical).
    27. (</p>|<br/>)([\w\. ]+)<span class="sans-b">(\d{1,2}\.)(.*?)</span>
    en
    $1<strong>$3</strong> $2$4 ( poner negrita en la numeración de acepciones además de cambio de orden número de acepción <→ categoría gramatical).
    28. <br/><span class="extrafont3">(⚫|⚪|ǁ)</span> (.*?)<span class="sans-b">(\d{1,2}\.)(.*?)</span>( |)
    en
    <br/><strong>$3</strong> $2$4 (resto de categorías y subcategorías gramaticales y negrita en la numeración de acepciones más cambio de orden número de acepción <→ categoría o subcategoría gramatical, que han quedado tras salto de línea debido a sustituciones anteriores).
    29. Revisar el resto de <span class="sans-b">(.*?)</span> que queden. La mayor parte se podrán convertir mediante sustitución de
    (\.|) (loc\. |locs\. |adj\. |expr\. |exprs\. |[m|f]\. |interj\. )(verb\. |adv\. |sust\. |verbs\. |advs\. |susts\. |adj\. |adjs\. |prepos\. |)<span class="sans-b">(\d{1,2}\.)(.*?)</span>
    en
    $1<br/><strong>$4</strong> $2$3$5 (habrá que modificar manualmente el resto como en: hacer ~ a alguien (aire) y cortar las ~ a alguien y dar ~ a alguien (alas)).
    30. Convertir (</p>|<br/>)<span class="extrafont3">➤</span>( |)
    en
    $1 (para los envíos con salto de línea previo (provenientes de otras sustituciones)).
    31. ( )<span class="extrafont3">➤</span>( |)
    en
    <br/> (envíos sin salto de línea previo).
    32. ( |)~ (<strong>|)(e|)s(\s|,|\.|</strong>)
    en
    $2$1~$3s$4 (plural con final en vocal o consonante de las formas complejas).
    33. V\. conjug\. en APÉNDICE
    en
    Conjug. modelo (modelo de conjugación de verbos regulares).
    34. V\. conjug\. actual en APÉNDICE
    en
    Conjug. Modelo actual (modelo de conjugación de verbos irregulares).
    35. <p><em><strong>(.*?)</strong></em>
    en
    <p><strong><em>$1</em></strong> (facilitar la extracción de lemas en la hoja de cálculo en aquellos provenientes de otras lenguas que no tienen adaptación).
    36. ~
    en
    <u>~</u> (preparar la virgulilla para ser sustituida por el lema -subrayado- en la forma compleja).
    37. <span class="extrafont">(.*?)</span>
    en
    $1 (aislar términos en griego, latín o árabe y símbolo del copyright).
    38. ([^c]|tc)\. loc(s|)\.( )
    en
    $1<br/>loc$2.$3 (saltos de línea de formas complejas no distinguidos por clase css).
    39. Comprobar que no han quedado <span>, </span> y <span . En la práctica detectó clases no convertidas por las expresiones anteriores por motivos que no siempre quedaron claros.
    40. Convertir </strong>( |)<strong>
    en
    $1 (eliminar los etiquetados en negrita consecutivos, insertados en algunas sustituciones).
    41. ([^\.])\.\.([^\.])
    en
    $1.$2 (eliminar dobles puntos introducidos en algunas sustituciones (por englobar todos los posibles casos) evitando la conversión accidental de puntos suspensivos).
    42. \s\s en \s (eliminar los dobles espacios introducidos en los pasos 26, 27 y 28).
    43. </p>\n\n<p> en </p>\n<p> , <br/><br/> en <br/> y <br/></p> en </p> (eliminar líneas en blanco innecesarias).

    Para cambiar la virgulilla, previamente subrayada, por el lema se dan varios casos:
    44. Si el lema no tiene género: Convertir <p><strong>(<em>|)([\w\s]*)(</em>|<sup>[\d\.]*</sup>|)</strong>(.*?)~
    en
    <p><strong>$1$2$3</strong>$4$2. Se debe repetir hasta que no localice ninguna virgulilla pues hay lemas con muchas de ellas.
    45. Si el lema tiene género:
    a) Convertir <p><strong>([\w]+)(\w{1,})(o)(<sup>\d</sup>|), (\2)(a)</strong>(.*?)([\w]*)(ión|a|ad|dumbre|[t|s|x]is)(</strong>|)(s|) <u>~
    en
    <p><strong>$1$2$3$4, $5$6</strong>$7$8$9$10$11 <u>$1$5$6 (forma compleja femenina con genero (o-a) en las dos últimas letras (penúltima consonante) y el lema va al final. Se debe revisar cada conversión pues no es posible abarcar todas las excepciones. Repetirlo hasta que no quede ninguna virgulilla).
    b) <p><strong>([\w]+)(\w{1,})(o)(<sup>\d</sup>|), (\2)(a)</strong>(.*?)(</strong>|)(s|)( |)<u>~</u> (<strong>|)([\w]*)(ión|a|ad|dumbre|[t|s|x]is)(,|</strong>)
    en
    <p><strong>$1$2$3$4, $5$6</strong>$7$8$9$10<u>$1$5$6</u> $11$12$13$14 (forma compleja femenina con genero (o-a) en las dos últimas letras (penúltima consonante) y lema al principio. Se debe revisar cada conversión, aunque no suele haber muchas de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    c) <p><strong>([\w]+)(\w)(o), (a)</strong>(.*?)([\w]*)(ión|a) <u>~
    en
    <p><strong>$1$2$3, $4</strong>$5$6$7 <u>$1$2$4 (forma compleja femenina con genero (o-a) en las dos últimas letras (penúltima vocal) y lema al final. Se debe revisar cada conversión, aunque son muy pocas de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    d) <p><strong>([\w]+)(ó|o)(l|n|r), (\3)(a)</strong>(.*?)([\w]*)(ión|a|ad)(</strong>|) <u>~
    en
    <p><strong>$1$2$3, $4$5</strong>$6$7$8$9 <u>$1o$4$5 (forma compleja femenina con género (ol|ón|or-ola|ona|ora) y lema al final. Se debe revisar cada conversión; también son muy pocas las de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    e) <p><strong>([\w]+)(é)(s), (\3)(a)</strong>(.*?)([\w]*)(ión|a|ad)(</strong>|) <u>~
    en
    <p><strong>$1$2$3, $4$5</strong>$6$7$8$9 <u>$1e$4$5 (forma compleja femenina con género (és-esa) y lema al final. Se debe revisar cada conversión, aunque raramente aparecerá alguna de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    f) <p><strong>([\w]+)(á)(n), (\3)(a)</strong>(.*?)([\w]*)(ión|a|ad)(</strong>|) <u>~
    en
    <p><strong>$1$2$3, $4$5</strong>$6$7$8$9 <u>$1a$4$5 (forma compleja femenina con género (án-ana) y lema al final. Se debe revisar cada conversión, aunque solo ocasionalmente aparecerá alguna de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    g) <p><strong>([\w\s]*)(<sup>\d</sup>|), ([\w]*)</strong>(.*?)( |)<u>~ en <p><strong>$1$2, $3</strong>$4$5<u>$1 para forma compleja masculina y lema al final o al principio. Se debe revisar cada conversión, con especial cuidado cuando la forma compleja admita los dos géneros (m.y f.) . Repetirlo hasta que no quede ninguna virgulilla).

    Quizá podría haber intentado llevar a cabo la conversión programándola. No obstante, pronto me di cuenta de que ello me habría hecho perder rápidamente el hilo de la correcta generación de los lemas convertidos: la sustitución de las virgulillas cuando el lema tenía género he tenido que hacerla revisándolas casi una a una, por poner un ejemplo.

    Por otro lado, el haber hecho el trabajo de esta manera me ha permitido detectar en el fichero original del orden de trescientos veinte errores, que si bien porcentualmente suponen un misérrimo 0’3% de los más de noventa y un mil lemas, no deja de ser un número apreciable en sí mismo. Lo cierto es que en el formato original no son demasiado problemáticos, pues lo lemas se consultan de manera continua. En cambio en un diccionario al que se accede por índices y deplazamientos, no se encontrarían algunos lemas y otros aparecerían incompletos. Tengo muy claro que se han quedado errores sin corregir pues los dos últimos los detecté en la última fase de revisión (en la que miro el primer y último lema de cada fichero del formato Nolim/Bookeen) y de seguro que yo he introducido más de uno, sobre todo en saltos de línea innecesarios. Todo reporte de errores lo agradeceré enormemente. Relaciono ocultos los errores encontrados.
    Contenido oculto:

    a) Lemas unidos que deben ir separados (se consignan a continuación del →) la coma separa cada par (o trío, que alguno hay):

    abertura→ abertzale, alcor→ Alcorán, aleación→ alea iacta est, allegar→ allegretto, amprar→ ámpula, anacrusa→ ánade, anfitrión→ ánfora, angaripola→ ángaro, angazo→ ángel, anillo→ ánima, animizar→ ánimo, antracosis→ ántrax, año2→ -año, aparentemente→ a pari, apetitoso→ ápex, aquivo→ a quo, ar→ -ar, ardite→ -ardo, argollón→ árgoma, aulario→ áulico, bodrio→ body, buseta→ bushido, cazuz→ CD, cefalea→ -cefalia, cultura→ -cultura, desarrollable→ desarrollar, datilera→ datismo, deverbativo→ de verbo ad verbum, domingo1→ Domingo2, edetano→ edición, entelado→ entelar, enlabiar1→ enlabiar2, enridar1→ enridar2, enronchar→ enronquecer, ensuciamento→ ensuciar, entendidamente→ entendido, enterrar→ entesado, entoldamiento→ entoldar, entrenamiento→ entrenar, entuerto→ entullecer, enviciamiento→ enviciar, epidérmico→ epidermis, epistémico→ epistemología, epistemólogo→ epístola, equipero→ equipo, erogación→ erogar, escalfamiento→escalfar, escamar→ escambrón, escamoteador→ escamotear, escapular2→ escapulario, escarolar→ escarótico, escarpado→ escarpadura, escirroso→ escisión, escociano→ escocimiento, escogencia→ escoger, escorbútico→ escorbuto, escribir→ escriño, esfera→ esferal, esferoide→ esferómetro, esfigmograma→ esfigmómetro, espadón1→ espadón2, espasticidad→ espástico, espiroqueto→ espita, esquilfe→ esquilimoso, estacha→ estache, estación→ estacional, estancación→ estancada, estandarizar→ estándar, estangurria→ estannífero, estero1→ estero2, estimuloso→ estinco, estío→ estiómenar, estipendio→ estípite→ estipiticar, estragar→ estrago, estrucioniforme→ estructura, etarra→ etcétera, etilo→ étimo, excitación→ excitado, expiación→ expiar, exponencial→ exponente, extracto→ extractor, extrañamiento→ extrañar, fabla→ fablable, factitivo→ facto, fajol→ fajón, fambre→ fame, fan→ fanal, fatigante→ fatigar, ferrarés→ ferre, filia→ filiación, filmográfico→ filmología, florecido→ floreciente, fono→ fonocaptor, fórmico→ formidable, foto→ fotoalergia, fraga1→ fraga2, gineta→ gin-fizz, grija→ grill, halitosis→ hall, hardido→ hardware, hrrusca→ hertz, hincar→ hincha, lapsus→ lapsus calami→ lapsus linguae, lauroceraso→ laus Deo, leída→ Leiden, leísta→ leitmotiv, lepasil→ lepe, loco2→ loco citato, motu proprio→ mousse, nocional→ nocir, oponer→ oponible, paceño→ pacer, parsi→ parsimonia, partero→ parterre, patrulla→ patrullaje,pavana→ pavada, paviano→ pávido, pelaza→ pelazga, petalismo→ pétalo, petral→ petraria, picazuroba→ piccolo, píceo→ picha, pichear→ pichel, pie→ piedad, pignorable→ pignoración, pirriar→ pírrico1, placiente→ placimiento, plátano→ platea, presupuestario→ presupuesto, pretorial→ pretorianismo, procedente→ proceder1, promedio→ pro memoria, pronunciamento→ pronunciar, propiedad→ propienda, provincial→ provinciala, pulchinela→ pulcritud, quad→ quadrivium, que→ qué, recabita→ recadar, recaudero→ recaudo, rejero→ rejileto, reprehensible→ reprehensión, rinoceronte→ rinofaringe, románico→ romanilla, salival→ salivar, sandino→ sandio, -sco→ scooter, self-service→ sellado, silbante→ silbar, tabicón→ tábido, tabulador→ tabula gratulatoria, tajalápiz→ tajamar, talegazo→ talega, talero→ tálero, tantrismo→ Tantum ergo, tecnecio→ -tecnia, templo→ tempo, ternurista→ tero, tico→ 'tico, tirintio→ tirio, tortel→ tortellini, tortillo→ Tortis, trivium→ -triz, -uelo→ uf, ultramarino→ ultramaro, unamuniano→ unánime, usarcé→ usarced, vago2→ vagón, verdemontaña→ verdeo, vínculo→ vindicación, vinilo→ vino, viz- → vizcacha, vocabulario→ vocabulista,

    b) Definiciones pertenecientes a un lema que se tratan como lema separado (se consigna la parte de la definición -con puntos suspensivos acortando las demasiado largas- que hubo de ser unida a continuación de ←) la coma separa cada par (o trío, que alguno hay):

    abuela← no necesitar o no tener..., ambarino← abelcoso, amonestar← amonestado, arador← arador de la sarna, arbitrero← arbitrista, aristocrático← perteneciente o relativo a la aristrocracia, asentadillas← a asentadillas, ballet← ballet,bocado← no tener alguien para un bocado, cochero← Sitio donde se encierran los coches y autobuses, chupa← como chupa de dómine, corriente← o contra la corriente, derm-← dermo-. Dermitis., dermat-← dermo-. Dermatitis., dermato-← dermo-. Dermatología., despacio← despacio. U. m. en And., Bol., Col., Ec. y R. Dom., disciplinante← disciplinante que sacaban a la vergüenza...← disciplinante que sacaban a azotar públicamente por haber..., ejemplificar← ejemplarizar., estructurante← estructurador. Un factor estructurador, espejo← espejo ustorio, espiritual← espiritual negro, exarco← exarca.,farmacopola← farmaceútico (persona que ...), filelí← fililí (tela ligera), fruto← frutos naturales de los fondos rústicos, imponer← ...a cosa , -morfo← elem. compos. , nacascolo← dividivi (árbol) , naco1← susto (impresión repentina), nao← nave (barco), natividad← natividad de jesucristo, nave← naveta (vaso de incensar), necio← neciamente., neumotórax← neumotórax producido artificialmente..., nipos← caudal (hacienda), numeral← numeral fraccionario, nodo← nodo en el que el planeta..., ñoqui← ñoqui hecha con sémola y que, ..., ñor← señor (término de cortesía), oblato← oblatos u oblatas, ...,obrería← obrería (renta), occitano← occitano (lengua), ochocientos← octingentésimo (que sigue en orden...),ocotero← ocote1. 2. f. Méx. ocotal., octavo← octava. 5. Librito que contiene el..., oesudoeste← oesudoeste., okupa←okupa.,ofuscamiento←ofuscación.,oliva← aceite de oliva, omaguaca←omaguacas.,onda← ondas radioeléctricas..., oponer← opuesto. tr. Poner algo contra..., óptico← óptica. 5.f. Parte de la física...,oriental← Oriente (Asia y regiones inmediatas), origenismo.← origenismo., osornino.← osorninos., otitis← otitis que no pasa más allá de..., página ← páginas. 2.Inform. sitio web..., parafrástico← Perteneciente o relativo a la paráfrasis, pascuense ← pascuenses. 3.Perteneciente o relativo al pascuense (ǁ lengua)., patatín← coloqs. Argucias, disculpas del que no..., paleógeno← Paleógeno., paupérrimo← pobre,pekinés← pekineses. 3. m. y f. perro pekinés., pelagianismo← pelagianismo., pelitre← pelitre., pértiga← pértiga 3. desus. pértica., petigrís← petigrís., péndulo← péndulo que se hace de metales de dilatación diferente..., pial← peal,piano1← piano de tamaño mediano y forma alargada..., pífano← pífano., pintón← pintón., pillería← pillo2 3. coloq. pillada., pitajaya← pitahaya., planetario← planetario. espacio planetario, poetría← poesía., popayanejo← popayanejos., poronguero2← porongueros., portugués← portugueses. carabela portuguesa, práctico← práctica. 2. Dicho de un conocimiento: Que..., presado← presado., proverbio← proverbio (refrán), promiscuo← promiscua., química← química de los compuestos que contienen..., recabdar← recabar (recoger, recaudar, guardar), recomponer← (...recompuesto)., reprehensible← reprensible,repulgue← repulgo (borde labrado de las empanadas), retroacción← retroactividad. retroactividad de la quiebra,..., resunta← resumen., romance← romance que se compone de versos..., resurrección← resurrección de Jesucristo., sabidor← sabio (que posee la sabiduría), saboyano← saboyanos. 3. f. Pastel, especie de bizcocho empapado..., sacramento← sacramento eucarístico,sacro← sacro, en la parte posterior de la pelvis, sajón← sajones (individuo de un pueblo germánico),salteño← salteños 3. f. Arg. y Bol. Empanada típica con relleno de..., salubre← (... salubérrimo)., samoyedo← samoyedos. 3. Perteneciente o relativo al..., sanedrín← sanedrín. 3. Junta o reunión para tratar de..., sangriento← sangrienta (que se goza en derramar sangre), sanjuaneño← sanjuanero. 2. Natural de Río San Juan,..., sanmigueleño← sanmigueleñas. 3. Natural de San Miguel, ciudad del Ecuador..., santero← santería, (sincretismo entre creencias africanas y la religión católica), sapiencia← sabiduría., sauce← sauce. sauce cabruno. m. Árbol..., sedeño← sedas, (cerdas), sefardí← sefardíes 3. judeoespañol (ǁ perteneciente a la variedad del español)..., selvaje← salvaje., seña← señal(ǁ cantidad que se adelanta en algunos contratos), séptimo← séptima ascendente o descendente en la escala., serbio← serbios. 3. Perteneciente o relativo al serbio (ǁ lengua)..., serbocroata← serbocroata. Léxico serbocroata..., serpentino← serpentín (ǁ instrumento de hierro), setecientos← septingentésimo (ǁ que sigue en orden al sexcentésimo nonagésimo noveno)., sexto← sexta hora temporal, a mediodía, hasta... ← sexta que comienza por el as..., sevillano← sevillanos. 3.</strong> f. Palo flamenco propio de Sevilla y..., sículo← sículos. 3. Perteneciente o relativo al sículo (ǁ lengua)..., sigla← siglas en ONU, silbante← sibilante (ǁ sonido fricativo o africado), sintagma← sintagma que tiene por núcleo un verbo., sobijar← sobar (ǁ manosear), sobreponer← ...sobrepuesto) tr., sofreír← ...sofreído) tr.,solución← solución de continuidad., sosa← sosa, muy ricas en sales alcalinas y empleadas..., suboficial← suboficial, inmediatamente superior..., surtidero← surtidor (ǁ chorro de agua), sucesión← sucesión que tiende a un límite., tortería← tortas (ǁ panecillos)., traillar← traílla (ǁ instrumento agrícola)., triángulo← triángulo que tiene los tres ángulos agudos., tuerce← torcedura (ǁ acción de torcer)., tuse← tusa (ǁ crines del caballo)., unisón← mismo sonido que otra cosa., utensilio← Objeto fabricado que se destina a un uso manual y doméstico., unitivo← unir. Tejido unitivo., zancadilla← o pretende derribar a alguien de un puesto o cargo., zarandear← por los hombros o los brazos moviéndolo con violencia.

    c) lemas repetidos sin definición: epodo

    d) otros casos:

    • caballo d buena boca;
    • buccino (se coló una clase indentleft1-center desconocida hasta ese momento);
    • ha cerse ~ (aire);
    • en los dos archivos correspondientes a la letra "d" no se incluyó el cambio de estilo "sans" tras el de "extrafont3", para los casos de los símbolos "ǁ", "■" y "☐" (acepciones en formas complejas, sin numerar, y con cambio de categoría y subcategoría gramatical);
    • también en los archivos de la letra "d" se cambió el orden del punto tras número de acepción, con el cierre de la etiqueta "span" (este me dio un par de días de dolores de cabeza hasta que lo localicé). Luego apareció el mismo fallo en la letra "m";
    • otros errores tipográficos, discordancias y de cierre de etiquetas html que no he consignado por considerarlos errores menores y porque, en realidad, no son detectables en la consulta del diccionario en su versión electrónica original, aunque sí en la conversión realizada.


    La naturaleza de los errores encontrados me lleva a establecer dos hipótesis:

    • La conversión desde el formato original (¿la base de datos on-line?) se hizo mediante herramientas automatizadas, pues los errores siguen un patrón que intuyo, pero que no he sido capaz de determinar con exactitud.
    • El trabajo se ha distribuido en varios equipos/personas pues los errores aparecen en ficheros de determinadas iniciales y en otros no.

    Y también entiendo ahora por qué la academia parece resistirse a indicar el número de lemas exactos en cada diccionario. Durante el proceso este número ha ido variando, según encontraba y corregía fallos, hasta los noventa y un mil cuatrocientos cincuenta y ocho (91.458) obtenidos tras la última revisión.

    Estos fallos también los he corregido en el fichero original, que pongo a vuestra disposición, previa solicitud por privado.

    Para la penúltima parte del proceso, extracción de índices y desplazamientos, ya tenía adelantado bastante el trabajo, fruto de la conversión que hice de la vigésimo segunda edición, si bien he optimizado y diversificado las hojas de cálculo con el fin de hacerlas menos “pesadas” a la hora de inserción masiva de datos. Además he reutilizado el fichero comprimido, editando los ficheros de su interior y añadiendo los diez resultantes del mayor número de lemas de esta edición. También pongo el procedimiento oculto.
    Contenido oculto:


    Concatenar el contenido de los ficheros HTML en uno único (cat ?_00??_000? > fichero_concatenado) e incluir su contenido en una columna de una hoja de cálculo.
    En dicha hoja se extraen en columnas diferenciadas, mediante fórmulas:
    a1) Lema con superindice a continuación, si lo tiene (eliminando formato de superíndice) y sin desinencia de género, si la tiene.
    b1) Longitud de la definición en caracteres (util para la comparación con la longitud en bytes).
    c1) Estimación del número de ficheros de 256 Kb. que se generarán.
    d1) Columna de comparación de la extracción del lema con la de la fórmula de extracción, por si hay errores en la fórmula o en el pegado de lemas (se detectaron algunos fallos de partes de definiciones de lemas, separadas como lema independiente, que se habían escapado en el proceso de conversión).
    En el fichero de texto concatenado se sustituyen los </p><p> por </p>\n<p> para homogeneizar los finales y principios de fichero (que no tienen el salto de linea) con el resto de definiciones.
    Se aplica el comando:
    while read line; do wc -c; done < fichero_definiciones > fichero_bytes_por_definicion
    En una nueva hoja de cálculo (o fichero para mejor tratamiento).
    a2) Se inserta el contenido de fichero_bytes_por_definicion en una hoja y se aplica fórmula para obtener la longitud de cada línea (el resultado del comando las da acumuladas). ** Téngase en cuenta que el primer resultado se corresponde con la longitud en bytes del segundo lema. Para obtener la del primero puede hacerse manualmente o restando la longitud total en bytes del fichero del primer resultado obtenido.
    b2) En otra hoja se pasa la columna de resultados por línea junto con la columna de los lemas y la de la longitud en caracteres de cada lema, extraída de la hoja de cálculo inicial, esta última con el fin de comparar resultados.
    Tras hacer comprobaciones con un número representativo de lemas en la página https://mothereff.in/byte-counter, que da los resultados en caracteres y bytes se demuestra que los resultados obtenidos con el comando wc exceden en 1 byte el número real de cada definición (debido al salto de línea, creo). Es importante tener esto en cuenta pues de no aplicar correctamente los valores, el desplazamiento de la base de datos de índices dará resultados erróneos. La columna con los bytes corregidos será la que se traslade a un nuevo fichero de hoja de cálculo.
    En otro fichero de hoja de cálculo:
    a3) Se pegan las columnas de lemas y longitud en bytes de la hoja anterior.
    b3) Mediante fórmulas se calculan en otras columnas las longitudes acumuladas para aquellos lemas con más de un origen, ya que solo tendrán una entrada en el fichero de índices.
    c3) En otra hoja se pegan la columna de lemas y la de los desplazamientos acumulados, que luego se tratarán con expresiones regulares en el editor.
    Una vez efectuado el tratamiento mediante la búsqueda sustitución con las expresiones regulares:
    1. Convertir [\w\- ]+\t0\n
    en
    nada (elimina lemas que no tienen acumulado el desplazamiento).
    2. ([\w\- ]+)\d{1}(\t\d+\n)
    en
    $1$2 (deja los lemas con desplazamiento acumulado sin superíndice).
    se obtiene una lista de dos columnas con los lemas "repetidos" eliminados y sin superíndices y los desplazamientos acumulados, que se pegan en otra hoja del mismo fichero donde:
    a4) se añaden columnas necesarias para la base de datos de índices
    b4) se añaden otras columnas para facilitar la posterior comprobación del último lema de cada fichero y el primero del siguiente (detectan el cambio de fichero) y así asegurar que el índice está bien generado.
    Se añaden al índice las entradas correspondientes a las inflexiones que ya estaban guardadas en otra hoja, provenientes del trabajo con el diccionario de la 22ª edición.
    Se reutiliza la base de datos de índices y se pegan los datos de la hoja reseñada en el paso a4) con los datos necesarios a la tabla T_Dictindex (previo pegado y de nuevo copiado en el editor, para que interprete correctamente tabuladores y saltos de línea), mediante un editor de bases de datos SQLite para linux (yo he usado "DB Browser for SQLite"). Conviene regenerar el índice sustituyendo la cláusula "COLLATE IcuNoCase" por "COLLATE NOCASE".
    Tras generar la base de datos de índices se traslada el contenido del fichero_concatenado a cada uno de los ficheros que componen el diccionario comprimido, siguiendo las indicaciones de la hoja de cálculo del paso b4). Se añadieron diez nuevos ficheros debido al incremento de lemas en esta edición.

    Con respecto a las inflexiones, me temo que se han quedado un tanto anticuadas, pues los nuevos lemas añadidos en esta edición no tienen sus correspondientes inflexiones, aunque estas afecten solo a aquellos nuevos lemas que sean verbos o admitan plural. Espero que el motor de búsqueda sea capaz de localizarlos por proximidad léxica, llegado el caso.

    Finalmente se consultan el primer y último lema que está en cada fichero interior, para comprobar si el índice está bien generado. Para ello el libro utilizado como referencia fue... el propio diccionario original en formato epub. En esta fase comprobé que el símbolo “ǁ”, usado para la indicación condensada de acepción de otro lema, no era interpretado correctamente por el Nolim, de manera que tuve que sustituirlo por un doble “|” que la verdad es que se aprecia bastante bien y además tuve la suerte de que ocupa lo mismo que el otro, por lo que no hubo de regenerarse el índice por aumento de los desplazamientos.

    Tengo que reconocer que, a pesar de los presumibles errores y mi manía perfeccionista, estoy bastante satisfecho del resultado y hoy por hoy cuento con un diccionario casi definitivo: actualizado, legible y bastante de acuerdo a mis gustos. El día que se disponga de tinta electrónica a color, será el momento de adaptarlo con mucha más fidelidad a la versión en línea del diccionario de la RAE, que es el que más me entusiasma y en el que no he detectado error alguno (aunque en consultas de comparación encontré alguna virgulilla aún sin convertir, pero no me acuerdo en qué lema). Sin más ahí va el enlace.

    https://drive.google.com/open?id=1O9...o57t9wpjgDAm7m

    Insisto en que agradeceré el reporte de errores así como el resultado de la puesta en práctica del fichero y las eventuales conversiones a otros formatos, quien así lo desee.

    Saludos muuuuuy cordiales.
    Última edición por negatus; 15/06/2019 a las 19:51

  3. Los Siguientes 3 Usuarios Agradecieron a negatus por Este Mensaje:


  4. #93
    Veteran@ en el foro Avatar de surquizu
    Fecha de ingreso
    05 jun, 08
    Ubicación
    Barcelona
    Mensajes
    4,234

    Predeterminado Re: diccionarios traductores para Nolim

    Te has ganado el cielo. 😁. A ver si puedo pasarlo a kobo...

    Enviat des del meu POCOPHONE F1 usant Tapatalk

  5. El Siguiente Usuario Agradeció a surquizu Por Este Mensaje:


  6. #94
    Veteran@ en el foro Avatar de JIPG
    Fecha de ingreso
    25 abr, 10
    Ubicación
    Madrid
    Mensajes
    643

    Predeterminado Re: diccionarios traductores para Nolim

    Como siempre, negatus, un trabajo IMPRESIONANTE

  7. El Siguiente Usuario Agradeció a JIPG Por Este Mensaje:


  8. #95
    Veteran@ en el foro Avatar de elchamaco
    Fecha de ingreso
    18 may, 11
    Ubicación
    Villarriba
    Mensajes
    1,621

    Predeterminado Re: diccionarios traductores para Nolim

    Cita Iniciado por negatus Ver mensaje
    Hoy. por fin, vuelvo a la carga con la versión para Nolim/Bookeen del diccionario de la RAE en su vigesimotercera edición.

    Como es de bien nacidos ser agradecidos, antes de entrar en materia quiero darle las gracias a JIPG por… bueno, él sabe por qué.

    La primera cuestión fue aprender el modo en que estaba maquetado el diccionario en su formato de libro electrónico: un fichero epub en el que los lemas ocupaban un total cuarenta y ocho ficheros .html en el número más aproximado posible a dos mil lemas por fichero, en función de la cantidad de lemas por inicial. Evidentemente hay letras en castellano cuya cantidad de lemas en los que figuran como inicial es muy inferior a esos dos mil (“k”, “ñ”, “x”…) y otras que son más de dos mil, pero bastantes menos de cuatro mil, en cuyo caso el fichero los contenía todos. Además hay otros ficheros que contienen el resto de información del libro: agradecimientos, relación de académicos, modo en que está confeccionado el contenido de los lemas... esencial esto último para el paso siguiente.

    Los ficheros .html hacen referencia a una serie de clases CSS y fuentes que, tras un análisis y una serie de comprobaciones, no iban a ser necesarios en el formato resultante, por lo que podían desecharse. Bueno, en realidad, con una excepción que expondré más adelante.

    Tras conocer la manera en que se confeccionaban los lemas, pasé a compararla con la que ya usé como referencia en la elaboración del anterior diccionario: la versión en línea. De aquí salieron varias decisiones que expongo ocultas para quien tenga interés en conocerlas, teniendo en cuenta que en casi todas lo que ha primado es la limitación del formato de tinta electrónica en niveles de grises y la legibilidad de las definiciones y acepciones, más que la consulta (o lectura) en un libro electrónico que es un diccionario.
    Contenido oculto:

    En negrita se señala la opción elegida, siendo la previa al vs. la correspondiente a la versión en línea y la posterior la del libro electrónico. En ocasiones se ha optado por usar características de ambas opciones o solo parte de una de ellas.

    • Lema (y formas complejas): terminado sin punto vs. terminado con un punto.
    • Forma compleja de uso exclusivo del lema: en nueva línea con lema (no virgulilla) vs. a continuación del punto y seguido del lema, sustituido por una virgulilla.
    • Origen de los lemas: sombreado gris con salto(s) de línea tras el lema vs. paréntesis (De | Del | Loc. ...) sin salto de línea.
    • Acepciones: una por línea primero número de acepción, luego categoría gramatical (si la hay) vs. separadas por || primero categoría gramatical (solo en la primera acepción de las que tienen la misma categoría gramatical) luego número si hay más de una acepción.
    • Separación entre acepciones y formas complejas: salto de línea grande y cambio de color a marrón, no virgulilla vs. cuadrado negro y virgulilla.
    • Separación para el resto de formas complejas: salto de línea grande y cambio a naranja, no virgulilla vs. cuadrado marco negro y virgulilla.
    • Plurales en formas complejas: plurales sin subrayar unidos a la forma compleja subrayada vs. virgulilla separada de la desinencia por un espacio.
    • Separación para envíos: una por línea, no virgulilla vs. flecha y virgulilla separados por comas.
    • Separación entra acepciones con distinta categoría gramatical: salto de línea vs. círculo negro.
    • Separación entra acepciones con distinta subcategoría gramatical: salto de línea vs. círculo blanco (o circunferencia negra).
    • Variante del lema: Tb. + variante al 85% del tamaño de fuente, entre paréntesis vs. Tb. + variante en nueva línea.
    • Separación de enunciados dentro del origen de los lemas: salto de línea en el sombreado gris vs. rombo negro en la misma línea del paréntesis.
    • Envíos contiguos agrupados: puntos suspensivos + coma + V. lemas enviados con puntos suspensivos y comas vs. solo uno de los lemas + V. lema enviado, en nueva línea.


    Tengo que reconocer que estas decisiones, que tomé a finales del año pasado, condicionaron el hecho de que la mayor parte del tiempo invertido, algo más de dos meses, haya sido en la conversión de los ficheros .html lo que, curiosamente, ha sido justo al contrario que en la vez anterior.

    Me planteé como alternativas bien la conversión de cada uno de los ficheros de lemas por separado bien la concatenación de todos y proceder a la conversión en un único fichero. Considero que la elección de la primera opción fue la acertada pues me permitió refinar las expresiones regulares utilizadas conforme avanzaba y los tiempos en búsquedas/sustituciones globales eran prácticamente inmediatos. De algo sirvió la experiencia de la vez anterior. Con todo, en la penúltima fase del proceso fue necesario efectuar la mencionada concatenación, para la generación del índice y para hacer más cómodo el traslado del contenido a los ficheros que forman el diccionario.

    A continuación relaciono ocultas las más de cincuenta expresiones regulares utilizadas en búsquedas y sustituciones, explicando su uso, por si a alguien le apetece evaluar la naturaleza de mi manía (tengo la impresión de que si existe un cielo para los maníacos perfeccionistas de mierda, me he ganado una plaza en él) y por si alguien encuentra la manera de mejorar o afinar el proceso, que estoy seguro de que la hay. Para mayor abundamiento, diré que el último paso antes de dar como concluido el proceso en un fichero, consistía en repetir la búsqueda de todas las expresiones regulares (aprovechando la caché del editor, que me permitía recorrerlas en orden inverso)... y en muchos casos aparecieron coincidencias no sustituidas.
    Contenido oculto:

    Convertir los ficheros .html al formato específico (se guardó una copia de cada fichero sin extensión html) atendiendo a:
    1. Eliminar cabeceras y etiquetas <html>, <body>, <div><hr/> y <h1>. Quitar el sangrado y convertir todos los &nbsp; en espacios en blanco, tal cual.
    2. Convertir
    <strong><span class="extrafont2">(.*?)</span>(.*?)</strong> en
    <strong>$1´$2</strong> (elementos compositivos diferenciados sin guión).
    3. <span class="extrafont2">-</span>
    en
    (elementos compositivos diferenciados con guión).
    4. <p class="french"><span class="lema"><em><strong>(\w+)\.</strong></em></span>(\.|)( |)
    en
    <p>$1<br/> (lemas con punto al final que son expresiones del latín clásico).
    5. <p class="french"><span class="lema">(.*?)</span>(\.|)( |)
    en
    <p>$1<br/> (conversión de lemas en general. Para las formas complejas de uso exclusivo conviene comparar el número de coincidencias con
    <p class="french"><span class="lema">(.*?)</span>\.( |).
    Si difiere el número de resultados, Se realiza la conversión usando la expresión anterior como búsqueda y se prueba a convertir
    <p class="french"><span class="lema">(<strong>.*?)\. (.*?)</span> (~\. |\w+ ~\.|)( |)loc\.
    en
    <p>$1</strong><br/><strong>$2$3<br/>loc.
    Los que queden se revisan "manualmente". (ej. acomplexionado. Bien). En la práctica supuso un medio para encontrar gran parte de los fallos de lemas que tenían parte de la definición separada en un lema distinto).
    6. <span class="extrafont-it">(.*?)</span>
    en
    $1 (quitar clases debidas a caracteres de otros idiomas. Conviene ejecutarla ejecutarla más de una vez; dos veces como mínimo).
    7. <br/>\(Tb\. <span class="sans(|-b)">(.*?)</span>(|.*?) <span class="extrafont3">♦</span> (.*?)\)\.( |)
    en
    <br/>Tb. <strong>$2</strong>$3<p style="background:lightgray;">$4.</p> (variantes del lema).
    8. <br/>\(Tb\. <span class="sans(|-b)">(.*?)</span>(.*?)\)\.( |)
    en
    <br/>Tb. <strong>$2</strong>$3.<br/> (numeración de variantes del lema).
    9. (|\.)(| )\(Tb\. (.*?|)<span class="sans(|-b)">(.*?)</span>(.*?)\)\.( |)
    en
    $1<br/>Tb. $3<strong>$5.</strong>$6<br/> (resto de variantes en una forma compleja del lema).
    10. <br/>\((.*?)\)\.( |)
    en
    <p style="background:lightgray;">$1.</p> (origen de los lemas. En ocasiones encontró resultados en la última comprobación después de otras sustituciones).
    11. (</span>|</em>|</strong>)\. \((.*?)\)\.( |)
    en
    $1.<p style="background:lightgray;">$2.</p> (orígenes de los lemas que se han quedado atrás. En la práctica detectó fallos provenientes del fichero html original y necesitaron resolución manual en casi todos los casos).
    12. (<p style="background:lightgray;">.*?) <span class="extrafont3">♦</span> (.*?)</p>
    en
    $1<br/>$2</p> (modelos de conjugación y otras aclaraciones en los orígenes de los lemas. En algún caso habría debido pasarse más de una vez, pero eso se detectó en la comprobación final).
    13. (\.|) <span class="extrafont3">♦</span> (.*?)<br/>
    en
    $1<p style="background:lightgray;">$2</p> (orígenes de los lemas que se quedaron atrás por la conversión de los Tb. (variantes). (ejs. adiós, boya2)).
    14. (\.|) <span class="extrafont3">♦</span> (.*?)</p>
    en
    $1<br/>$2</p> (resto de modelos de conjugación y otras aclaraciones en los orígenes de los lemas. En algún caso habría debido pasarse más de una vez, pero eso se detectó en la comprobación final).
    15. \(<span class="extrafont3">ǁ</span>
    en
    (para indicación condensada de acepción de otro lema).
    16. <span class="extrafont3">ǁ</span><span class="extrafont3">■</span>
    en
    <span class="extrafont3">■</span> (evitar duplicidad de clases que se sustituyen con la misma (y única) expresión regular. (puede no haber ninguna). (ej. ají))
    17. (\.|) <span class="extrafont3">ǁ</span> <span class="sans-b">(.*?)</span>
    en
    $1<br/><strong>$2</strong> (acepciones de la misma categoría gramatical, cada una en una línea).
    18. </span>\.( |)
    en
    </span><br/> (introducir salto de línea en las formas complejas con el punto después del </span>).
    19. ~\.</span>( )
    en
    ~</span><br/> (introducir salto de línea en las formas complejas con el punto antes del </span>).
    20. (\.|) <span class="extrafont(|3)">(<strong>|)☐(</strong>|)</span> (~ |)<span class="sans">(.*?)</span>
    en
    $1<br/>$5$6 (salto de línea y aislar virgulillas (si las tienen, sino simplemente salto de línea) en el segundo bloque de las formas complejas).
    21. (\.|) <span class="extrafont">(<strong>|)☐ (.*?)(</strong>|)(.*?)</span>
    en
    $1<br/>$2$3$4$5 (salto de línea en el resto de los que tienen (o no) virgulilla en el segundo bloque de las formas complejas).
    22. (\.|) <span class="extrafont3">(ǁ|■|☐)</span> (~ |)<span class="sans">(.*?)</span>
    en
    $1<br/>$3$4 (nueva línea en: virgulillas que sustituyen a lemas, paso de acepciones a formas complejas y para el segundo bloque de formas complejas.
    Compruébese (\.|) <span class="extrafont3">ǁ</span> (.*?)<span class="sans">(.*?)<strong>(.*?)</strong>(.*?)</span>
    y sustitúyase por
    $1<br/>$2<strong>$3$4</strong>$5 para el caso en que se dupliquen las negritas).
    23. <br/><span class="extrafont3">(ǁ|■|☐)</span> (~ |)<span class="sans">(.*?)</span>
    en
    <br/>$2$3 (resto de nueva línea en: virgulillas que sustituyen a lemas, salto de acepciones a formas complejas y segundo bloque de formas complejas, que han quedado tras un salto de linea por culpa de sustituciones anteriores).
    24. (\.|) <span class="extrafont3">■</span> (~ |)<span class="sans">(.*?)</span>
    en
    $1<br/>$2$3 (resto de casos que tienen virgulilla en las formas complejas).
    25. <span class="sans">(.*?)</span>
    en
    $1 (expresiones junto a virgulillas que se hayan quedado atrás. En la práctica este también resultó un mecanismo efectivo de localización de errores en el fichero original).
    26. (\.|) <span class="extrafont3">(⚫|⚪|ǁ)</span> (.*?)<span class="sans-b">(\d{1,2}\.)(.*?)</span>( |)
    en
    $1<br/><strong>$4</strong> $3$5 (salto de línea en categoría y subcategoría gramatical (y nueva línea en acepciones de la misma categoría gramatical) además de negrita en la numeración de acepciones y cambio de orden número de acepción <→ categoría o subcategoría gramatical).
    27. (</p>|<br/>)([\w\. ]+)<span class="sans-b">(\d{1,2}\.)(.*?)</span>
    en
    $1<strong>$3</strong> $2$4 ( poner negrita en la numeración de acepciones además de cambio de orden número de acepción <→ categoría gramatical).
    28. <br/><span class="extrafont3">(⚫|⚪|ǁ)</span> (.*?)<span class="sans-b">(\d{1,2}\.)(.*?)</span>( |)
    en
    <br/><strong>$3</strong> $2$4 (resto de categorías y subcategorías gramaticales y negrita en la numeración de acepciones más cambio de orden número de acepción <→ categoría o subcategoría gramatical, que han quedado tras salto de línea debido a sustituciones anteriores).
    29. Revisar el resto de <span class="sans-b">(.*?)</span> que queden. La mayor parte se podrán convertir mediante sustitución de
    (\.|) (loc\. |locs\. |adj\. |expr\. |exprs\. |[m|f]\. |interj\. )(verb\. |adv\. |sust\. |verbs\. |advs\. |susts\. |adj\. |adjs\. |prepos\. |)<span class="sans-b">(\d{1,2}\.)(.*?)</span>
    en
    $1<br/><strong>$4</strong> $2$3$5 (habrá que modificar manualmente el resto como en: hacer ~ a alguien (aire) y cortar las ~ a alguien y dar ~ a alguien (alas)).
    30. Convertir (</p>|<br/>)<span class="extrafont3">➤</span>( |)
    en
    $1 (para los envíos con salto de línea previo (provenientes de otras sustituciones)).
    31. ( )<span class="extrafont3">➤</span>( |)
    en
    <br/> (envíos sin salto de línea previo).
    32. ( |)~ (<strong>|)(e|)s(\s|,|\.|</strong>)
    en
    $2$1~$3s$4 (plural con final en vocal o consonante de las formas complejas).
    33. V\. conjug\. en APÉNDICE
    en
    Conjug. modelo (modelo de conjugación de verbos regulares).
    34. V\. conjug\. actual en APÉNDICE
    en
    Conjug. Modelo actual (modelo de conjugación de verbos irregulares).
    35. <p><em><strong>(.*?)</strong></em>
    en
    <p><strong><em>$1</em></strong> (facilitar la extracción de lemas en la hoja de cálculo en aquellos provenientes de otras lenguas que no tienen adaptación).
    36. ~
    en
    <u>~</u> (preparar la virgulilla para ser sustituida por el lema -subrayado- en la forma compleja).
    37. <span class="extrafont">(.*?)</span>
    en
    $1 (aislar términos en griego, latín o árabe y símbolo del copyright).
    38. ([^c]|tc)\. loc(s|)\.( )
    en
    $1<br/>loc$2.$3 (saltos de línea de formas complejas no distinguidos por clase css).
    39. Comprobar que no han quedado <span>, </span> y <span . En la práctica detectó clases no convertidas por las expresiones anteriores por motivos que no siempre quedaron claros.
    40. Convertir </strong>( |)<strong>
    en
    $1 (eliminar los etiquetados en negrita consecutivos, insertados en algunas sustituciones).
    41. ([^\.])\.\.([^\.])
    en
    $1.$2 (eliminar dobles puntos introducidos en algunas sustituciones (por englobar todos los posibles casos) evitando la conversión accidental de puntos suspensivos).
    42. \s\s en \s (eliminar los dobles espacios introducidos en los pasos 26, 27 y 28).
    43. </p>\n\n<p> en </p>\n<p> , <br/><br/> en <br/> y <br/></p> en </p> (eliminar líneas en blanco innecesarias).

    Para cambiar la virgulilla, previamente subrayada, por el lema se dan varios casos:
    44. Si el lema no tiene género: Convertir <p><strong>(<em>|)([\w\s]*)(</em>|<sup>[\d\.]*</sup>|)</strong>(.*?)~
    en
    <p><strong>$1$2$3</strong>$4$2. Se debe repetir hasta que no localice ninguna virgulilla pues hay lemas con muchas de ellas.
    45. Si el lema tiene género:
    a) Convertir <p><strong>([\w]+)(\w{1,})(o)(<sup>\d</sup>|), (\2)(a)</strong>(.*?)([\w]*)(ión|a|ad|dumbre|[t|s|x]is)(</strong>|)(s|) <u>~
    en
    <p><strong>$1$2$3$4, $5$6</strong>$7$8$9$10$11 <u>$1$5$6 (forma compleja femenina con genero (o-a) en las dos últimas letras (penúltima consonante) y el lema va al final. Se debe revisar cada conversión pues no es posible abarcar todas las excepciones. Repetirlo hasta que no quede ninguna virgulilla).
    b) <p><strong>([\w]+)(\w{1,})(o)(<sup>\d</sup>|), (\2)(a)</strong>(.*?)(</strong>|)(s|)( |)<u>~</u> (<strong>|)([\w]*)(ión|a|ad|dumbre|[t|s|x]is)(,|</strong>)
    en
    <p><strong>$1$2$3$4, $5$6</strong>$7$8$9$10<u>$1$5$6</u> $11$12$13$14 (forma compleja femenina con genero (o-a) en las dos últimas letras (penúltima consonante) y lema al principio. Se debe revisar cada conversión, aunque no suele haber muchas de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    c) <p><strong>([\w]+)(\w)(o), (a)</strong>(.*?)([\w]*)(ión|a) <u>~
    en
    <p><strong>$1$2$3, $4</strong>$5$6$7 <u>$1$2$4 (forma compleja femenina con genero (o-a) en las dos últimas letras (penúltima vocal) y lema al final. Se debe revisar cada conversión, aunque son muy pocas de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    d) <p><strong>([\w]+)(ó|o)(l|n|r), (\3)(a)</strong>(.*?)([\w]*)(ión|a|ad)(</strong>|) <u>~
    en
    <p><strong>$1$2$3, $4$5</strong>$6$7$8$9 <u>$1o$4$5 (forma compleja femenina con género (ol|ón|or-ola|ona|ora) y lema al final. Se debe revisar cada conversión; también son muy pocas las de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    e) <p><strong>([\w]+)(é)(s), (\3)(a)</strong>(.*?)([\w]*)(ión|a|ad)(</strong>|) <u>~
    en
    <p><strong>$1$2$3, $4$5</strong>$6$7$8$9 <u>$1e$4$5 (forma compleja femenina con género (és-esa) y lema al final. Se debe revisar cada conversión, aunque raramente aparecerá alguna de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    f) <p><strong>([\w]+)(á)(n), (\3)(a)</strong>(.*?)([\w]*)(ión|a|ad)(</strong>|) <u>~
    en
    <p><strong>$1$2$3, $4$5</strong>$6$7$8$9 <u>$1a$4$5 (forma compleja femenina con género (án-ana) y lema al final. Se debe revisar cada conversión, aunque solo ocasionalmente aparecerá alguna de este tipo. Repetirlo hasta que no quede ninguna virgulilla).
    g) <p><strong>([\w\s]*)(<sup>\d</sup>|), ([\w]*)</strong>(.*?)( |)<u>~ en <p><strong>$1$2, $3</strong>$4$5<u>$1 para forma compleja masculina y lema al final o al principio. Se debe revisar cada conversión, con especial cuidado cuando la forma compleja admita los dos géneros (m.y f.) . Repetirlo hasta que no quede ninguna virgulilla).

    Quizá podría haber intentado llevar a cabo la conversión programándola. No obstante, pronto me di cuenta de que ello me habría hecho perder rápidamente el hilo de la correcta generación de los lemas convertidos: la sustitución de las virgulillas cuando el lema tenía género he tenido que hacerla revisándolas casi una a una, por poner un ejemplo.

    Por otro lado, el haber hecho el trabajo de esta manera me ha permitido detectar en el fichero original del orden de trescientos veinte errores, que si bien porcentualmente suponen un misérrimo 0’3% de los más de noventa y un mil lemas, no deja de ser un número apreciable en sí mismo. Lo cierto es que en el formato original no son demasiado problemáticos, pues lo lemas se consultan de manera continua. En cambio en un diccionario al que se accede por índices y deplazamientos, no se encontrarían algunos lemas y otros aparecerían incompletos. Tengo muy claro que se han quedado errores sin corregir pues los dos últimos los detecté en la última fase de revisión (en la que miro el primer y último lema de cada fichero del formato Nolim/Bookeen) y de seguro que yo he introducido más de uno, sobre todo en saltos de línea innecesarios. Todo reporte de errores lo agradeceré enormemente. Relaciono ocultos los errores encontrados.
    Contenido oculto:

    a) Lemas unidos que deben ir separados (se consignan a continuación del →) la coma separa cada par (o trío, que alguno hay):

    abertura→ abertzale, alcor→ Alcorán, aleación→ alea iacta est, allegar→ allegretto, amprar→ ámpula, anacrusa→ ánade, anfitrión→ ánfora, angaripola→ ángaro, angazo→ ángel, anillo→ ánima, animizar→ ánimo, antracosis→ ántrax, año2→ -año, aparentemente→ a pari, apetitoso→ ápex, aquivo→ a quo, ar→ -ar, ardite→ -ardo, argollón→ árgoma, aulario→ áulico, bodrio→ body, buseta→ bushido, cazuz→ CD, cefalea→ -cefalia, cultura→ -cultura, desarrollable→ desarrollar, datilera→ datismo, deverbativo→ de verbo ad verbum, domingo1→ Domingo2, edetano→ edición, entelado→ entelar, enlabiar1→ enlabiar2, enridar1→ enridar2, enronchar→ enronquecer, ensuciamento→ ensuciar, entendidamente→ entendido, enterrar→ entesado, entoldamiento→ entoldar, entrenamiento→ entrenar, entuerto→ entullecer, enviciamiento→ enviciar, epidérmico→ epidermis, epistémico→ epistemología, epistemólogo→ epístola, equipero→ equipo, erogación→ erogar, escalfamiento→escalfar, escamar→ escambrón, escamoteador→ escamotear, escapular2→ escapulario, escarolar→ escarótico, escarpado→ escarpadura, escirroso→ escisión, escociano→ escocimiento, escogencia→ escoger, escorbútico→ escorbuto, escribir→ escriño, esfera→ esferal, esferoide→ esferómetro, esfigmograma→ esfigmómetro, espadón1→ espadón2, espasticidad→ espástico, espiroqueto→ espita, esquilfe→ esquilimoso, estacha→ estache, estación→ estacional, estancación→ estancada, estandarizar→ estándar, estangurria→ estannífero, estero1→ estero2, estimuloso→ estinco, estío→ estiómenar, estipendio→ estípite→ estipiticar, estragar→ estrago, estrucioniforme→ estructura, etarra→ etcétera, etilo→ étimo, excitación→ excitado, expiación→ expiar, exponencial→ exponente, extracto→ extractor, extrañamiento→ extrañar, fabla→ fablable, factitivo→ facto, fajol→ fajón, fambre→ fame, fan→ fanal, fatigante→ fatigar, ferrarés→ ferre, filia→ filiación, filmográfico→ filmología, florecido→ floreciente, fono→ fonocaptor, fórmico→ formidable, foto→ fotoalergia, fraga1→ fraga2, gineta→ gin-fizz, grija→ grill, halitosis→ hall, hardido→ hardware, hrrusca→ hertz, hincar→ hincha, lapsus→ lapsus calami→ lapsus linguae, lauroceraso→ laus Deo, leída→ Leiden, leísta→ leitmotiv, lepasil→ lepe, loco2→ loco citato, motu proprio→ mousse, nocional→ nocir, oponer→ oponible, paceño→ pacer, parsi→ parsimonia, partero→ parterre, patrulla→ patrullaje,pavana→ pavada, paviano→ pávido, pelaza→ pelazga, petalismo→ pétalo, petral→ petraria, picazuroba→ piccolo, píceo→ picha, pichear→ pichel, pie→ piedad, pignorable→ pignoración, pirriar→ pírrico1, placiente→ placimiento, plátano→ platea, presupuestario→ presupuesto, pretorial→ pretorianismo, procedente→ proceder1, promedio→ pro memoria, pronunciamento→ pronunciar, propiedad→ propienda, provincial→ provinciala, pulchinela→ pulcritud, quad→ quadrivium, que→ qué, recabita→ recadar, recaudero→ recaudo, rejero→ rejileto, reprehensible→ reprehensión, rinoceronte→ rinofaringe, románico→ romanilla, salival→ salivar, sandino→ sandio, -sco→ scooter, self-service→ sellado, silbante→ silbar, tabicón→ tábido, tabulador→ tabula gratulatoria, tajalápiz→ tajamar, talegazo→ talega, talero→ tálero, tantrismo→ Tantum ergo, tecnecio→ -tecnia, templo→ tempo, ternurista→ tero, tico→ 'tico, tirintio→ tirio, tortel→ tortellini, tortillo→ Tortis, trivium→ -triz, -uelo→ uf, ultramarino→ ultramaro, unamuniano→ unánime, usarcé→ usarced, vago2→ vagón, verdemontaña→ verdeo, vínculo→ vindicación, vinilo→ vino, viz- → vizcacha, vocabulario→ vocabulista,

    b) Definiciones pertenecientes a un lema que se tratan como lema separado (se consigna la parte de la definición -con puntos suspensivos acortando las demasiado largas- que hubo de ser unida a continuación de ←) la coma separa cada par (o trío, que alguno hay):

    abuela← no necesitar o no tener..., ambarino← abelcoso, amonestar← amonestado, arador← arador de la sarna, arbitrero← arbitrista, aristocrático← perteneciente o relativo a la aristrocracia, asentadillas← a asentadillas, ballet← ballet,bocado← no tener alguien para un bocado, cochero← Sitio donde se encierran los coches y autobuses, chupa← como chupa de dómine, corriente← o contra la corriente, derm-← dermo-. Dermitis., dermat-← dermo-. Dermatitis., dermato-← dermo-. Dermatología., despacio← despacio. U. m. en And., Bol., Col., Ec. y R. Dom., disciplinante← disciplinante que sacaban a la vergüenza...← disciplinante que sacaban a azotar públicamente por haber..., ejemplificar← ejemplarizar., estructurante← estructurador. Un factor estructurador, espejo← espejo ustorio, espiritual← espiritual negro, exarco← exarca.,farmacopola← farmaceútico (persona que ...), filelí← fililí (tela ligera), fruto← frutos naturales de los fondos rústicos, imponer← ...a cosa , -morfo← elem. compos. , nacascolo← dividivi (árbol) , naco1← susto (impresión repentina), nao← nave (barco), natividad← natividad de jesucristo, nave← naveta (vaso de incensar), necio← neciamente., neumotórax← neumotórax producido artificialmente..., nipos← caudal (hacienda), numeral← numeral fraccionario, nodo← nodo en el que el planeta..., ñoqui← ñoqui hecha con sémola y que, ..., ñor← señor (término de cortesía), oblato← oblatos u oblatas, ...,obrería← obrería (renta), occitano← occitano (lengua), ochocientos← octingentésimo (que sigue en orden...),ocotero← ocote1. 2. f. Méx. ocotal., octavo← octava. 5. Librito que contiene el..., oesudoeste← oesudoeste., okupa←okupa.,ofuscamiento←ofuscación.,oliva← aceite de oliva, omaguaca←omaguacas.,onda← ondas radioeléctricas..., oponer← opuesto. tr. Poner algo contra..., óptico← óptica. 5.f. Parte de la física...,oriental← Oriente (Asia y regiones inmediatas), origenismo.← origenismo., osornino.← osorninos., otitis← otitis que no pasa más allá de..., página ← páginas. 2.Inform. sitio web..., parafrástico← Perteneciente o relativo a la paráfrasis, pascuense ← pascuenses. 3.Perteneciente o relativo al pascuense (ǁ lengua)., patatín← coloqs. Argucias, disculpas del que no..., paleógeno← Paleógeno., paupérrimo← pobre,pekinés← pekineses. 3. m. y f. perro pekinés., pelagianismo← pelagianismo., pelitre← pelitre., pértiga← pértiga 3. desus. pértica., petigrís← petigrís., péndulo← péndulo que se hace de metales de dilatación diferente..., pial← peal,piano1← piano de tamaño mediano y forma alargada..., pífano← pífano., pintón← pintón., pillería← pillo2 3. coloq. pillada., pitajaya← pitahaya., planetario← planetario. espacio planetario, poetría← poesía., popayanejo← popayanejos., poronguero2← porongueros., portugués← portugueses. carabela portuguesa, práctico← práctica. 2. Dicho de un conocimiento: Que..., presado← presado., proverbio← proverbio (refrán), promiscuo← promiscua., química← química de los compuestos que contienen..., recabdar← recabar (recoger, recaudar, guardar), recomponer← (...recompuesto)., reprehensible← reprensible,repulgue← repulgo (borde labrado de las empanadas), retroacción← retroactividad. retroactividad de la quiebra,..., resunta← resumen., romance← romance que se compone de versos..., resurrección← resurrección de Jesucristo., sabidor← sabio (que posee la sabiduría), saboyano← saboyanos. 3. f. Pastel, especie de bizcocho empapado..., sacramento← sacramento eucarístico,sacro← sacro, en la parte posterior de la pelvis, sajón← sajones (individuo de un pueblo germánico),salteño← salteños 3. f. Arg. y Bol. Empanada típica con relleno de..., salubre← (... salubérrimo)., samoyedo← samoyedos. 3. Perteneciente o relativo al..., sanedrín← sanedrín. 3. Junta o reunión para tratar de..., sangriento← sangrienta (que se goza en derramar sangre), sanjuaneño← sanjuanero. 2. Natural de Río San Juan,..., sanmigueleño← sanmigueleñas. 3. Natural de San Miguel, ciudad del Ecuador..., santero← santería, (sincretismo entre creencias africanas y la religión católica), sapiencia← sabiduría., sauce← sauce. sauce cabruno. m. Árbol..., sedeño← sedas, (cerdas), sefardí← sefardíes 3. judeoespañol (ǁ perteneciente a la variedad del español)..., selvaje← salvaje., seña← señal(ǁ cantidad que se adelanta en algunos contratos), séptimo← séptima ascendente o descendente en la escala., serbio← serbios. 3. Perteneciente o relativo al serbio (ǁ lengua)..., serbocroata← serbocroata. Léxico serbocroata..., serpentino← serpentín (ǁ instrumento de hierro), setecientos← septingentésimo (ǁ que sigue en orden al sexcentésimo nonagésimo noveno)., sexto← sexta hora temporal, a mediodía, hasta... ← sexta que comienza por el as..., sevillano← sevillanos. 3.</strong> f. Palo flamenco propio de Sevilla y..., sículo← sículos. 3. Perteneciente o relativo al sículo (ǁ lengua)..., sigla← siglas en ONU, silbante← sibilante (ǁ sonido fricativo o africado), sintagma← sintagma que tiene por núcleo un verbo., sobijar← sobar (ǁ manosear), sobreponer← ...sobrepuesto) tr., sofreír← ...sofreído) tr.,solución← solución de continuidad., sosa← sosa, muy ricas en sales alcalinas y empleadas..., suboficial← suboficial, inmediatamente superior..., surtidero← surtidor (ǁ chorro de agua), sucesión← sucesión que tiende a un límite., tortería← tortas (ǁ panecillos)., traillar← traílla (ǁ instrumento agrícola)., triángulo← triángulo que tiene los tres ángulos agudos., tuerce← torcedura (ǁ acción de torcer)., tuse← tusa (ǁ crines del caballo)., unisón← mismo sonido que otra cosa., utensilio← Objeto fabricado que se destina a un uso manual y doméstico., unitivo← unir. Tejido unitivo., zancadilla← o pretende derribar a alguien de un puesto o cargo., zarandear← por los hombros o los brazos moviéndolo con violencia.

    c) lemas repetidos sin definición: epodo

    d) otros casos:

    • caballo d buena boca;
    • buccino (se coló una clase indentleft1-center desconocida hasta ese momento);
    • ha cerse ~ (aire);
    • en los dos archivos correspondientes a la letra "d" no se incluyó el cambio de estilo "sans" tras el de "extrafont3", para los casos de los símbolos "ǁ", "■" y "☐" (acepciones en formas complejas, sin numerar, y con cambio de categoría y subcategoría gramatical);
    • también en los archivos de la letra "d" se cambió el orden del punto tras número de acepción, con el cierre de la etiqueta "span" (este me dio un par de días de dolores de cabeza hasta que lo localicé). Luego apareció el mismo fallo en la letra "m";
    • otros errores tipográficos, discordancias y de cierre de etiquetas html que no he consignado por considerarlos errores menores y porque, en realidad, no son detectables en la consulta del diccionario en su versión electrónica original, aunque sí en la conversión realizada.


    La naturaleza de los errores encontrados me lleva a establecer dos hipótesis:

    • La conversión desde el formato original (¿la base de datos on-line?) se hizo mediante herramientas automatizadas, pues los errores siguen un patrón que intuyo, pero que no he sido capaz de determinar con exactitud.
    • El trabajo se ha distribuido en varios equipos/personas pues los errores aparecen en ficheros de determinadas iniciales y en otros no.

    Y también entiendo ahora por qué la academia parece resistirse a indicar el número de lemas exactos en cada diccionario. Durante el proceso este número ha ido variando, según encontraba y corregía fallos, hasta los noventa y un mil cuatrocientos cincuenta y ocho (91.458) obtenidos tras la última revisión.

    Estos fallos también los he corregido en el fichero original, que pongo a vuestra disposición, previa solicitud por privado.

    Para la penúltima parte del proceso, extracción de índices y desplazamientos, ya tenía adelantado bastante el trabajo, fruto de la conversión que hice de la vigésimo segunda edición, si bien he optimizado y diversificado las hojas de cálculo con el fin de hacerlas menos “pesadas” a la hora de inserción masiva de datos. Además he reutilizado el fichero comprimido, editando los ficheros de su interior y añadiendo los diez resultantes del mayor número de lemas de esta edición. También pongo el procedimiento oculto.
    Contenido oculto:


    Concatenar el contenido de los ficheros HTML en uno único (cat ?_00??_000? > fichero_concatenado) e incluir su contenido en una columna de una hoja de cálculo.
    En dicha hoja se extraen en columnas diferenciadas, mediante fórmulas:
    a1) Lema con superindice a continuación, si lo tiene (eliminando formato de superíndice) y sin desinencia de género, si la tiene.
    b1) Longitud de la definición en caracteres (util para la comparación con la longitud en bytes).
    c1) Estimación del número de ficheros de 256 Kb. que se generarán.
    d1) Columna de comparación de la extracción del lema con la de la fórmula de extracción, por si hay errores en la fórmula o en el pegado de lemas (se detectaron algunos fallos de partes de definiciones de lemas, separadas como lema independiente, que se habían escapado en el proceso de conversión).
    En el fichero de texto concatenado se sustituyen los </p><p> por </p>\n<p> para homogeneizar los finales y principios de fichero (que no tienen el salto de linea) con el resto de definiciones.
    Se aplica el comando:
    while read line; do wc -c; done < fichero_definiciones > fichero_bytes_por_definicion
    En una nueva hoja de cálculo (o fichero para mejor tratamiento).
    a2) Se inserta el contenido de fichero_bytes_por_definicion en una hoja y se aplica fórmula para obtener la longitud de cada línea (el resultado del comando las da acumuladas). ** Téngase en cuenta que el primer resultado se corresponde con la longitud en bytes del segundo lema. Para obtener la del primero puede hacerse manualmente o restando la longitud total en bytes del fichero del primer resultado obtenido.
    b2) En otra hoja se pasa la columna de resultados por línea junto con la columna de los lemas y la de la longitud en caracteres de cada lema, extraída de la hoja de cálculo inicial, esta última con el fin de comparar resultados.
    Tras hacer comprobaciones con un número representativo de lemas en la página https://mothereff.in/byte-counter, que da los resultados en caracteres y bytes se demuestra que los resultados obtenidos con el comando wc exceden en 1 byte el número real de cada definición (debido al salto de línea, creo). Es importante tener esto en cuenta pues de no aplicar correctamente los valores, el desplazamiento de la base de datos de índices dará resultados erróneos. La columna con los bytes corregidos será la que se traslade a un nuevo fichero de hoja de cálculo.
    En otro fichero de hoja de cálculo:
    a3) Se pegan las columnas de lemas y longitud en bytes de la hoja anterior.
    b3) Mediante fórmulas se calculan en otras columnas las longitudes acumuladas para aquellos lemas con más de un origen, ya que solo tendrán una entrada en el fichero de índices.
    c3) En otra hoja se pegan la columna de lemas y la de los desplazamientos acumulados, que luego se tratarán con expresiones regulares en el editor.
    Una vez efectuado el tratamiento mediante la búsqueda sustitución con las expresiones regulares:
    1. Convertir [\w\- ]+\t0\n
    en
    nada (elimina lemas que no tienen acumulado el desplazamiento).
    2. ([\w\- ]+)\d{1}(\t\d+\n)
    en
    $1$2 (deja los lemas con desplazamiento acumulado sin superíndice).
    se obtiene una lista de dos columnas con los lemas "repetidos" eliminados y sin superíndices y los desplazamientos acumulados, que se pegan en otra hoja del mismo fichero donde:
    a4) se añaden columnas necesarias para la base de datos de índices
    b4) se añaden otras columnas para facilitar la posterior comprobación del último lema de cada fichero y el primero del siguiente (detectan el cambio de fichero) y así asegurar que el índice está bien generado.
    Se añaden al índice las entradas correspondientes a las inflexiones que ya estaban guardadas en otra hoja, provenientes del trabajo con el diccionario de la 22ª edición.
    Se reutiliza la base de datos de índices y se pegan los datos de la hoja reseñada en el paso a4) con los datos necesarios a la tabla T_Dictindex (previo pegado y de nuevo copiado en el editor, para que interprete correctamente tabuladores y saltos de línea), mediante un editor de bases de datos SQLite para linux (yo he usado "DB Browser for SQLite"). Conviene regenerar el índice sustituyendo la cláusula "COLLATE IcuNoCase" por "COLLATE NOCASE".
    Tras generar la base de datos de índices se traslada el contenido del fichero_concatenado a cada uno de los ficheros que componen el diccionario comprimido, siguiendo las indicaciones de la hoja de cálculo del paso b4). Se añadieron diez nuevos ficheros debido al incremento de lemas en esta edición.

    Con respecto a las inflexiones, me temo que se han quedado un tanto anticuadas, pues los nuevos lemas añadidos en esta edición no tienen sus correspondientes inflexiones, aunque estas afecten solo a aquellos nuevos lemas que sean verbos o admitan plural. Espero que el motor de búsqueda sea capaz de localizarlos por proximidad léxica, llegado el caso.

    Finalmente se consultan el primer y último lema que está en cada fichero interior, para comprobar si el índice está bien generado. Para ello el libro utilizado como referencia fue... el propio diccionario original en formato epub. En esta fase comprobé que el símbolo “ǁ”, usado para la indicación condensada de acepción de otro lema, no era interpretado correctamente por el Nolim, de manera que tuve que sustituirlo por un doble “|” que la verdad es que se aprecia bastante bien y además tuve la suerte de que ocupa lo mismo que el otro, por lo que no hubo de regenerarse el índice por aumento de los desplazamientos.

    Tengo que reconocer que, a pesar de los presumibles errores y mi manía perfeccionista, estoy bastante satisfecho del resultado y hoy por hoy cuento con un diccionario casi definitivo: actualizado, legible y bastante de acuerdo a mis gustos. El día que se disponga de tinta electrónica a color, será el momento de adaptarlo con mucha más fidelidad a la versión en línea del diccionario de la RAE, que es el que más me entusiasma y en el que no he detectado error alguno (aunque en consultas de comparación encontré alguna virgulilla aún sin convertir, pero no me acuerdo en qué lema). Sin más ahí va el enlace.

    https://drive.google.com/open?id=1O9...o57t9wpjgDAm7m

    Insisto en que agradeceré el reporte de errores así como el resultado de la puesta en práctica del fichero y las eventuales conversiones a otros formatos, quien así lo desee.

    Saludos muuuuuy cordiales.
    Que currazo impresionante. Una versión stardict estaría genial.

  9. El Siguiente Usuario Agradeció a elchamaco Por Este Mensaje:


  10. #96
    Veteran@ en el foro Avatar de negatus
    Fecha de ingreso
    16 ago, 10
    Mensajes
    1,036

    Predeterminado Re: diccionarios traductores para Nolim

    Cita Iniciado por elchamaco Ver mensaje
    Que currazo impresionante. Una versión stardict estaría genial.
    Pues estoy intentando la conversión pero penelope me da errores en la salida. A ver si averiguo el motivo.

  11. #97
    Veteran@ en el foro Avatar de elchamaco
    Fecha de ingreso
    18 may, 11
    Ubicación
    Villarriba
    Mensajes
    1,621

    Predeterminado Re: diccionarios traductores para Nolim

    Cita Iniciado por negatus Ver mensaje
    Pues estoy intentando la conversión pero penelope me da errores en la salida. A ver si averiguo el motivo.
    A mi desde la version de bookeen también pero probé en el curro y no se si era por eso o qué, también hice pruebas con otro que he visto en version kobo en ingles y nada. Así que pensaba que era problemas con lo que tengo instalado allí.Aunque bueno el de kobo creo que no se puede convertir integro a nada parece que solo pilla indice de palabras.

  12. #98
    Veteran@ en el foro Avatar de negatus
    Fecha de ingreso
    16 ago, 10
    Mensajes
    1,036

    Predeterminado Re: diccionarios traductores para Nolim

    Tal y como preveía, el uso del diccionario ha hecho aparecer varios errores: algunos en las inflexiones, por índices no actualizados por mi parte tras corregir un lema, y otros provenientes de la versión original. En este caso he detectado que los lemas hebrero1 y hebrero2 estaban unidos en el primero, lo que tras mis transformaciones provocaba un mal cálculo de los índices a partir de él hasta el fin del fichero que los contiene; y se había partido la definición del lema "salvajino" añadiendo "silvestre", que forma parte de ella. Hay alguna otra cosilla menor que no merece la pena reflejarse.

    He actualizado la versión (intuyo que no será la última) y dejo el enlace:

    https://drive.google.com/open?id=1O9...o57t9wpjgDAm7m

    Un afectuoso saludo.

  13. Los Siguientes 2 Usuarios Agradecieron a negatus por Este Mensaje:


  14. #99
    Veteran@ en el foro Avatar de elchamaco
    Fecha de ingreso
    18 may, 11
    Ubicación
    Villarriba
    Mensajes
    1,621

    Predeterminado Re: diccionarios traductores para Nolim

    Gracias a negatus que me ha pasado los lemas y las inflexiones (que paciencia, jejeje ) he hecho una conversión para stardict del diccionario rae 23ª edición. Además he mejorado un poco las inflexiones mezclando con las de la versión del rae 22 de kindle. Ahora ando muy pillado pero tengo intención de irlo mejorando en algún momento, porque al venir de la versión epub este no trae enlaces dentro de las definiciones a otras palabras del diccionario. Además tengo en proyecto mejorar el tema de inflexiones.

    Esta listo para usar en goldendict o fora para ereaders android. Ojo que lleva inflexiones, en las implementaciones de stardict de boyue u onyx para la aplicacion de diccionarios preinstalada pasa del fichero de inflexiones y sólo encontraría el lema principal, por ejemplo amar, pero no amado, amados, amadas, etc. Koreader creo que si las pilla.

    https://www.mediafire.com/file/dtbdb...gatus.rar/file

    Cualquier cosa rara comentadlo porque lo he convertido a toda hostia, sin demasiados miramientos. :-"

  15. Los Siguientes 3 Usuarios Agradecieron a elchamaco por Este Mensaje:


  16. #100
    Veteran@ en el foro Avatar de negatus
    Fecha de ingreso
    16 ago, 10
    Mensajes
    1,036

    Predeterminado Re: diccionarios traductores para Nolim

    Tras un verano de lectura y compulsivas consultas al diccionario, esto me ha servido para encontrarle un buen número de errores, algunos debidos a mi codificación y otros del propio diccionario original.

    Si bien es cierto que en su gran mayoría eran cuestiones más bien relacionadas con la visualización, ha habido bastantes que, o bien impedían ver el contenido completo del lema, o no podían ser localizadas.

    Aprovecho este comentario "número redondo" para notificaros que he actualizado todos los ficheros: diccionario original, diccionario en formato Nolim (Bookeen) y fichero de lemas (este va para elchamaco).

    Aunque estoy seguro de que todavía tendrá errores, lo cierto es que ahora es un diccionario mucho más depurado y casi sin "aberraciones" visuales.

    Aprovechad para actualizarlo.

    Os recuerdo el enlace:

    https://drive.google.com/open?id=1O9...o57t9wpjgDAm7m



    Un abrazo.

  17. Los Siguientes 5 Usuarios Agradecieron a negatus por Este Mensaje:


Temas similares

  1. Jailbreak para Nolim HD+ de Carrefour
    Por Freeman1975 en el foro Firmwares
    Respuestas: 33
    Último mensaje: 13/08/2023, 22:42
  2. Nolim XL 8 pulgadas.
    Por ttomaslucio en el foro Otros E-readers
    Respuestas: 8
    Último mensaje: 16/11/2016, 18:15
  3. NOLIM de Carrefour
    Por solguill en el foro Otros E-readers
    Respuestas: 6
    Último mensaje: 30/11/2014, 10:39
  4. Nolim, el ereader de Carrefour
    Por Albert F. en el foro Noticias
    Respuestas: 10
    Último mensaje: 03/11/2014, 17:26
  5. Se buscan colaboradores para la web (traductores)
    Por katxan en el foro Cuestiones de la web
    Respuestas: 5
    Último mensaje: 07/05/2009, 21:23

Permisos de publicación

  • No puedes crear nuevos temas
  • No puedes responder temas
  • No puedes subir archivos adjuntos
  • No puedes editar tus mensajes
  •