Yo uso sametypesequence=h que es código html.
Suerte.
Yo uso sametypesequence=h que es código html.
Suerte.
Tienes razón. Esto es lo escribió alguien en github sobre el uso que hacía penelope del parámetro sametypesequence:
The sametypesequence stanza in the ifo file defines, which syntax is used in the definition block. Currently, penelope seems to allow only for m, which treats whatever as plain text. The following types are known to stardict
'm' Word's pure text meaning. The data should be a utf-8 string ending with '\0'.
'g' A utf-8 string which is marked up with the Pango text markup language.
't' English phonetic string. The data should be a utf-8 string ending with '\0'.
'x' A utf-8 string which is marked up with the xdxf language.
'y' Chinese YinBiao or Japanese KANA. The data should be a utf-8 string ending with '\0'.
'k' KingSoft PowerWord's data. The data is a utf-8 string ending with '\0'.
'w' MediaWiki markup language.
'h' Html codes.
'n' WordNet data.
'r' Resource file list.
'X' this type identifier is reserved for experimental extensions.
Pues parece ser un fallo en toda regla. De los que me esperaba que aparecieran.
Primero voy a ver si el fallo es de la conversión o ya está en mi primera versión, aunque sospecho que se trata de lo segundo. Luego veré por qué se ha producido el error, comparándolo con el fichero original del que lo extraje.
Ya te digo algo. Gracias por reportarlo.
Un abrazo.
¡Gracias a tí por el esfuerzo!.
Estoy intentando toquetear un poco con penelope para que a partir de tu diccionario, poder convertirlo en stardict o kobo cambiando algunos indicadores de estilo, pero no puedo instalar penelope 3 por un tema con python y caracteres con acentos en el nombre de usuario en windows ... (cosas de llamarse José :-")
Con penelope 2.0.2 puedo cambiar algunas cosas de forma sencilla cambiando el programa penelope.py como te comenté, pero solo me funciona el paso de formato bookeen a stardict pero no a KOBO y no se por qué, por que de stardict a KOBO si me vá . Sigo con ello ... Cuando tenga algo funcional, lo paso.
Pues revisando, revisando, me he dado cuenta de que el fichero del que partí no distingue de ninguna manera esas acepciones con usos particulares de una palabra, verbo en este caso. Es más, no tengo la menor idea de en cuántas entradas está teniendo el mismo comportamiento, pero presupongo que en muchas. Podría resolverlo bajo demanda, esto es: cada vez que encuentre una, aplicarle la solución. Ahora bien, incluso disponiendo de los ficheros de ayuda de los que me valí originalmente (que los tengo) esto es trabajo de chinos porque al aumentar el número de caracteres utilizado en la entrada, ya sea tanto para poner el salto de línea como para agregarle negritas, aumenta consecuentemente su desplazamiento en la base de datos y, además, hay que arrastrarlo en las que van a continuación y reemplazarlo en las coincidencias de las inflexiones. Hacerlo una vez para cada caso detectado es una barbaridad.
A bote pronto se me ocurren como soluciones:
- Partir de un diccionario RAE igualmente completo, pero que distinga de algún modo estos casos (¿la 23ª edición tal vez?) y aplicarle todo el proceso. No sería rápido, pero se matarían dos pájaros de un tiro.
- Intentar encontrar una forma de distinguir esos casos para aplicar una expresión regular que genere la diferenciación y aplicarle el proceso. La única posibilidad que he observado hasta el momento es que parece tratarse de palabras que comienzan conn minúscula tras un ".", pero no sé si es una regla válida... o me colaría en casos que no son. Investigaré a ver. Como ya adelanto, después de terminar las transformaciones, tendría que repetir el mismo proceso para los desplazamientos y las inflexiones, pero solo sería una vez.
Parece ser que la diversión va a continuar... y yo que me alegro.
Un abrazo
No me parece que esas palabras se consideren acepciones (en goldendict no las encuentra por ellas mismas), y más bien parece que se ha perdido un salto de línea en esos casos (en la mayoría los hace bien).
¿Puedes comprobar si en tu diccionario de origen aparecen las palabras del ejemplo con salto de línea o no?. En los diccionarios minirae y rae de jpalacios si hace los saltos en esas palabras (aunque al mirar el fichero dict es un poco engañoso, ya que después es el fichero de indexación es el que supuestamente te debe decir dónde empieza y donde acaba cada párrafo, ¿no?).
Lo de espacio y minúscula detrás de punto podría ser un buen punto de partida. En una mirada rápida, no he encontrado ningún caso que no sea uno que debería llevar salto de línea.
Edt 1: Me corrijo: he encontrado un ejemplo donde falta un punto y un salto de línea (palabra comer):
1. prnl. Llevar encogidas prendas como calcetines, medias, etc., de modo que se van metiendo dentro de los zapatos.
Estírate los calcetines porque te los vas comiendo ~se algo a otra cosa.
1. loc. verb. coloq. Anularla o hacerla desmerecer.
debería ser
1. prnl. Llevar encogidas prendas como calcetines, medias, etc., de modo que se van metiendo dentro de los zapatos.
Estírate los calcetines porque te los vas comiendo.
~se algo a otra cosa.
1. loc. verb. coloq. Anularla o hacerla desmerecer.
Esto es muy complicado ...
Edit 2: Parece que el error no es muy común y solo lo he visto en verbos con muuuchos significados ...:
palabra hacer (cuando hay muchos 1. seguidos, mala cosa):
a medio ~.
1. loc. adj. Dicho de una cosa: A medio camino entre su comienzo y su terminación. U. t. c. loc. adv. haberla hecho buena.
1. loc. verb. irón. coloq. Haber ejecutado algo perjudicial o contrario a determinado fin. Buena la has hecho La hemos hecho buena ¿hacemos algo?
1. expr. coloq. U. para incitar a alguien a que entre en algún negocio con otra persona, o a venir a la conclusión de un contrato.
palabra ir:
a gran ~, o al más ~.
1. locs. advs. ants. a más correr. allá irás.
1. loc. interj. p. us. U. para enviar a alguien en hora mala. allá se van.
1. expr. coloq. U. para referirse a las personas o cosas que son, valen o significan casi lo mismo. Allá se irán el gasto y la ganancia Allá se. Ver fulano con mengano allá va, o allá va eso, o allá va lo que es.
1. exprs. coloqs. U. al arrojar algo que puede caer sobre quien esté debajo o cerca.
¿Qué diccionario has empleado de origen?
Última edición por JIPG; 20/11/2018 a las 19:27
Pues el diccionario usado de origen es la 22ª edición en formato electrónico en epub.
Quizá acepción no sea el término más correcto para definir el uso que se da a la palabra en perífrasis o frases hechas, por así decirlo. Se admiten sugerencias.
Se da la circunstancia de que en esa versión, se distingue el uso del término definido cuando aparece tal cual (o añadiendo forma pronominal o algo por el estilo) mediante el símbolo ~. Los ejemplos que señalas ("a medio ~", etc.) son buena muestra de ello. En esos casos me fue sencillo usar expresiones regulares para añadir que dieran salto de línea y las pusiera en letra cursiva (o itálica), lo que no quiere decir que se escapara alguna, como así parece.
En cambio, cuando la palabra, y parece ser que el caso está circunscrito a verbos, no aparece tal cual está en la entrada, en el diccionario de origen no la distingue de ninguna manera, si exceptuamos que es una minúscula después de ".", pero mira tú por dónde (nunca mejor usado ) la magna proliferación de abreviaturas fastidia el uso sencillo de una expresión regular pues en muchísimos casos hay minúscula después del "." que termina la abreviatura. No sé si incluyendo de algún modo la existencia de "1." consecutivos podrían aislarse una buena parte de ellos.
Por lo demás tengo claro que el proceso ha de hacerse, a ser posible, de una sola vez, pues estuve investigando la posibilidad de irlos introduciendo de uno en uno y es un calvario porque hay que incluir la nueva longitud de la cadena (por ejemplo en el caso de "mirar" pasaba de 3.610 a 3.776 bytes) y arrastrar el desplazamiento en el resto de definiciones del fichero donde se encuentra y esperar que eso no provoque que se supere el número de 256 Kb para el fichero, porque entonces el último término tendría que pasar al siguiente y vuelta a empezar... En fin, el formato este del bookeen es lo que tiene.
De todas formas, seguiré investigando. Si encuentras una forma de aislar tales fallos no dejes de hacérmela saber y si los encuentras y reportas todos, entonces monumento al canto.
Gracias por tus aportes. Seguimos.
Un abrazo.
¿Podrías subir el epub para que trabajemos con la misma base?
Suerte.
Nota:
Dejo la última versión del archivo de silabeo.
Pues no faltaba más (aunque puede encontrarse en nuestra vieja página amiga).
https://drive.google.com/open?id=1B2...CP0xptsuAMXPIV
Me temo que con ese diccionario va a estar difícil arreglar las palabras problemáticas.
He estado buscando otros diccionarios y he encontrado este en que parece más fácil de determinar dónde están separadas esas frases hechas. Sin embargo, no aparecen los superíndices ni la itálica ... La palabra principal sí que está al menos determinada por una itálica (solo la usa para eso) aunque esté siempre al final de la línea anterior :
2. adj. Perteneciente o relativo a esta ciudad de la provincia de
Burgos, en España.<k>mirar</k>
mirar.
(Del lat. mirāri, admirarse).
1. tr. Dirigir la vista a un objeto. U. t. c. prnl.
13. prnl. Considerar un asunto y meditar antes de tomar una
resolución.
bien mirado.
1. loc. adv. Si se piensa o considera con exactitud o
detenimiento. Bien mirado, no tienes razón.
de mírame y no me toques.
1. loc. adj. coloq. Dicho de una persona: Sumamente delicada de
genio o de salud.
2. loc. adj. coloq. Dicho de una cosa: Muy quebradiza y de poca
resistencia.
No se si es la misma versión, pero tiene menos palabras que otros diccionarios que he visto.
Voy a hacer un paquete de diccionarios que he encontrado por ahí en formato stardict (por lo del número de palabras distinto):
http://www.filedropper.com/diccionariosraestardict
, y a mirar cómo se lee la información del fichero .idx que es el que tiene la información de la palabra, de dónde empieza y en dónde acaba. Así sería más fácil extraer la información del fichero .dict, que es de texto puro.
Última edición por JIPG; 25/11/2018 a las 12:28