tokenizer-arena / stats /compression_rate /ClassCat.gpt2-base-french @ cc100.es.diff.json
xu-song's picture
add compression_rate details
a4208a2
[
{
"text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.",
"decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.",
"diff": [
"replace text[1:2] --> decoded_text[1:2] 'S' --> 's'",
"replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'",
"replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'",
"replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'"
],
"n_oov_chars": 6,
"oov_ratio": 0.026785714285714284,
"oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]"
},
{
"text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.",
"decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'"
],
"n_oov_chars": 1,
"oov_ratio": 0.01282051282051282,
"oov_charset": "[\"H\"]"
},
{
"text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
"decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
"replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'",
"replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'"
],
"n_oov_chars": 5,
"oov_ratio": 0.022222222222222223,
"oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]"
},
{
"text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.",
"decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
"replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'",
"replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'",
"replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'",
"replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'"
],
"n_oov_chars": 5,
"oov_ratio": 0.026881720430107527,
"oov_charset": "[\"E\", \"P\", \"N\", \"A\"]"
},
{
"text": "1. El período de vacaciones anuales retribuidas, no sustituible",
"decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible",
"diff": [
"replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
],
"n_oov_chars": 1,
"oov_ratio": 0.015873015873015872,
"oov_charset": "[\"E\"]"
},
{
"text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada",
"decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada",
"diff": [
"replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
"replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'"
],
"n_oov_chars": 2,
"oov_ratio": 0.031746031746031744,
"oov_charset": "[\"A\", \"L\"]"
},
{
"text": "2. El período o períodos de su disfrute se fijará de común",
"decoded_text": "2. el período o períodos de su disfrute se fijará de común",
"diff": [
"replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
],
"n_oov_chars": 1,
"oov_ratio": 0.017241379310344827,
"oov_charset": "[\"E\"]"
},
{
"text": "con lo establecido en su caso en los Convenios Colectivos",
"decoded_text": "con lo establecido en su caso en los convenios colectivos",
"diff": [
"replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'",
"replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'"
],
"n_oov_chars": 2,
"oov_ratio": 0.03508771929824561,
"oov_charset": "[\"C\"]"
},
{
"text": "En caso de desacuerdo entre las partes, la jurisdicción competente",
"decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
],
"n_oov_chars": 1,
"oov_ratio": 0.015151515151515152,
"oov_charset": "[\"E\"]"
},
{
"text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican",
"decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican",
"diff": [
"replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
"replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'"
],
"n_oov_chars": 2,
"oov_ratio": 0.03333333333333333,
"oov_charset": "[\"A\", \"L\"]"
}
]