tokenizer-arena / stats /compression_rate /ClueAI.PromptCLUE-base @ cc100.de.diff.json
xu-song's picture
add compression_rate details
a4208a2
[
{
"text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
"decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die <unk>Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 <unk> ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
"diff": [
"replace text[58:59] --> decoded_text[58:63] '„' --> '<unk>'",
"replace text[202:203] --> decoded_text[206:211] '€' --> '<unk>'"
],
"n_oov_chars": 2,
"oov_ratio": 0.007142857142857143,
"oov_charset": "[\"„\", \"€\"]"
},
{
"text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
"decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der <unk>Püngel-Weihnacht“ an.",
"diff": [
"replace text[57:58] --> decoded_text[57:62] '„' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.012658227848101266,
"oov_charset": "[\"„\"]"
},
{
"text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
"decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlie<unk>lich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
"diff": [
"replace text[619:620] --> decoded_text[619:624] 'ß' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.0014749262536873156,
"oov_charset": "[\"ß\"]"
},
{
"text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
"decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlie<unk>en, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
"diff": [
"replace text[61:62] --> decoded_text[61:66] 'ß' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.0022624434389140274,
"oov_charset": "[\"ß\"]"
},
{
"text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
"decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlie<unk>lich zu Zwecken,",
"diff": [
"replace text[64:65] --> decoded_text[64:69] 'ß' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.012345679012345678,
"oov_charset": "[\"ß\"]"
},
{
"text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäßig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.",
"decoded_text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmä<unk>ig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.",
"diff": [
"replace text[131:132] --> decoded_text[131:136] 'ß' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.0018867924528301887,
"oov_charset": "[\"ß\"]"
},
{
"text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis außer diesem Thread hier. Finde ich auch ein bisschen komisch.",
"decoded_text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis au<unk>er diesem Thread hier. Finde ich auch ein bisschen komisch.",
"diff": [
"replace text[125:126] --> decoded_text[125:130] 'ß' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.005405405405405406,
"oov_charset": "[\"ß\"]"
},
{
"text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
"decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
"diff": [
"delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
],
"n_oov_chars": 0,
"oov_ratio": 0.0,
"oov_charset": "[]"
},
{
"text": "Weiß man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?",
"decoded_text": "Wei<unk> man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?",
"diff": [
"replace text[3:4] --> decoded_text[3:8] 'ß' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.007874015748031496,
"oov_charset": "[\"ß\"]"
},
{
"text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note „Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.",
"decoded_text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note <unk>Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.",
"diff": [
"replace text[132:133] --> decoded_text[132:137] '„' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.0036363636363636364,
"oov_charset": "[\"„\"]"
}
]