tokenizer-arena / stats /compression_rate /ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json
xu-song's picture
add compression_rate details
a4208a2
[
{
"text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
"decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut <unk>tre temps de le commencer.",
"diff": [
"replace text[102:103] --> decoded_text[102:107] 'ê' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.007751937984496124,
"oov_charset": "[\"ê\"]"
},
{
"text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
"decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
"diff": [
"delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
],
"n_oov_chars": 0,
"oov_ratio": 0.0,
"oov_charset": "[]"
},
{
"text": "- Je dois être mentalement instable, par moments",
"decoded_text": "- Je dois <unk>tre mentalement instable, par moments",
"diff": [
"replace text[10:11] --> decoded_text[10:15] 'ê' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.020833333333333332,
"oov_charset": "[\"ê\"]"
},
{
"text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie",
"decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en m<unk>me temps très étourdie",
"diff": [
"replace text[164:165] --> decoded_text[164:169] 'ê' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.0053475935828877,
"oov_charset": "[\"ê\"]"
},
{
"text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)",
"decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d<unk> me garder une heure en plus pour m'expliquer des démonstrations)",
"diff": [
"replace text[164:165] --> decoded_text[164:169] 'û' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.004347826086956522,
"oov_charset": "[\"û\"]"
},
{
"text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)",
"decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand m<unk>me)",
"diff": [
"replace text[163:164] --> decoded_text[163:168] 'ê' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.005988023952095809,
"oov_charset": "[\"ê\"]"
},
{
"text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)",
"decoded_text": "- je préfère largement passer du temps avec les gens de mon <unk>ge ou plus ou moins (généralement pas mon <unk>ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)",
"diff": [
"replace text[60:61] --> decoded_text[60:65] 'â' --> '<unk>'",
"replace text[103:104] --> decoded_text[107:112] 'â' --> '<unk>'"
],
"n_oov_chars": 2,
"oov_ratio": 0.011363636363636364,
"oov_charset": "[\"â\"]"
},
{
"text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens",
"decoded_text": "- j'aime chanter, faire du thé<unk>tre et provoquer des émotions chez les gens",
"diff": [
"replace text[30:31] --> decoded_text[30:35] 'â' --> '<unk>'"
],
"n_oov_chars": 1,
"oov_ratio": 0.013513513513513514,
"oov_charset": "[\"â\"]"
},
{
"text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
"decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère <unk>tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconna<unk>tre quand j'ai tort",
"diff": [
"replace text[49:50] --> decoded_text[49:54] 'ê' --> '<unk>'",
"delete text[150:151] --> decoded_text[154:154] ' ' --> ''",
"replace text[170:171] --> decoded_text[173:178] 'î' --> '<unk>'"
],
"n_oov_chars": 2,
"oov_ratio": 0.010526315789473684,
"oov_charset": "[\"ê\", \"î\"]"
},
{
"text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent",
"decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des <unk>tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-<unk>tre trop bien que tout le monde est différent",
"diff": [
"replace text[90:91] --> decoded_text[90:95] 'ê' --> '<unk>'",
"replace text[187:188] --> decoded_text[191:196] 'ê' --> '<unk>'"
],
"n_oov_chars": 2,
"oov_ratio": 0.008583690987124463,
"oov_charset": "[\"ê\"]"
}
]