diwank commited on
Commit
108d2b7
β€’
1 Parent(s): e644401

Upload tokenizer

Browse files
Files changed (2) hide show
  1. tokenizer.json +99 -99
  2. tokenizer_config.json +1 -4
tokenizer.json CHANGED
@@ -9,7 +9,7 @@
9
  "single_word": false,
10
  "lstrip": false,
11
  "rstrip": false,
12
- "normalized": false,
13
  "special": true
14
  },
15
  {
@@ -18,7 +18,7 @@
18
  "single_word": false,
19
  "lstrip": false,
20
  "rstrip": false,
21
- "normalized": false,
22
  "special": true
23
  },
24
  {
@@ -27,7 +27,7 @@
27
  "single_word": false,
28
  "lstrip": false,
29
  "rstrip": false,
30
- "normalized": false,
31
  "special": true
32
  },
33
  {
@@ -93338,126 +93338,126 @@
93338
  "▁livre s",
93339
  "lu b",
93340
  "l ub",
93341
- "▁ ▁",
93342
  "▁▁ ▁▁",
93343
- "▁▁▁ ▁",
93344
- "▁ ▁▁▁",
 
93345
  "▁▁ ▁▁▁▁▁▁",
93346
- "▁▁▁▁ ▁▁▁▁",
93347
- "▁▁▁▁▁ ▁▁▁",
93348
- "▁▁▁▁▁▁ ▁▁",
93349
- "▁▁▁ ▁▁▁▁▁",
93350
- "▁▁▁▁▁▁▁ ▁",
93351
- "▁ ▁▁▁▁▁▁▁",
93352
- "▁▁ ▁▁▁",
93353
- "▁▁▁▁ ▁",
93354
- "▁▁▁ ▁▁",
93355
- "▁ ▁▁▁▁",
93356
  "▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
 
 
 
 
 
 
 
 
 
 
93357
  "▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁",
 
 
 
 
 
 
 
 
93358
  "▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
93359
  "▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁",
 
 
 
 
 
 
93360
  "▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁",
 
 
 
 
 
93361
  "▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁",
 
 
 
93362
  "▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁",
 
 
 
 
93363
  "▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁",
 
 
93364
  "▁▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁",
 
 
 
 
 
 
 
93365
  "▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁",
93366
- "▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁",
93367
- "▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁",
93368
- "▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁",
93369
- "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁",
93370
- "▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
93371
- "▁▁ ▁▁▁▁",
93372
- "▁▁▁▁ ▁▁",
93373
- "▁▁▁▁▁ ▁",
93374
  "▁▁▁ ▁▁▁",
93375
- "▁ ▁▁▁▁▁",
93376
- "▁▁ ▁▁▁▁▁▁▁▁▁▁",
93377
- "▁▁▁▁ ▁▁▁▁▁▁▁▁",
93378
- "▁▁▁▁▁▁▁▁ ▁▁▁▁",
93379
- "▁▁▁▁▁ ▁▁▁▁▁▁▁",
93380
- "▁▁▁▁▁▁ ▁▁▁▁▁▁",
93381
- "▁▁▁▁▁▁▁▁▁▁ ▁▁",
93382
  "▁▁▁ ▁▁▁▁▁▁▁▁▁",
 
 
 
 
 
 
 
93383
  "▁▁▁▁▁▁▁▁▁ ▁▁▁",
 
 
 
 
 
93384
  "▁▁▁▁▁▁▁ ▁▁▁▁▁",
93385
- "▁▁▁▁▁▁▁▁▁▁▁ ▁",
93386
- "▁ ▁▁▁▁▁▁▁▁▁▁▁",
93387
- "▁▁ ▁▁▁▁▁▁▁▁▁▁▁",
93388
- "▁▁▁▁ ▁▁▁▁▁▁▁▁▁",
93389
- "▁▁▁▁▁▁▁▁ ▁▁▁▁▁",
93390
- "▁▁▁▁▁ ▁▁▁▁▁▁▁▁",
93391
- "▁▁▁▁▁▁ ▁▁▁▁▁▁▁",
93392
- "▁▁▁▁▁▁▁▁▁▁▁▁ ▁",
93393
- "▁▁▁▁▁▁▁▁▁▁ ▁▁▁",
93394
- "▁▁▁ ▁▁▁▁▁▁▁▁▁▁",
93395
- "▁▁▁▁▁▁▁▁▁ ▁▁▁▁",
93396
  "▁▁▁▁▁▁▁ ▁▁▁▁▁▁",
93397
- "▁▁▁▁▁▁▁▁▁▁▁ ▁▁",
93398
- "▁ ▁▁▁▁▁▁▁▁▁▁▁▁",
93399
- "▁▁ ▁▁▁▁▁▁▁▁",
93400
- "▁▁▁▁ ▁▁▁▁▁▁",
93401
- "▁▁▁▁▁▁▁▁ ▁▁",
93402
- "▁▁▁▁▁ ▁▁▁▁▁",
93403
- "▁▁▁▁▁▁ ▁▁▁▁",
93404
- "▁▁▁ ▁▁▁▁▁▁▁",
93405
- "▁▁▁▁▁▁▁▁▁ ▁",
93406
  "▁▁▁▁▁▁▁ ▁▁▁",
93407
- "▁ ▁▁▁▁▁▁▁▁▁",
93408
- "▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁",
93409
- "▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁",
93410
- "▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁",
93411
- "▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁",
93412
- "▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁",
93413
- "▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁",
93414
- "▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁",
93415
- "▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁",
93416
- "▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁",
93417
- "▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁",
93418
  "▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁",
 
 
 
 
93419
  "▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁",
93420
- "▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁",
93421
- "▁▁ ▁",
93422
  "▁ ▁▁",
93423
- "▁▁ ▁▁▁▁▁▁▁",
93424
- "▁▁▁▁ ▁▁▁▁▁",
93425
- "▁▁▁▁▁▁▁▁ ▁",
93426
- "▁▁▁▁▁ ▁▁▁▁",
93427
- "▁▁▁▁▁▁ ▁▁▁",
93428
- "▁▁▁ ▁▁▁▁▁▁",
93429
- "▁▁▁▁▁▁▁ ▁▁",
93430
  "▁ ▁▁▁▁▁▁▁▁",
93431
- "▁▁ ▁▁▁▁▁",
93432
- "▁▁▁▁ ▁▁▁",
93433
- "▁▁▁▁▁ ▁▁",
93434
- "▁▁▁▁▁▁ ▁",
93435
- "▁▁▁ ▁▁▁▁",
93436
  "▁ ▁▁▁▁▁▁",
93437
- "▁▁ ▁▁▁▁▁▁▁▁▁",
93438
- "▁▁▁▁ ▁▁▁▁▁▁▁",
93439
- "▁▁▁▁▁▁▁▁ ▁▁▁",
93440
- "▁▁▁▁▁ ▁▁▁▁▁▁",
93441
- "▁▁▁▁▁▁ ▁▁▁▁▁",
93442
- "▁▁▁▁▁▁▁▁▁▁ ▁",
93443
- "▁▁▁ ▁▁▁▁▁▁▁▁",
93444
- "▁▁▁▁▁▁▁▁▁ ▁▁",
93445
- "▁▁▁▁▁▁▁ ▁▁▁▁",
93446
  "▁ ▁▁▁▁▁▁▁▁▁▁",
93447
- "▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁",
93448
- "▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁",
93449
- "▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁",
93450
- "▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁",
93451
- "▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁",
93452
- "▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁",
93453
- "▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁",
93454
- "▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁",
93455
- "▁▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁",
93456
- "▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁",
93457
- "▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁",
93458
- "▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁",
93459
- "▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁",
93460
- "▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁▁"
93461
  ]
93462
  }
93463
  }
 
9
  "single_word": false,
10
  "lstrip": false,
11
  "rstrip": false,
12
+ "normalized": true,
13
  "special": true
14
  },
15
  {
 
18
  "single_word": false,
19
  "lstrip": false,
20
  "rstrip": false,
21
+ "normalized": true,
22
  "special": true
23
  },
24
  {
 
27
  "single_word": false,
28
  "lstrip": false,
29
  "rstrip": false,
30
+ "normalized": true,
31
  "special": true
32
  },
33
  {
 
93338
  "▁livre s",
93339
  "lu b",
93340
  "l ub",
 
93341
  "▁▁ ▁▁",
93342
+ "▁▁ ▁▁▁▁",
93343
+ "▁▁ ▁▁▁▁▁▁▁▁",
93344
+ "▁▁ ▁▁▁▁▁",
93345
  "▁▁ ▁▁▁▁▁▁",
93346
+ "▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁",
93347
+ "▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁",
93348
+ "▁▁ ▁▁▁▁▁▁▁▁▁▁",
 
 
 
 
 
 
 
93349
  "▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
93350
+ "▁▁ ▁▁▁",
93351
+ "▁▁ ▁▁▁▁▁▁▁▁▁",
93352
+ "▁▁ ▁▁▁▁▁▁▁",
93353
+ "▁▁ ▁▁▁▁▁▁▁▁▁▁▁",
93354
+ "▁▁ ▁",
93355
+ "▁▁▁▁ ▁▁",
93356
+ "▁▁▁▁ ▁▁▁▁",
93357
+ "▁▁▁▁ ▁▁▁▁▁▁▁▁",
93358
+ "▁▁▁▁ ▁▁▁▁▁",
93359
+ "▁▁▁▁ ▁▁▁▁▁▁",
93360
  "▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁",
93361
+ "▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁",
93362
+ "▁▁▁▁ ▁▁▁",
93363
+ "▁▁▁▁ ▁▁▁▁▁▁▁▁▁",
93364
+ "▁▁▁▁ ▁▁▁▁▁▁▁",
93365
+ "▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁",
93366
+ "▁▁▁▁ ▁",
93367
+ "▁▁▁▁▁▁▁▁ ▁▁",
93368
+ "▁▁▁▁▁▁▁▁ ▁▁▁▁",
93369
  "▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁",
93370
+ "▁▁▁▁▁▁▁▁ ▁▁▁▁▁",
93371
+ "▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁",
93372
+ "▁▁▁▁▁▁▁▁ ▁▁▁",
93373
+ "▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁",
93374
+ "▁▁▁▁▁▁▁▁ ▁",
93375
+ "▁▁▁▁▁ ▁▁",
93376
+ "▁▁▁▁▁ ▁▁▁▁",
93377
+ "▁▁▁▁▁ ▁▁▁▁▁▁▁▁",
93378
+ "▁▁▁▁▁ ▁▁▁▁▁",
93379
+ "▁▁▁▁▁ ▁▁▁▁▁▁",
93380
+ "▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁",
93381
+ "▁▁▁▁▁ ▁▁▁",
93382
+ "▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁",
93383
+ "▁▁▁▁▁ ▁▁▁▁▁▁▁",
93384
  "▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁",
93385
+ "▁▁▁▁▁ ▁",
93386
+ "▁▁▁▁▁▁ ▁▁",
93387
+ "▁▁▁▁▁▁ ▁▁▁▁",
93388
+ "▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁",
93389
+ "▁▁▁▁▁▁ ▁▁▁▁▁",
93390
+ "▁▁▁▁▁▁ ▁▁▁▁▁▁",
93391
  "▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁▁",
93392
+ "▁▁▁▁▁▁ ▁▁▁",
93393
+ "▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁",
93394
+ "▁▁▁▁▁▁ ▁▁▁▁▁▁▁",
93395
+ "▁▁▁▁▁▁ ▁",
93396
+ "▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁",
93397
  "▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁",
93398
+ "▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁",
93399
+ "▁▁▁▁▁▁▁▁▁▁▁▁ ▁",
93400
+ "▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁",
93401
  "▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁",
93402
+ "▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁",
93403
+ "▁▁▁▁▁▁▁▁▁▁ ▁▁",
93404
+ "▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁",
93405
+ "▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁",
93406
  "▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁",
93407
+ "▁▁▁▁▁▁▁▁▁▁ ▁▁▁",
93408
+ "▁▁▁▁▁▁▁▁▁▁ ▁",
93409
  "▁▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁▁",
93410
+ "▁▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁",
93411
+ "▁▁▁ ▁▁",
93412
+ "▁▁▁ ▁▁▁▁",
93413
+ "▁▁▁ ▁▁▁▁▁▁▁▁",
93414
+ "▁▁▁ ▁▁▁▁▁",
93415
+ "▁▁▁ ▁▁▁▁▁▁",
93416
+ "▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁",
93417
  "▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁",
93418
+ "▁▁▁ ▁▁▁▁▁▁▁▁▁▁",
 
 
 
 
 
 
 
93419
  "▁▁▁ ▁▁▁",
 
 
 
 
 
 
 
93420
  "▁▁▁ ▁▁▁▁▁▁▁▁▁",
93421
+ "▁▁▁ ▁▁▁▁▁▁▁",
93422
+ "▁▁▁ ▁▁▁▁▁▁▁▁▁▁▁",
93423
+ "▁▁▁ ▁",
93424
+ "▁▁▁▁▁▁▁▁▁ ▁▁",
93425
+ "▁▁▁▁▁▁▁▁▁ ▁▁▁▁",
93426
+ "▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁",
93427
+ "▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁",
93428
  "▁▁▁▁▁▁▁▁▁ ▁▁▁",
93429
+ "▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁",
93430
+ "▁▁▁▁▁▁▁▁▁ ▁",
93431
+ "▁▁▁▁▁▁▁ ▁▁",
93432
+ "▁▁▁▁▁▁▁ ▁▁▁▁",
93433
+ "▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁",
93434
  "▁▁▁▁▁▁▁ ▁▁▁▁▁",
 
 
 
 
 
 
 
 
 
 
 
93435
  "▁▁▁▁▁▁▁ ▁▁▁▁▁▁",
 
 
 
 
 
 
 
 
 
93436
  "▁▁▁▁▁▁▁ ▁▁▁",
93437
+ "▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁▁▁",
 
 
 
 
 
 
 
 
 
 
93438
  "▁▁▁▁▁▁▁ ▁▁▁▁▁▁▁",
93439
+ "▁▁▁▁▁▁▁ ▁",
93440
+ "▁▁▁▁▁▁▁▁▁▁▁ ▁▁",
93441
+ "▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁",
93442
+ "▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁▁▁",
93443
  "▁▁▁▁▁▁▁▁▁▁▁ ▁▁▁",
93444
+ "▁▁▁▁▁▁▁▁▁▁▁ ▁",
93445
+ "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁ ▁",
93446
  "▁ ▁▁",
93447
+ "▁ ▁▁▁▁",
 
 
 
 
 
 
93448
  "▁ ▁▁▁▁▁▁▁▁",
93449
+ "▁ ▁▁▁▁▁",
 
 
 
 
93450
  "▁ ▁▁▁▁▁▁",
93451
+ "▁ ▁▁▁▁▁▁▁▁▁▁▁▁",
93452
+ "▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁",
 
 
 
 
 
 
 
93453
  "▁ ▁▁▁▁▁▁▁▁▁▁",
93454
+ "▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
93455
+ "▁ ▁▁▁",
93456
+ "▁ ▁▁▁▁▁▁▁▁▁",
93457
+ "▁ ▁▁▁▁▁▁▁",
93458
+ "▁ ▁▁▁▁▁▁▁▁▁▁▁",
93459
+ "▁ ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
93460
+ "▁ ▁"
 
 
 
 
 
 
 
93461
  ]
93462
  }
93463
  }
tokenizer_config.json CHANGED
@@ -1,6 +1,4 @@
1
  {
2
- "add_bos_token": true,
3
- "add_eos_token": false,
4
  "bos_token": {
5
  "__type": "AddedToken",
6
  "content": "<s>",
@@ -18,8 +16,7 @@
18
  "rstrip": false,
19
  "single_word": false
20
  },
21
- "legacy": false,
22
- "model_max_length": 2048,
23
  "pad_token": null,
24
  "sp_model_kwargs": {},
25
  "tokenizer_class": "LlamaTokenizer",
 
1
  {
 
 
2
  "bos_token": {
3
  "__type": "AddedToken",
4
  "content": "<s>",
 
16
  "rstrip": false,
17
  "single_word": false
18
  },
19
+ "model_max_length": 4096,
 
20
  "pad_token": null,
21
  "sp_model_kwargs": {},
22
  "tokenizer_class": "LlamaTokenizer",