nielsr HF staff commited on
Commit
444ed7f
1 Parent(s): 1dbbe7a

Upload tokenizer

Browse files
Files changed (3) hide show
  1. added_tokens.json +202 -0
  2. tokenizer.json +0 -0
  3. tokenizer_config.json +2 -1
added_tokens.json ADDED
@@ -0,0 +1,202 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "<other_0>": 33201,
3
+ "<other_100>": 33301,
4
+ "<other_101>": 33302,
5
+ "<other_102>": 33303,
6
+ "<other_103>": 33304,
7
+ "<other_104>": 33305,
8
+ "<other_105>": 33306,
9
+ "<other_106>": 33307,
10
+ "<other_107>": 33308,
11
+ "<other_108>": 33309,
12
+ "<other_109>": 33310,
13
+ "<other_10>": 33211,
14
+ "<other_110>": 33311,
15
+ "<other_111>": 33312,
16
+ "<other_112>": 33313,
17
+ "<other_113>": 33314,
18
+ "<other_114>": 33315,
19
+ "<other_115>": 33316,
20
+ "<other_116>": 33317,
21
+ "<other_117>": 33318,
22
+ "<other_118>": 33319,
23
+ "<other_119>": 33320,
24
+ "<other_11>": 33212,
25
+ "<other_120>": 33321,
26
+ "<other_121>": 33322,
27
+ "<other_122>": 33323,
28
+ "<other_123>": 33324,
29
+ "<other_124>": 33325,
30
+ "<other_125>": 33326,
31
+ "<other_126>": 33327,
32
+ "<other_127>": 33328,
33
+ "<other_128>": 33329,
34
+ "<other_129>": 33330,
35
+ "<other_12>": 33213,
36
+ "<other_130>": 33331,
37
+ "<other_131>": 33332,
38
+ "<other_132>": 33333,
39
+ "<other_133>": 33334,
40
+ "<other_134>": 33335,
41
+ "<other_135>": 33336,
42
+ "<other_136>": 33337,
43
+ "<other_137>": 33338,
44
+ "<other_138>": 33339,
45
+ "<other_139>": 33340,
46
+ "<other_13>": 33214,
47
+ "<other_140>": 33341,
48
+ "<other_141>": 33342,
49
+ "<other_142>": 33343,
50
+ "<other_143>": 33344,
51
+ "<other_144>": 33345,
52
+ "<other_145>": 33346,
53
+ "<other_146>": 33347,
54
+ "<other_147>": 33348,
55
+ "<other_148>": 33349,
56
+ "<other_149>": 33350,
57
+ "<other_14>": 33215,
58
+ "<other_150>": 33351,
59
+ "<other_151>": 33352,
60
+ "<other_152>": 33353,
61
+ "<other_153>": 33354,
62
+ "<other_154>": 33355,
63
+ "<other_155>": 33356,
64
+ "<other_156>": 33357,
65
+ "<other_157>": 33358,
66
+ "<other_158>": 33359,
67
+ "<other_159>": 33360,
68
+ "<other_15>": 33216,
69
+ "<other_160>": 33361,
70
+ "<other_161>": 33362,
71
+ "<other_162>": 33363,
72
+ "<other_163>": 33364,
73
+ "<other_164>": 33365,
74
+ "<other_165>": 33366,
75
+ "<other_166>": 33367,
76
+ "<other_167>": 33368,
77
+ "<other_168>": 33369,
78
+ "<other_169>": 33370,
79
+ "<other_16>": 33217,
80
+ "<other_170>": 33371,
81
+ "<other_171>": 33372,
82
+ "<other_172>": 33373,
83
+ "<other_173>": 33374,
84
+ "<other_174>": 33375,
85
+ "<other_175>": 33376,
86
+ "<other_176>": 33377,
87
+ "<other_177>": 33378,
88
+ "<other_178>": 33379,
89
+ "<other_179>": 33380,
90
+ "<other_17>": 33218,
91
+ "<other_180>": 33381,
92
+ "<other_181>": 33382,
93
+ "<other_182>": 33383,
94
+ "<other_183>": 33384,
95
+ "<other_184>": 33385,
96
+ "<other_185>": 33386,
97
+ "<other_186>": 33387,
98
+ "<other_187>": 33388,
99
+ "<other_188>": 33389,
100
+ "<other_189>": 33390,
101
+ "<other_18>": 33219,
102
+ "<other_190>": 33391,
103
+ "<other_191>": 33392,
104
+ "<other_192>": 33393,
105
+ "<other_193>": 33394,
106
+ "<other_194>": 33395,
107
+ "<other_195>": 33396,
108
+ "<other_196>": 33397,
109
+ "<other_197>": 33398,
110
+ "<other_198>": 33399,
111
+ "<other_199>": 33400,
112
+ "<other_19>": 33220,
113
+ "<other_1>": 33202,
114
+ "<other_20>": 33221,
115
+ "<other_21>": 33222,
116
+ "<other_22>": 33223,
117
+ "<other_23>": 33224,
118
+ "<other_24>": 33225,
119
+ "<other_25>": 33226,
120
+ "<other_26>": 33227,
121
+ "<other_27>": 33228,
122
+ "<other_28>": 33229,
123
+ "<other_29>": 33230,
124
+ "<other_2>": 33203,
125
+ "<other_30>": 33231,
126
+ "<other_31>": 33232,
127
+ "<other_32>": 33233,
128
+ "<other_33>": 33234,
129
+ "<other_34>": 33235,
130
+ "<other_35>": 33236,
131
+ "<other_36>": 33237,
132
+ "<other_37>": 33238,
133
+ "<other_38>": 33239,
134
+ "<other_39>": 33240,
135
+ "<other_3>": 33204,
136
+ "<other_40>": 33241,
137
+ "<other_41>": 33242,
138
+ "<other_42>": 33243,
139
+ "<other_43>": 33244,
140
+ "<other_44>": 33245,
141
+ "<other_45>": 33246,
142
+ "<other_46>": 33247,
143
+ "<other_47>": 33248,
144
+ "<other_48>": 33249,
145
+ "<other_49>": 33250,
146
+ "<other_4>": 33205,
147
+ "<other_50>": 33251,
148
+ "<other_51>": 33252,
149
+ "<other_52>": 33253,
150
+ "<other_53>": 33254,
151
+ "<other_54>": 33255,
152
+ "<other_55>": 33256,
153
+ "<other_56>": 33257,
154
+ "<other_57>": 33258,
155
+ "<other_58>": 33259,
156
+ "<other_59>": 33260,
157
+ "<other_5>": 33206,
158
+ "<other_60>": 33261,
159
+ "<other_61>": 33262,
160
+ "<other_62>": 33263,
161
+ "<other_63>": 33264,
162
+ "<other_64>": 33265,
163
+ "<other_65>": 33266,
164
+ "<other_66>": 33267,
165
+ "<other_67>": 33268,
166
+ "<other_68>": 33269,
167
+ "<other_69>": 33270,
168
+ "<other_6>": 33207,
169
+ "<other_70>": 33271,
170
+ "<other_71>": 33272,
171
+ "<other_72>": 33273,
172
+ "<other_73>": 33274,
173
+ "<other_74>": 33275,
174
+ "<other_75>": 33276,
175
+ "<other_76>": 33277,
176
+ "<other_77>": 33278,
177
+ "<other_78>": 33279,
178
+ "<other_79>": 33280,
179
+ "<other_7>": 33208,
180
+ "<other_80>": 33281,
181
+ "<other_81>": 33282,
182
+ "<other_82>": 33283,
183
+ "<other_83>": 33284,
184
+ "<other_84>": 33285,
185
+ "<other_85>": 33286,
186
+ "<other_86>": 33287,
187
+ "<other_87>": 33288,
188
+ "<other_88>": 33289,
189
+ "<other_89>": 33290,
190
+ "<other_8>": 33209,
191
+ "<other_90>": 33291,
192
+ "<other_91>": 33292,
193
+ "<other_92>": 33293,
194
+ "<other_93>": 33294,
195
+ "<other_94>": 33295,
196
+ "<other_95>": 33296,
197
+ "<other_96>": 33297,
198
+ "<other_97>": 33298,
199
+ "<other_98>": 33299,
200
+ "<other_99>": 33300,
201
+ "<other_9>": 33210
202
+ }
tokenizer.json CHANGED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json CHANGED
@@ -1205,8 +1205,9 @@
1205
  "clean_up_tokenization_spaces": true,
1206
  "eos_token": "</s>",
1207
  "extra_ids": 100,
 
1208
  "loc_extra_ids": 501,
1209
- "model_max_length": 1000000000000000019884624838656,
1210
  "only_label_first_subword": true,
1211
  "other_extra_ids": 200,
1212
  "pad_token": "<pad>",
 
1205
  "clean_up_tokenization_spaces": true,
1206
  "eos_token": "</s>",
1207
  "extra_ids": 100,
1208
+ "from_slow": true,
1209
  "loc_extra_ids": 501,
1210
+ "model_max_length": 512,
1211
  "only_label_first_subword": true,
1212
  "other_extra_ids": 200,
1213
  "pad_token": "<pad>",