Upload tokenizer
Browse files- added_tokens.json +202 -0
- tokenizer.json +0 -0
- tokenizer_config.json +2 -1
added_tokens.json
ADDED
@@ -0,0 +1,202 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"<other_0>": 33201,
|
3 |
+
"<other_100>": 33301,
|
4 |
+
"<other_101>": 33302,
|
5 |
+
"<other_102>": 33303,
|
6 |
+
"<other_103>": 33304,
|
7 |
+
"<other_104>": 33305,
|
8 |
+
"<other_105>": 33306,
|
9 |
+
"<other_106>": 33307,
|
10 |
+
"<other_107>": 33308,
|
11 |
+
"<other_108>": 33309,
|
12 |
+
"<other_109>": 33310,
|
13 |
+
"<other_10>": 33211,
|
14 |
+
"<other_110>": 33311,
|
15 |
+
"<other_111>": 33312,
|
16 |
+
"<other_112>": 33313,
|
17 |
+
"<other_113>": 33314,
|
18 |
+
"<other_114>": 33315,
|
19 |
+
"<other_115>": 33316,
|
20 |
+
"<other_116>": 33317,
|
21 |
+
"<other_117>": 33318,
|
22 |
+
"<other_118>": 33319,
|
23 |
+
"<other_119>": 33320,
|
24 |
+
"<other_11>": 33212,
|
25 |
+
"<other_120>": 33321,
|
26 |
+
"<other_121>": 33322,
|
27 |
+
"<other_122>": 33323,
|
28 |
+
"<other_123>": 33324,
|
29 |
+
"<other_124>": 33325,
|
30 |
+
"<other_125>": 33326,
|
31 |
+
"<other_126>": 33327,
|
32 |
+
"<other_127>": 33328,
|
33 |
+
"<other_128>": 33329,
|
34 |
+
"<other_129>": 33330,
|
35 |
+
"<other_12>": 33213,
|
36 |
+
"<other_130>": 33331,
|
37 |
+
"<other_131>": 33332,
|
38 |
+
"<other_132>": 33333,
|
39 |
+
"<other_133>": 33334,
|
40 |
+
"<other_134>": 33335,
|
41 |
+
"<other_135>": 33336,
|
42 |
+
"<other_136>": 33337,
|
43 |
+
"<other_137>": 33338,
|
44 |
+
"<other_138>": 33339,
|
45 |
+
"<other_139>": 33340,
|
46 |
+
"<other_13>": 33214,
|
47 |
+
"<other_140>": 33341,
|
48 |
+
"<other_141>": 33342,
|
49 |
+
"<other_142>": 33343,
|
50 |
+
"<other_143>": 33344,
|
51 |
+
"<other_144>": 33345,
|
52 |
+
"<other_145>": 33346,
|
53 |
+
"<other_146>": 33347,
|
54 |
+
"<other_147>": 33348,
|
55 |
+
"<other_148>": 33349,
|
56 |
+
"<other_149>": 33350,
|
57 |
+
"<other_14>": 33215,
|
58 |
+
"<other_150>": 33351,
|
59 |
+
"<other_151>": 33352,
|
60 |
+
"<other_152>": 33353,
|
61 |
+
"<other_153>": 33354,
|
62 |
+
"<other_154>": 33355,
|
63 |
+
"<other_155>": 33356,
|
64 |
+
"<other_156>": 33357,
|
65 |
+
"<other_157>": 33358,
|
66 |
+
"<other_158>": 33359,
|
67 |
+
"<other_159>": 33360,
|
68 |
+
"<other_15>": 33216,
|
69 |
+
"<other_160>": 33361,
|
70 |
+
"<other_161>": 33362,
|
71 |
+
"<other_162>": 33363,
|
72 |
+
"<other_163>": 33364,
|
73 |
+
"<other_164>": 33365,
|
74 |
+
"<other_165>": 33366,
|
75 |
+
"<other_166>": 33367,
|
76 |
+
"<other_167>": 33368,
|
77 |
+
"<other_168>": 33369,
|
78 |
+
"<other_169>": 33370,
|
79 |
+
"<other_16>": 33217,
|
80 |
+
"<other_170>": 33371,
|
81 |
+
"<other_171>": 33372,
|
82 |
+
"<other_172>": 33373,
|
83 |
+
"<other_173>": 33374,
|
84 |
+
"<other_174>": 33375,
|
85 |
+
"<other_175>": 33376,
|
86 |
+
"<other_176>": 33377,
|
87 |
+
"<other_177>": 33378,
|
88 |
+
"<other_178>": 33379,
|
89 |
+
"<other_179>": 33380,
|
90 |
+
"<other_17>": 33218,
|
91 |
+
"<other_180>": 33381,
|
92 |
+
"<other_181>": 33382,
|
93 |
+
"<other_182>": 33383,
|
94 |
+
"<other_183>": 33384,
|
95 |
+
"<other_184>": 33385,
|
96 |
+
"<other_185>": 33386,
|
97 |
+
"<other_186>": 33387,
|
98 |
+
"<other_187>": 33388,
|
99 |
+
"<other_188>": 33389,
|
100 |
+
"<other_189>": 33390,
|
101 |
+
"<other_18>": 33219,
|
102 |
+
"<other_190>": 33391,
|
103 |
+
"<other_191>": 33392,
|
104 |
+
"<other_192>": 33393,
|
105 |
+
"<other_193>": 33394,
|
106 |
+
"<other_194>": 33395,
|
107 |
+
"<other_195>": 33396,
|
108 |
+
"<other_196>": 33397,
|
109 |
+
"<other_197>": 33398,
|
110 |
+
"<other_198>": 33399,
|
111 |
+
"<other_199>": 33400,
|
112 |
+
"<other_19>": 33220,
|
113 |
+
"<other_1>": 33202,
|
114 |
+
"<other_20>": 33221,
|
115 |
+
"<other_21>": 33222,
|
116 |
+
"<other_22>": 33223,
|
117 |
+
"<other_23>": 33224,
|
118 |
+
"<other_24>": 33225,
|
119 |
+
"<other_25>": 33226,
|
120 |
+
"<other_26>": 33227,
|
121 |
+
"<other_27>": 33228,
|
122 |
+
"<other_28>": 33229,
|
123 |
+
"<other_29>": 33230,
|
124 |
+
"<other_2>": 33203,
|
125 |
+
"<other_30>": 33231,
|
126 |
+
"<other_31>": 33232,
|
127 |
+
"<other_32>": 33233,
|
128 |
+
"<other_33>": 33234,
|
129 |
+
"<other_34>": 33235,
|
130 |
+
"<other_35>": 33236,
|
131 |
+
"<other_36>": 33237,
|
132 |
+
"<other_37>": 33238,
|
133 |
+
"<other_38>": 33239,
|
134 |
+
"<other_39>": 33240,
|
135 |
+
"<other_3>": 33204,
|
136 |
+
"<other_40>": 33241,
|
137 |
+
"<other_41>": 33242,
|
138 |
+
"<other_42>": 33243,
|
139 |
+
"<other_43>": 33244,
|
140 |
+
"<other_44>": 33245,
|
141 |
+
"<other_45>": 33246,
|
142 |
+
"<other_46>": 33247,
|
143 |
+
"<other_47>": 33248,
|
144 |
+
"<other_48>": 33249,
|
145 |
+
"<other_49>": 33250,
|
146 |
+
"<other_4>": 33205,
|
147 |
+
"<other_50>": 33251,
|
148 |
+
"<other_51>": 33252,
|
149 |
+
"<other_52>": 33253,
|
150 |
+
"<other_53>": 33254,
|
151 |
+
"<other_54>": 33255,
|
152 |
+
"<other_55>": 33256,
|
153 |
+
"<other_56>": 33257,
|
154 |
+
"<other_57>": 33258,
|
155 |
+
"<other_58>": 33259,
|
156 |
+
"<other_59>": 33260,
|
157 |
+
"<other_5>": 33206,
|
158 |
+
"<other_60>": 33261,
|
159 |
+
"<other_61>": 33262,
|
160 |
+
"<other_62>": 33263,
|
161 |
+
"<other_63>": 33264,
|
162 |
+
"<other_64>": 33265,
|
163 |
+
"<other_65>": 33266,
|
164 |
+
"<other_66>": 33267,
|
165 |
+
"<other_67>": 33268,
|
166 |
+
"<other_68>": 33269,
|
167 |
+
"<other_69>": 33270,
|
168 |
+
"<other_6>": 33207,
|
169 |
+
"<other_70>": 33271,
|
170 |
+
"<other_71>": 33272,
|
171 |
+
"<other_72>": 33273,
|
172 |
+
"<other_73>": 33274,
|
173 |
+
"<other_74>": 33275,
|
174 |
+
"<other_75>": 33276,
|
175 |
+
"<other_76>": 33277,
|
176 |
+
"<other_77>": 33278,
|
177 |
+
"<other_78>": 33279,
|
178 |
+
"<other_79>": 33280,
|
179 |
+
"<other_7>": 33208,
|
180 |
+
"<other_80>": 33281,
|
181 |
+
"<other_81>": 33282,
|
182 |
+
"<other_82>": 33283,
|
183 |
+
"<other_83>": 33284,
|
184 |
+
"<other_84>": 33285,
|
185 |
+
"<other_85>": 33286,
|
186 |
+
"<other_86>": 33287,
|
187 |
+
"<other_87>": 33288,
|
188 |
+
"<other_88>": 33289,
|
189 |
+
"<other_89>": 33290,
|
190 |
+
"<other_8>": 33209,
|
191 |
+
"<other_90>": 33291,
|
192 |
+
"<other_91>": 33292,
|
193 |
+
"<other_92>": 33293,
|
194 |
+
"<other_93>": 33294,
|
195 |
+
"<other_94>": 33295,
|
196 |
+
"<other_95>": 33296,
|
197 |
+
"<other_96>": 33297,
|
198 |
+
"<other_97>": 33298,
|
199 |
+
"<other_98>": 33299,
|
200 |
+
"<other_99>": 33300,
|
201 |
+
"<other_9>": 33210
|
202 |
+
}
|
tokenizer.json
CHANGED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
CHANGED
@@ -1205,8 +1205,9 @@
|
|
1205 |
"clean_up_tokenization_spaces": true,
|
1206 |
"eos_token": "</s>",
|
1207 |
"extra_ids": 100,
|
|
|
1208 |
"loc_extra_ids": 501,
|
1209 |
-
"model_max_length":
|
1210 |
"only_label_first_subword": true,
|
1211 |
"other_extra_ids": 200,
|
1212 |
"pad_token": "<pad>",
|
|
|
1205 |
"clean_up_tokenization_spaces": true,
|
1206 |
"eos_token": "</s>",
|
1207 |
"extra_ids": 100,
|
1208 |
+
"from_slow": true,
|
1209 |
"loc_extra_ids": 501,
|
1210 |
+
"model_max_length": 512,
|
1211 |
"only_label_first_subword": true,
|
1212 |
"other_extra_ids": 200,
|
1213 |
"pad_token": "<pad>",
|