Upload processor

#14
by ylacombe HF staff - opened
Files changed (1) hide show
  1. special_tokens_map.json +215 -0
special_tokens_map.json ADDED
@@ -0,0 +1,215 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "__ace__",
4
+ "__ace_Latn__",
5
+ "__acm__",
6
+ "__acq__",
7
+ "__aeb__",
8
+ "__afr__",
9
+ "__ajp__",
10
+ "__aka__",
11
+ "__amh__",
12
+ "__apc__",
13
+ "__arb__",
14
+ "__ars__",
15
+ "__ary__",
16
+ "__arz__",
17
+ "__asm__",
18
+ "__ast__",
19
+ "__awa__",
20
+ "__ayr__",
21
+ "__azb__",
22
+ "__azj__",
23
+ "__bak__",
24
+ "__bam__",
25
+ "__ban__",
26
+ "__bel__",
27
+ "__bem__",
28
+ "__ben__",
29
+ "__bho__",
30
+ "__bjn__",
31
+ "__bjn_Latn__",
32
+ "__bod__",
33
+ "__bos__",
34
+ "__bug__",
35
+ "__bul__",
36
+ "__cat__",
37
+ "__ceb__",
38
+ "__ces__",
39
+ "__cjk__",
40
+ "__ckb__",
41
+ "__crh__",
42
+ "__cym__",
43
+ "__dan__",
44
+ "__deu__",
45
+ "__dik__",
46
+ "__dyu__",
47
+ "__dzo__",
48
+ "__ell__",
49
+ "__eng__",
50
+ "__epo__",
51
+ "__est__",
52
+ "__eus__",
53
+ "__ewe__",
54
+ "__fao__",
55
+ "__pes__",
56
+ "__fij__",
57
+ "__fin__",
58
+ "__fon__",
59
+ "__fra__",
60
+ "__fur__",
61
+ "__fuv__",
62
+ "__gla__",
63
+ "__gle__",
64
+ "__glg__",
65
+ "__grn__",
66
+ "__guj__",
67
+ "__hat__",
68
+ "__hau__",
69
+ "__heb__",
70
+ "__hin__",
71
+ "__hne__",
72
+ "__hrv__",
73
+ "__hun__",
74
+ "__hye__",
75
+ "__ibo__",
76
+ "__ilo__",
77
+ "__ind__",
78
+ "__isl__",
79
+ "__ita__",
80
+ "__jav__",
81
+ "__jpn__",
82
+ "__kab__",
83
+ "__kac__",
84
+ "__kam__",
85
+ "__kan__",
86
+ "__kas__",
87
+ "__kas_Deva__",
88
+ "__kat__",
89
+ "__knc__",
90
+ "__knc_Latn__",
91
+ "__kaz__",
92
+ "__kbp__",
93
+ "__kea__",
94
+ "__khm__",
95
+ "__kik__",
96
+ "__kin__",
97
+ "__kir__",
98
+ "__kmb__",
99
+ "__kon__",
100
+ "__kor__",
101
+ "__kmr__",
102
+ "__lao__",
103
+ "__lvs__",
104
+ "__lij__",
105
+ "__lim__",
106
+ "__lin__",
107
+ "__lit__",
108
+ "__lmo__",
109
+ "__ltg__",
110
+ "__ltz__",
111
+ "__lua__",
112
+ "__lug__",
113
+ "__luo__",
114
+ "__lus__",
115
+ "__mag__",
116
+ "__mai__",
117
+ "__mal__",
118
+ "__mar__",
119
+ "__min__",
120
+ "__mkd__",
121
+ "__plt__",
122
+ "__mlt__",
123
+ "__mni__",
124
+ "__khk__",
125
+ "__mos__",
126
+ "__mri__",
127
+ "__zsm__",
128
+ "__mya__",
129
+ "__nld__",
130
+ "__nno__",
131
+ "__nob__",
132
+ "__npi__",
133
+ "__nso__",
134
+ "__nus__",
135
+ "__nya__",
136
+ "__oci__",
137
+ "__gaz__",
138
+ "__ory__",
139
+ "__pag__",
140
+ "__pan__",
141
+ "__pap__",
142
+ "__pol__",
143
+ "__por__",
144
+ "__prs__",
145
+ "__pbt__",
146
+ "__quy__",
147
+ "__ron__",
148
+ "__run__",
149
+ "__rus__",
150
+ "__sag__",
151
+ "__san__",
152
+ "__sat__",
153
+ "__scn__",
154
+ "__shn__",
155
+ "__sin__",
156
+ "__slk__",
157
+ "__slv__",
158
+ "__smo__",
159
+ "__sna__",
160
+ "__snd__",
161
+ "__som__",
162
+ "__sot__",
163
+ "__spa__",
164
+ "__als__",
165
+ "__srd__",
166
+ "__srp__",
167
+ "__ssw__",
168
+ "__sun__",
169
+ "__swe__",
170
+ "__swh__",
171
+ "__szl__",
172
+ "__tam__",
173
+ "__tat__",
174
+ "__tel__",
175
+ "__tgk__",
176
+ "__tgl__",
177
+ "__tha__",
178
+ "__tir__",
179
+ "__taq__",
180
+ "__taq_Tfng__",
181
+ "__tpi__",
182
+ "__tsn__",
183
+ "__tso__",
184
+ "__tuk__",
185
+ "__tum__",
186
+ "__tur__",
187
+ "__twi__",
188
+ "__tzm__",
189
+ "__uig__",
190
+ "__ukr__",
191
+ "__umb__",
192
+ "__urd__",
193
+ "__uzn__",
194
+ "__vec__",
195
+ "__vie__",
196
+ "__war__",
197
+ "__wol__",
198
+ "__xho__",
199
+ "__ydd__",
200
+ "__yor__",
201
+ "__yue__",
202
+ "__cmn__",
203
+ "__cmn_Hant__",
204
+ "__zul__",
205
+ "<MINED_DATA>",
206
+ "<MMT_BT_DATA>",
207
+ "<SMT_BT_DATA>"
208
+ ],
209
+ "bos_token": "<s>",
210
+ "cls_token": "<s>",
211
+ "eos_token": "</s>",
212
+ "pad_token": "<pad>",
213
+ "sep_token": "</s>",
214
+ "unk_token": "<unk>"
215
+ }