ylacombe HF staff commited on
Commit
9330af7
1 Parent(s): fada991

Upload processor (#7)

Browse files

- Upload processor (ad2f2bbf34cc5543ee8663c1372dff745266ba17)

Files changed (2) hide show
  1. preprocessor_config.json +204 -0
  2. tokenizer_config.json +206 -2
preprocessor_config.json CHANGED
@@ -1,6 +1,210 @@
1
  {
2
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
3
  "feature_size": 80,
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
  "num_mel_bins": 80,
5
  "padding_side": "right",
6
  "padding_value": 0.0,
 
1
  {
2
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
3
  "feature_size": 80,
4
+ "language_code": [
5
+ "ace",
6
+ "ace_Latn",
7
+ "acm",
8
+ "acq",
9
+ "aeb",
10
+ "afr",
11
+ "ajp",
12
+ "aka",
13
+ "amh",
14
+ "apc",
15
+ "arb",
16
+ "ars",
17
+ "ary",
18
+ "arz",
19
+ "asm",
20
+ "ast",
21
+ "awa",
22
+ "ayr",
23
+ "azb",
24
+ "azj",
25
+ "bak",
26
+ "bam",
27
+ "ban",
28
+ "bel",
29
+ "bem",
30
+ "ben",
31
+ "bho",
32
+ "bjn",
33
+ "bjn_Latn",
34
+ "bod",
35
+ "bos",
36
+ "bug",
37
+ "bul",
38
+ "cat",
39
+ "ceb",
40
+ "ces",
41
+ "cjk",
42
+ "ckb",
43
+ "crh",
44
+ "cym",
45
+ "dan",
46
+ "deu",
47
+ "dik",
48
+ "dyu",
49
+ "dzo",
50
+ "ell",
51
+ "eng",
52
+ "epo",
53
+ "est",
54
+ "eus",
55
+ "ewe",
56
+ "fao",
57
+ "pes",
58
+ "fij",
59
+ "fin",
60
+ "fon",
61
+ "fra",
62
+ "fur",
63
+ "fuv",
64
+ "gla",
65
+ "gle",
66
+ "glg",
67
+ "grn",
68
+ "guj",
69
+ "hat",
70
+ "hau",
71
+ "heb",
72
+ "hin",
73
+ "hne",
74
+ "hrv",
75
+ "hun",
76
+ "hye",
77
+ "ibo",
78
+ "ilo",
79
+ "ind",
80
+ "isl",
81
+ "ita",
82
+ "jav",
83
+ "jpn",
84
+ "kab",
85
+ "kac",
86
+ "kam",
87
+ "kan",
88
+ "kas",
89
+ "kas_Deva",
90
+ "kat",
91
+ "knc",
92
+ "knc_Latn",
93
+ "kaz",
94
+ "kbp",
95
+ "kea",
96
+ "khm",
97
+ "kik",
98
+ "kin",
99
+ "kir",
100
+ "kmb",
101
+ "kon",
102
+ "kor",
103
+ "kmr",
104
+ "lao",
105
+ "lvs",
106
+ "lij",
107
+ "lim",
108
+ "lin",
109
+ "lit",
110
+ "lmo",
111
+ "ltg",
112
+ "ltz",
113
+ "lua",
114
+ "lug",
115
+ "luo",
116
+ "lus",
117
+ "mag",
118
+ "mai",
119
+ "mal",
120
+ "mar",
121
+ "min",
122
+ "mkd",
123
+ "plt",
124
+ "mlt",
125
+ "mni",
126
+ "khk",
127
+ "mos",
128
+ "mri",
129
+ "zsm",
130
+ "mya",
131
+ "nld",
132
+ "nno",
133
+ "nob",
134
+ "npi",
135
+ "nso",
136
+ "nus",
137
+ "nya",
138
+ "oci",
139
+ "gaz",
140
+ "ory",
141
+ "pag",
142
+ "pan",
143
+ "pap",
144
+ "pol",
145
+ "por",
146
+ "prs",
147
+ "pbt",
148
+ "quy",
149
+ "ron",
150
+ "run",
151
+ "rus",
152
+ "sag",
153
+ "san",
154
+ "sat",
155
+ "scn",
156
+ "shn",
157
+ "sin",
158
+ "slk",
159
+ "slv",
160
+ "smo",
161
+ "sna",
162
+ "snd",
163
+ "som",
164
+ "sot",
165
+ "spa",
166
+ "als",
167
+ "srd",
168
+ "srp",
169
+ "ssw",
170
+ "sun",
171
+ "swe",
172
+ "swh",
173
+ "szl",
174
+ "tam",
175
+ "tat",
176
+ "tel",
177
+ "tgk",
178
+ "tgl",
179
+ "tha",
180
+ "tir",
181
+ "taq",
182
+ "taq_Tfng",
183
+ "tpi",
184
+ "tsn",
185
+ "tso",
186
+ "tuk",
187
+ "tum",
188
+ "tur",
189
+ "twi",
190
+ "tzm",
191
+ "uig",
192
+ "ukr",
193
+ "umb",
194
+ "urd",
195
+ "uzn",
196
+ "vec",
197
+ "vie",
198
+ "war",
199
+ "wol",
200
+ "xho",
201
+ "ydd",
202
+ "yor",
203
+ "yue",
204
+ "cmn",
205
+ "cmn_Hant",
206
+ "zul"
207
+ ],
208
  "num_mel_bins": 80,
209
  "padding_side": "right",
210
  "padding_value": 0.0,
tokenizer_config.json CHANGED
@@ -4,13 +4,217 @@
4
  "clean_up_tokenization_spaces": true,
5
  "cls_token": "<s>",
6
  "eos_token": "</s>",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7
  "model_max_length": 1000000000000000019884624838656,
8
  "pad_token": "<pad>",
9
  "processor_class": "SeamlessM4TProcessor",
10
  "sep_token": "</s>",
11
  "sp_model_kwargs": {},
12
- "src_lang": "eng",
13
- "tgt_lang": "fra",
14
  "tokenizer_class": "SeamlessM4TTokenizer",
15
  "tokenizer_file": null,
16
  "unk_token": "<unk>"
 
4
  "clean_up_tokenization_spaces": true,
5
  "cls_token": "<s>",
6
  "eos_token": "</s>",
7
+ "language_code": [
8
+ "ace",
9
+ "ace_Latn",
10
+ "acm",
11
+ "acq",
12
+ "aeb",
13
+ "afr",
14
+ "ajp",
15
+ "aka",
16
+ "amh",
17
+ "apc",
18
+ "arb",
19
+ "ars",
20
+ "ary",
21
+ "arz",
22
+ "asm",
23
+ "ast",
24
+ "awa",
25
+ "ayr",
26
+ "azb",
27
+ "azj",
28
+ "bak",
29
+ "bam",
30
+ "ban",
31
+ "bel",
32
+ "bem",
33
+ "ben",
34
+ "bho",
35
+ "bjn",
36
+ "bjn_Latn",
37
+ "bod",
38
+ "bos",
39
+ "bug",
40
+ "bul",
41
+ "cat",
42
+ "ceb",
43
+ "ces",
44
+ "cjk",
45
+ "ckb",
46
+ "crh",
47
+ "cym",
48
+ "dan",
49
+ "deu",
50
+ "dik",
51
+ "dyu",
52
+ "dzo",
53
+ "ell",
54
+ "eng",
55
+ "epo",
56
+ "est",
57
+ "eus",
58
+ "ewe",
59
+ "fao",
60
+ "pes",
61
+ "fij",
62
+ "fin",
63
+ "fon",
64
+ "fra",
65
+ "fur",
66
+ "fuv",
67
+ "gla",
68
+ "gle",
69
+ "glg",
70
+ "grn",
71
+ "guj",
72
+ "hat",
73
+ "hau",
74
+ "heb",
75
+ "hin",
76
+ "hne",
77
+ "hrv",
78
+ "hun",
79
+ "hye",
80
+ "ibo",
81
+ "ilo",
82
+ "ind",
83
+ "isl",
84
+ "ita",
85
+ "jav",
86
+ "jpn",
87
+ "kab",
88
+ "kac",
89
+ "kam",
90
+ "kan",
91
+ "kas",
92
+ "kas_Deva",
93
+ "kat",
94
+ "knc",
95
+ "knc_Latn",
96
+ "kaz",
97
+ "kbp",
98
+ "kea",
99
+ "khm",
100
+ "kik",
101
+ "kin",
102
+ "kir",
103
+ "kmb",
104
+ "kon",
105
+ "kor",
106
+ "kmr",
107
+ "lao",
108
+ "lvs",
109
+ "lij",
110
+ "lim",
111
+ "lin",
112
+ "lit",
113
+ "lmo",
114
+ "ltg",
115
+ "ltz",
116
+ "lua",
117
+ "lug",
118
+ "luo",
119
+ "lus",
120
+ "mag",
121
+ "mai",
122
+ "mal",
123
+ "mar",
124
+ "min",
125
+ "mkd",
126
+ "plt",
127
+ "mlt",
128
+ "mni",
129
+ "khk",
130
+ "mos",
131
+ "mri",
132
+ "zsm",
133
+ "mya",
134
+ "nld",
135
+ "nno",
136
+ "nob",
137
+ "npi",
138
+ "nso",
139
+ "nus",
140
+ "nya",
141
+ "oci",
142
+ "gaz",
143
+ "ory",
144
+ "pag",
145
+ "pan",
146
+ "pap",
147
+ "pol",
148
+ "por",
149
+ "prs",
150
+ "pbt",
151
+ "quy",
152
+ "ron",
153
+ "run",
154
+ "rus",
155
+ "sag",
156
+ "san",
157
+ "sat",
158
+ "scn",
159
+ "shn",
160
+ "sin",
161
+ "slk",
162
+ "slv",
163
+ "smo",
164
+ "sna",
165
+ "snd",
166
+ "som",
167
+ "sot",
168
+ "spa",
169
+ "als",
170
+ "srd",
171
+ "srp",
172
+ "ssw",
173
+ "sun",
174
+ "swe",
175
+ "swh",
176
+ "szl",
177
+ "tam",
178
+ "tat",
179
+ "tel",
180
+ "tgk",
181
+ "tgl",
182
+ "tha",
183
+ "tir",
184
+ "taq",
185
+ "taq_Tfng",
186
+ "tpi",
187
+ "tsn",
188
+ "tso",
189
+ "tuk",
190
+ "tum",
191
+ "tur",
192
+ "twi",
193
+ "tzm",
194
+ "uig",
195
+ "ukr",
196
+ "umb",
197
+ "urd",
198
+ "uzn",
199
+ "vec",
200
+ "vie",
201
+ "war",
202
+ "wol",
203
+ "xho",
204
+ "ydd",
205
+ "yor",
206
+ "yue",
207
+ "cmn",
208
+ "cmn_Hant",
209
+ "zul"
210
+ ],
211
  "model_max_length": 1000000000000000019884624838656,
212
  "pad_token": "<pad>",
213
  "processor_class": "SeamlessM4TProcessor",
214
  "sep_token": "</s>",
215
  "sp_model_kwargs": {},
216
+ "src_lang": "__eng__",
217
+ "tgt_lang": "__fra__",
218
  "tokenizer_class": "SeamlessM4TTokenizer",
219
  "tokenizer_file": null,
220
  "unk_token": "<unk>"