jbochi commited on
Commit
e06661a
1 Parent(s): c5ddddd

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +465 -0
README.md CHANGED
@@ -1,3 +1,468 @@
1
  ---
2
  license: apache-2.0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: apache-2.0
3
+ language:
4
+ - en
5
+ - ru
6
+ - es
7
+ - fr
8
+ - de
9
+ - it
10
+ - pt
11
+ - pl
12
+ - nl
13
+ - vi
14
+ - tr
15
+ - sv
16
+ - id
17
+ - ro
18
+ - cs
19
+ - zh
20
+ - hu
21
+ - ja
22
+ - th
23
+ - fi
24
+ - fa
25
+ - uk
26
+ - da
27
+ - el
28
+ - "no"
29
+ - bg
30
+ - sk
31
+ - ko
32
+ - ar
33
+ - lt
34
+ - ca
35
+ - sl
36
+ - he
37
+ - et
38
+ - lv
39
+ - hi
40
+ - sq
41
+ - ms
42
+ - az
43
+ - sr
44
+ - ta
45
+ - hr
46
+ - kk
47
+ - is
48
+ - ml
49
+ - mr
50
+ - te
51
+ - af
52
+ - gl
53
+ - fil
54
+ - be
55
+ - mk
56
+ - eu
57
+ - bn
58
+ - ka
59
+ - mn
60
+ - bs
61
+ - uz
62
+ - ur
63
+ - sw
64
+ - yue
65
+ - ne
66
+ - kn
67
+ - kaa
68
+ - gu
69
+ - si
70
+ - cy
71
+ - eo
72
+ - la
73
+ - hy
74
+ - ky
75
+ - tg
76
+ - ga
77
+ - mt
78
+ - my
79
+ - km
80
+ - tt
81
+ - so
82
+ - ku
83
+ - ps
84
+ - pa
85
+ - rw
86
+ - lo
87
+ - ha
88
+ - dv
89
+ - fy
90
+ - lb
91
+ - ckb
92
+ - mg
93
+ - gd
94
+ - am
95
+ - ug
96
+ - ht
97
+ - grc
98
+ - hmn
99
+ - sd
100
+ - jv
101
+ - mi
102
+ - tk
103
+ - ceb
104
+ - yi
105
+ - ba
106
+ - fo
107
+ - or
108
+ - xh
109
+ - su
110
+ - kl
111
+ - ny
112
+ - sm
113
+ - sn
114
+ - co
115
+ - zu
116
+ - ig
117
+ - yo
118
+ - pap
119
+ - st
120
+ - haw
121
+ - as
122
+ - oc
123
+ - cv
124
+ - lus
125
+ - tet
126
+ - gsw
127
+ - sah
128
+ - br
129
+ - rm
130
+ - sa
131
+ - bo
132
+ - om
133
+ - se
134
+ - ce
135
+ - cnh
136
+ - ilo
137
+ - hil
138
+ - udm
139
+ - os
140
+ - lg
141
+ - ti
142
+ - vec
143
+ - ts
144
+ - tyv
145
+ - kbd
146
+ - ee
147
+ - iba
148
+ - av
149
+ - kha
150
+ - to
151
+ - tn
152
+ - nso
153
+ - fj
154
+ - zza
155
+ - ak
156
+ - ada
157
+ - otq
158
+ - dz
159
+ - bua
160
+ - cfm
161
+ - ln
162
+ - chm
163
+ - gn
164
+ - krc
165
+ - wa
166
+ - hif
167
+ - yua
168
+ - srn
169
+ - war
170
+ - rom
171
+ - bik
172
+ - pam
173
+ - sg
174
+ - lu
175
+ - ady
176
+ - kbp
177
+ - syr
178
+ - ltg
179
+ - myv
180
+ - iso
181
+ - kac
182
+ - bho
183
+ - ay
184
+ - kum
185
+ - qu
186
+ - za
187
+ - pag
188
+ - ngu
189
+ - ve
190
+ - pck
191
+ - zap
192
+ - tyz
193
+ - hui
194
+ - bbc
195
+ - tzo
196
+ - tiv
197
+ - ksd
198
+ - gom
199
+ - min
200
+ - ang
201
+ - nhe
202
+ - bgp
203
+ - nzi
204
+ - nnb
205
+ - nv
206
+ - zxx
207
+ - bci
208
+ - kv
209
+ - new
210
+ - mps
211
+ - alt
212
+ - meu
213
+ - bew
214
+ - fon
215
+ - iu
216
+ - abt
217
+ - mgh
218
+ - mnw
219
+ - tvl
220
+ - dov
221
+ - tlh
222
+ - ho
223
+ - kw
224
+ - mrj
225
+ - meo
226
+ - crh
227
+ - mbt
228
+ - emp
229
+ - ace
230
+ - ium
231
+ - mam
232
+ - gym
233
+ - mai
234
+ - crs
235
+ - pon
236
+ - ubu
237
+ - fip
238
+ - quc
239
+ - gv
240
+ - kj
241
+ - btx
242
+ - ape
243
+ - chk
244
+ - rcf
245
+ - shn
246
+ - tzh
247
+ - mdf
248
+ - ppk
249
+ - ss
250
+ - gag
251
+ - cab
252
+ - kri
253
+ - seh
254
+ - ibb
255
+ - tbz
256
+ - bru
257
+ - enq
258
+ - ach
259
+ - cuk
260
+ - kmb
261
+ - wo
262
+ - kek
263
+ - qub
264
+ - tab
265
+ - bts
266
+ - kos
267
+ - rwo
268
+ - cak
269
+ - tuc
270
+ - bum
271
+ - cjk
272
+ - gil
273
+ - stq
274
+ - tsg
275
+ - quh
276
+ - mak
277
+ - arn
278
+ - ban
279
+ - jiv
280
+ - sja
281
+ - yap
282
+ - tcy
283
+ - toj
284
+ - twu
285
+ - xal
286
+ - amu
287
+ - rmc
288
+ - hus
289
+ - nia
290
+ - kjh
291
+ - bm
292
+ - guh
293
+ - mas
294
+ - acf
295
+ - dtp
296
+ - ksw
297
+ - bzj
298
+ - din
299
+ - zne
300
+ - mad
301
+ - msi
302
+ - mag
303
+ - mkn
304
+ - kg
305
+ - lhu
306
+ - ch
307
+ - qvi
308
+ - mh
309
+ - djk
310
+ - sus
311
+ - mfe
312
+ - srm
313
+ - dyu
314
+ - ctu
315
+ - gui
316
+ - pau
317
+ - inb
318
+ - bi
319
+ - mni
320
+ - guc
321
+ - jam
322
+ - wal
323
+ - jac
324
+ - bas
325
+ - gor
326
+ - skr
327
+ - nyu
328
+ - noa
329
+ - sda
330
+ - gub
331
+ - nog
332
+ - cni
333
+ - teo
334
+ - tdx
335
+ - sxn
336
+ - rki
337
+ - nr
338
+ - frp
339
+ - alz
340
+ - taj
341
+ - lrc
342
+ - cce
343
+ - rn
344
+ - jvn
345
+ - hvn
346
+ - nij
347
+ - dwr
348
+ - izz
349
+ - msm
350
+ - bus
351
+ - ktu
352
+ - chr
353
+ - maz
354
+ - tzj
355
+ - suz
356
+ - knj
357
+ - bim
358
+ - gvl
359
+ - bqc
360
+ - tca
361
+ - pis
362
+ - prk
363
+ - laj
364
+ - mel
365
+ - qxr
366
+ - niq
367
+ - ahk
368
+ - shp
369
+ - hne
370
+ - spp
371
+ - koi
372
+ - krj
373
+ - quf
374
+ - luz
375
+ - agr
376
+ - tsc
377
+ - mqy
378
+ - gof
379
+ - gbm
380
+ - miq
381
+ - dje
382
+ - awa
383
+ - bjj
384
+ - qvz
385
+ - sjp
386
+ - tll
387
+ - raj
388
+ - kjg
389
+ - bgz
390
+ - quy
391
+ - cbk
392
+ - akb
393
+ - oj
394
+ - ify
395
+ - mey
396
+ - ks
397
+ - cac
398
+ - brx
399
+ - qup
400
+ - syl
401
+ - jax
402
+ - ff
403
+ - ber
404
+ - tks
405
+ - trp
406
+ - mrw
407
+ - adh
408
+ - smt
409
+ - srr
410
+ - ffm
411
+ - qvc
412
+ - mtr
413
+ - ann
414
+ - kaa
415
+ - aa
416
+ - noe
417
+ - nut
418
+ - gyn
419
+ - kwi
420
+ - xmm
421
+ - msb
422
+ library_name: transformers
423
+ tags:
424
+ - text-generation-inference
425
+ datasets:
426
+ - allenai/MADLAD-400
427
+ pipeline_tag: translation
428
  ---
429
+
430
+ T5ForConditionalGeneration files for Google's [Madlad-400](https://github.com/google-research/google-research/tree/master/madlad_400) 10B parameter MT-BT model.
431
+
432
+
433
+ Available models:
434
+ - [3B](https://huggingface.co/jbochi/madlad400-3b-mt)
435
+ - [7B](https://huggingface.co/jbochi/madlad400-7b-mt)
436
+ - [7B-BT](https://huggingface.co/jbochi/madlad400-7b-mt-bt)
437
+ - [10B](https://huggingface.co/jbochi/madlad400-10b-bt)
438
+
439
+
440
+ Article: [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](https://arxiv.org/abs/2309.04662)
441
+
442
+ Abstract:
443
+
444
+ > We introduce MADLAD-400, a manually audited, general domain 3T token monolingual dataset based on CommonCrawl, spanning 419 languages. We discuss the limitations revealed by self-auditing MADLAD-400, and the role data auditing had in the dataset creation process. We then train and release a 10.7B-parameter multilingual machine translation model on 250 billion tokens covering over 450 languages using publicly available data, and find that it is competitive with models that are significantly larger, and report the results on different domains. In addition, we train a 8B-parameter language model, and assess the results on few-shot translation. We make the baseline models available to the research community.
445
+
446
+
447
+ The 3B model uses 1 as the decoder start token, 7b
448
+
449
+ ```python
450
+ from transformers import T5ForConditionalGeneration, T5Tokenizer, GenerationConfig
451
+
452
+ model = T5ForConditionalGeneration.from_pretrained('jbochi/madlad400-10b-mt')
453
+ tokenizer = T5Tokenizer.from_pretrained('jbochi/madlad400-10b-mt')
454
+
455
+ text = "<2pt> I love pizza!"
456
+ input_ids = tokenizer(text, return_tensors="pt").input_ids
457
+
458
+ outputs = model.generate(
459
+ input_ids=input_ids,
460
+ generation_config=GenerationConfig(
461
+ decoder_start_token_id=0,
462
+ ))
463
+
464
+ tokenizer.decode(outputs[0], skip_special_tokens=True)
465
+ # Amo la pizza!
466
+ ```
467
+
468
+ Colab to generate these files is [here](https://colab.research.google.com/drive/1rZ2NRyl2zwmg0sQ2Wi-uZZF48iVYulTC#scrollTo=pVODoE6gA9sw).