File size: 1,590 Bytes
56ad7aa
 
 
 
 
 
 
 
 
 
 
 
e49d9bf
 
be7524f
fef6c2a
e49d9bf
723f4f0
e49d9bf
 
 
 
 
 
82ff163
e49d9bf
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4e225eb
 
 
 
 
 
 
e49d9bf
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
---
language: vi
datasets:
- cc100
tags:
- summarization
- translation
- question-answering

license: mit
---

# ViT5-base

State-of-the-art pretrained Transformer-based encoder-decoder model for Vietnamese.

## How to use
For more details, do check out [our Github repo](https://github.com/vietai/ViT5). 
```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("VietAI/vit5-base")  
model = AutoModelForSeq2SeqLM.from_pretrained("VietAI/vit5-base")

sentence = "VietAI là tổ chức phi lợi nhuận với sứ mệnh ươm mầm tài năng về trí tuệ nhân tạo và xây dựng một cộng đồng các chuyên gia trong lĩnh vực trí tuệ nhân tạo đẳng cấp quốc tế tại Việt Nam."
text =  "summarize: " + sentence + " </s>"
encoding = tokenizer.encode_plus(text, pad_to_max_length=True, return_tensors="pt")
input_ids, attention_masks = encoding["input_ids"].to("cuda"), encoding["attention_mask"].to("cuda")
outputs = model.generate(
    input_ids=input_ids, attention_mask=attention_masks,
    max_length=256,
    early_stopping=True
)
for output in outputs:
    line = tokenizer.decode(output, skip_special_tokens=True, clean_up_tokenization_spaces=True)
    print(line)
```

## Citation
```
@misc{https://doi.org/10.48550/arxiv.2205.06457,
  doi = {10.48550/ARXIV.2205.06457},
  author = {Phan, Long and Tran, Hieu and Nguyen, Hieu and Trinh, Trieu H.},
  title = {ViT5: Pretrained Text-to-Text Transformer for Vietnamese Language Generation},
  publisher = {arXiv},
  year = {2022},
}
```