Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,70 @@
|
|
1 |
---
|
|
|
2 |
license: mit
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
+
language: pt
|
3 |
license: mit
|
4 |
+
tags:
|
5 |
+
- t5
|
6 |
+
- pytorch
|
7 |
+
- pt
|
8 |
+
- pt-br
|
9 |
+
- summarization
|
10 |
+
- abstractive summarization
|
11 |
+
datasets:
|
12 |
+
- WikiLingua
|
13 |
+
- XL-Sum
|
14 |
+
- TeMário
|
15 |
+
- CSTNews
|
16 |
---
|
17 |
+
|
18 |
+
# Portuguese T5 for Abstractive Summarization (PTT5 Summ)
|
19 |
+
|
20 |
+
## Introduction
|
21 |
+
PTT5 Summ is a fine-tuned [PTT5](https://github.com/unicamp-dl/PTT5) model to perform Abstractive Summarization in Brazilian Portuguese texts. This model was fine-tuned on the datasets: [WikiLingua](https://github.com/esdurmus/Wikilingua), [XL-Sum](https://github.com/csebuetnlp/xl-sum), [TeMário](http://www.nilc.icmc.usp.br/nilc/download/NILCTR0706-MazieroEtAl(2).pdf) and [CSTNews](http://nilc.icmc.usp.br/CSTNews/login/?next=/CSTNews/).
|
22 |
+
|
23 |
+
For further information, please go to [PTT5 Summ repository](https://github.com/pedropaiola/ptt5-summ).
|
24 |
+
|
25 |
+
## Available models
|
26 |
+
| Model | Dataset used in fine-tuning|
|
27 |
+
| :-: | :-: |
|
28 |
+
| [phpaiola/ptt5-base-summ-wikilingua](https://huggingface.co/phpaiola/ptt5-base-summ-wikilingua) | WikiLingua |
|
29 |
+
| [phpaiola/ptt5-base-summ-xlsum](https://huggingface.co/phpaiola/ptt5-base-summ-xlsum) | XL-Sum |
|
30 |
+
| [phpaiola/ptt5-base-summ-temario](https://huggingface.co/phpaiola/ptt5-base-summ-temario) | 1st phase: WikiLingua. 2nd phase: TeMario |
|
31 |
+
| [phpaiola/ptt5-base-summ-cstnews](https://huggingface.co/phpaiola/ptt5-base-summ-cstnews) | 1st phase: WikiLingua. 2nd phase: CSTNews|
|
32 |
+
|
33 |
+
## Usage example
|
34 |
+
```python
|
35 |
+
# Tokenizer
|
36 |
+
from transformers import T5Tokenizer
|
37 |
+
|
38 |
+
# PyTorch model
|
39 |
+
from transformers import T5Model, T5ForConditionalGeneration
|
40 |
+
|
41 |
+
token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
|
42 |
+
model_name = 'phpaiola/ptt5-base-summ-xlsum'
|
43 |
+
|
44 |
+
tokenizer = T5Tokenizer.from_pretrained(token_name )
|
45 |
+
model_pt = T5ForConditionalGeneration.from_pretrained(model_name)
|
46 |
+
|
47 |
+
text = '''
|
48 |
+
“A tendência de queda da taxa de juros no Brasil é real, é visível”, disse Meirelles, que participou na capital americana de uma série de reuniões e encontros com banqueiros e investidores que aconteceram paralelamente às reuniões do Fundo Monetário Internacional (FMI) e do Banco Mundial (Bird) no fim de semana.
|
49 |
+
Para o presidente do BC, a atual política econômica do governo e a manutenção da taxa de inflação dentro da meta são fatores que garantem queda na taxa de juros a longo prazo.
|
50 |
+
“Mas é importante que nós não olhemos para isso apenas no curto prazo. Temos que olhar no médio e longo prazos”, disse Meirelles.
|
51 |
+
Para ele, o trabalho que o Banco Central tem feito para conter a inflação dentro da meta vai gerar queda gradual da taxa de juros.
|
52 |
+
BC do ano
|
53 |
+
Neste domingo, Meirelles participou da cerimônia de entrega do prêmio “Banco Central do ano”, oferecido pela revista The Banker à instituição que preside.
|
54 |
+
“Este é um sinal importante de reconhecimento do nosso trabalho, de que o Brasil está indo na direção correta”, disse ele.
|
55 |
+
Segundo Meirelles, o Banco Central do Brasil está sendo percebido como uma instituição comprometida com a meta de inflação.
|
56 |
+
“Isso tem um ganho importante, na medida em que os agentes formadores de preços começam a apostar que a inflação vai estar na meta, que isso é levado a sério no Brasil”, completou.
|
57 |
+
O presidente do Banco Central disse ainda que a crise política brasileira não foi um assunto de interesse prioritário dos investidores que encontrou no fim de semana.
|
58 |
+
'''
|
59 |
+
|
60 |
+
src_text = [text]
|
61 |
+
inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
|
62 |
+
summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
|
63 |
+
summary = tokenizer.decode(summary_ids[0])
|
64 |
+
print(summary)
|
65 |
+
#<pad> O presidente do Banco Central, Henrique Meirelles, disse neste domingo, em Washington, que a taxa de juros no Brasil é real, mas que o Brasil está indo na direção correta.</s>
|
66 |
+
|
67 |
+
```
|
68 |
+
|
69 |
+
# Citation
|
70 |
+
Coming soon
|