phpaiola commited on
Commit
96e4c15
1 Parent(s): 8b977c1

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +67 -0
README.md CHANGED
@@ -1,3 +1,70 @@
1
  ---
 
2
  license: mit
 
 
 
 
 
 
 
 
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ language: pt
3
  license: mit
4
+ tags:
5
+ - t5
6
+ - pytorch
7
+ - pt
8
+ - pt-br
9
+ - summarization
10
+ - abstractive summarization
11
+ datasets:
12
+ - WikiLingua
13
+ - XL-Sum
14
+ - TeMário
15
+ - CSTNews
16
  ---
17
+
18
+ # Portuguese T5 for Abstractive Summarization (PTT5 Summ)
19
+
20
+ ## Introduction
21
+ PTT5 Summ is a fine-tuned [PTT5](https://github.com/unicamp-dl/PTT5) model to perform Abstractive Summarization in Brazilian Portuguese texts. This model was fine-tuned on the datasets: [WikiLingua](https://github.com/esdurmus/Wikilingua), [XL-Sum](https://github.com/csebuetnlp/xl-sum), [TeMário](http://www.nilc.icmc.usp.br/nilc/download/NILCTR0706-MazieroEtAl(2).pdf) and [CSTNews](http://nilc.icmc.usp.br/CSTNews/login/?next=/CSTNews/).
22
+
23
+ For further information, please go to [PTT5 Summ repository](https://github.com/pedropaiola/ptt5-summ).
24
+
25
+ ## Available models
26
+ | Model | Dataset used in fine-tuning|
27
+ | :-: | :-: |
28
+ | [phpaiola/ptt5-base-summ-wikilingua](https://huggingface.co/phpaiola/ptt5-base-summ-wikilingua) | WikiLingua |
29
+ | [phpaiola/ptt5-base-summ-xlsum](https://huggingface.co/phpaiola/ptt5-base-summ-xlsum) | XL-Sum |
30
+ | [phpaiola/ptt5-base-summ-temario](https://huggingface.co/phpaiola/ptt5-base-summ-temario) | 1st phase: WikiLingua. 2nd phase: TeMario |
31
+ | [phpaiola/ptt5-base-summ-cstnews](https://huggingface.co/phpaiola/ptt5-base-summ-cstnews) | 1st phase: WikiLingua. 2nd phase: CSTNews|
32
+
33
+ ## Usage example
34
+ ```python
35
+ # Tokenizer
36
+ from transformers import T5Tokenizer
37
+
38
+ # PyTorch model
39
+ from transformers import T5Model, T5ForConditionalGeneration
40
+
41
+ token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
42
+ model_name = 'phpaiola/ptt5-base-summ-xlsum'
43
+
44
+ tokenizer = T5Tokenizer.from_pretrained(token_name )
45
+ model_pt = T5ForConditionalGeneration.from_pretrained(model_name)
46
+
47
+ text = '''
48
+ “A tendência de queda da taxa de juros no Brasil é real, é visível”, disse Meirelles, que participou na capital americana de uma série de reuniões e encontros com banqueiros e investidores que aconteceram paralelamente às reuniões do Fundo Monetário Internacional (FMI) e do Banco Mundial (Bird) no fim de semana.
49
+ Para o presidente do BC, a atual política econômica do governo e a manutenção da taxa de inflação dentro da meta são fatores que garantem queda na taxa de juros a longo prazo.
50
+ “Mas é importante que nós não olhemos para isso apenas no curto prazo. Temos que olhar no médio e longo prazos”, disse Meirelles.
51
+ Para ele, o trabalho que o Banco Central tem feito para conter a inflação dentro da meta vai gerar queda gradual da taxa de juros.
52
+ BC do ano
53
+ Neste domingo, Meirelles participou da cerimônia de entrega do prêmio “Banco Central do ano”, oferecido pela revista The Banker à instituição que preside.
54
+ “Este é um sinal importante de reconhecimento do nosso trabalho, de que o Brasil está indo na direção correta”, disse ele.
55
+ Segundo Meirelles, o Banco Central do Brasil está sendo percebido como uma instituição comprometida com a meta de inflação.
56
+ “Isso tem um ganho importante, na medida em que os agentes formadores de preços começam a apostar que a inflação vai estar na meta, que isso é levado a sério no Brasil”, completou.
57
+ O presidente do Banco Central disse ainda que a crise política brasileira não foi um assunto de interesse prioritário dos investidores que encontrou no fim de semana.
58
+ '''
59
+
60
+ src_text = [text]
61
+ inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
62
+ summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
63
+ summary = tokenizer.decode(summary_ids[0])
64
+ print(summary)
65
+ #<pad> O presidente do Banco Central, Henrique Meirelles, disse neste domingo, em Washington, que a taxa de juros no Brasil é real, mas que o Brasil está indo na direção correta.</s>
66
+
67
+ ```
68
+
69
+ # Citation
70
+ Coming soon