Anonumous commited on
Commit
2b6344e
1 Parent(s): 714d61d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +53 -0
README.md CHANGED
@@ -1,3 +1,56 @@
1
  ---
2
  license: mit
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: mit
3
+ language:
4
+ - ru
5
+ pipeline_tag: summarization
6
  ---
7
+ # FRED-T5 1.7B Summarizer
8
+ Dataset detail, model training and metrics in our paper: TUT_Dobavit
9
+
10
+ The model was trained by [SberDevices](https://sberdevices.ru/).
11
+
12
+ The model is trained on a mix of open summarisation data for the Russian language and use prefix tokenen '\<LM\>'
13
+
14
+ ## Usage
15
+ ```python
16
+ import torch
17
+ from transformers import GPT2Tokenizer, T5ForConditionalGeneration
18
+ tokenizer = GPT2Tokenizer.from_pretrained('Anonumous/FRED-T5-SUM',eos_token='</s>')
19
+ model = T5ForConditionalGeneration.from_pretrained('Anonumous/FRED-T5-SUM')
20
+ device='cuda'
21
+ model.to(device)
22
+
23
+ input_text='<LM> Сократи текст.\n В деревне, затерянной среди зелёных холмов, жил старик по имени Иван. Его жизнь протекала медленно и размеренно. Каждое утро Иван выходил на поля, чтобы заботиться о своём скромном участке земли. Он выращивал картофель и морковь, которые были его главным источником пищи. Вечера старик проводил у камина, читая книги и вспоминая молодость. Жизнь в деревне была тяжёлая, но Иван находил в ней простые радости.'
24
+ input_ids=torch.tensor([tokenizer.encode(input_text)]).to(device)
25
+ outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,
26
+ num_beams=5,
27
+ min_new_tokens=17,
28
+ max_new_tokens=200,
29
+ do_sample=True,
30
+ no_repeat_ngram_size=4,
31
+ top_p=0.9)
32
+ print(tokenizer.decode(outputs[0][1:]))
33
+
34
+ # print result: Старик Иван живёт размеренной жизнью в деревне, выращивая овощи и находя радость в простых вещах.
35
+
36
+ ```
37
+
38
+ # Authors
39
+ + Sber Devices:
40
+ + Albina Akhmetgareeva
41
+ + Ilia Kuleshov
42
+ + Vlad Leschuk
43
+ + Alexander Abramov
44
+ + Alena Fenogenova
45
+
46
+ # Cite us
47
+ ```
48
+ @misc{zmitrovich2023family,
49
+ title={A Family of Pretrained Transformer Language Models for Russian},
50
+ author={Dmitry Zmitrovich and Alexander Abramov and Andrey Kalmykov and Maria Tikhonova and Ekaterina Taktasheva and Danil Astafurov and Mark Baushenko and Artem Snegirev and Tatiana Shavrina and Sergey Markov and Vladislav Mikhailov and Alena Fenogenova},
51
+ year={2023},
52
+ eprint={2309.10931},
53
+ archivePrefix={arXiv},
54
+ primaryClass={cs.CL}
55
+ }
56
+ ```