Someman commited on
Commit
bf2c5b0
1 Parent(s): d9b7fb8

added details to use

Browse files
Files changed (1) hide show
  1. README.md +61 -0
README.md ADDED
@@ -0,0 +1,61 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: mit
3
+ datasets:
4
+ - Someman/hindi-summarization
5
+ language:
6
+ - hi
7
+ pipeline_tag: summarization
8
+ tags:
9
+ - summarization
10
+ ---
11
+
12
+ ### MT5-Summarize-Hi
13
+ A seq2seqLM model pretrained on (google/mt5-small)[https://hf.co/google/mt5-small].
14
+
15
+
16
+ ### How To Use
17
+
18
+ ```python
19
+
20
+ >>> import torch
21
+ >>> from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
22
+
23
+ # Predict with test data (first 5 rows)
24
+
25
+ >>> device = "cuda" if torch.cuda.is_available() else "cpu"
26
+
27
+ >>> t5_tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
28
+ >>> model = AutoModelForSeq2SeqLM.from_pretrained(model_ckpt).to(device)
29
+
30
+
31
+ >>> text = "दरअसल, 28 मई के दिन पहलवान विरोध प्रदर्शन करने के लिए नए संसद भवन की तरफ जा रहे थे। इसी दिन नए संसद भवन का उद्घाटन हो रहा था। पुलिस ने उन्हें रोका तो पहलवानों के साथ उनकी हाथापाई हो गई। दिल्ली पुलिस ने सभी पहलवानों और उनके समर्थकों को हिरासत में ले लिया। इसके बाद जंतर-मंतर से पहलवानों का सामान हटा दिया गया। शाम तक सभी महिला पहलवान और रात तक पुरुष पहलवानों को छोड़ दिया गया। पहलवानों को फिर से जंतर-मंतर में बैठने की अनुमति नहीं मिली, लेकिन उनका विरोध प्रदर्शन जारी रहा। इस बीच सामने आया कि बृजभूषण पर महिला पहलवानों को गलत तरीके से छूने और यौन शोषण के कई आरोप लगे हैं। इस बीच गृहमंत्री अमित शाह ने चार जून को पहलवानों के साथ बात की। पांच जून को सभी बड़े पहलवानों ने अपनी सरकारी नौकरी जॉइन कर ली। "
32
+
33
+ >>> inputs = tokenizer("summarize: " + text, return_tensors="pt", max_length=1024, padding= "max_length", truncation=True, add_special_tokens=True)
34
+
35
+ >>> generation = model.generate(
36
+ input_ids = inputs['input_ids'].to(device),
37
+ attention_mask=inputs['attention_mask'].to(device),
38
+ num_beams=6,
39
+ num_return_sequences=1,
40
+ no_repeat_ngram_size=3,
41
+ repetition_penalty=1.0,
42
+ min_length=50,
43
+ max_length=250,
44
+ length_penalty=2.0,
45
+ early_stopping=True
46
+ )
47
+ # # Convert id tokens to text
48
+ >>> output = t5_tokenizer.decode(generation[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
49
+
50
+
51
+ # print("***** Summary Text (Generated Text) *****")
52
+ >>> print(output)
53
+
54
+ "28 मई के दिन पहलवान विरोध प्रदर्शन करने के लिए नए संसद भवन की तरफ जा रहे थे। इसी दिन जंतर-मंतर से पहलवानों का सामान हटा दिया गया।"
55
+
56
+ ```
57
+
58
+ ### Evaluation Result
59
+ Step Training Loss Validation Loss
60
+ 5000 1.541200 1.319326
61
+ 10000 1.402300 1.231357