ahm
commited on
Commit
·
6f4e37f
1
Parent(s):
b61e0c4
init
Browse files- README.md +60 -0
- added_tokens.json +1 -0
- config.json +57 -0
- pytorch_model.bin +3 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +1 -0
- tf_model.h5 +3 -0
- tokenizer_config.json +1 -0
README.md
ADDED
@@ -0,0 +1,60 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- fr
|
4 |
+
|
5 |
+
license: mit
|
6 |
+
|
7 |
+
datasets:
|
8 |
+
- MLSUM
|
9 |
+
|
10 |
+
pipeline_tag: "summarization"
|
11 |
+
|
12 |
+
widget:
|
13 |
+
- text: « La veille de l’ouverture, je vais faire venir un coach pour les salariés qui reprendront le travail. Cela va me coûter 300 euros, mais après des mois d’oisiveté obligatoire, la reprise n’est pas simple. Certains sont au chômage partiel depuis mars 2020 », raconte Alain Fontaine, propriétaire du restaurant Le Mesturet, dans le quartier de la Bourse, à Paris. Cette date d’ouverture, désormais, il la connaît. Emmanuel Macron a, en effet, donné le feu vert pour un premier accueil des clients en terrasse, mercredi 19 mai. M. Fontaine imagine même faire venir un orchestre ce jour-là pour fêter l’événement. Il lui reste toutefois à construire sa terrasse. Il pensait que les ouvriers passeraient samedi 1er mai pour l’installer, mais, finalement, le rendez-vous a été décalé. Pour l’instant, le tas de bois est entreposé dans la salle de restaurant qui n’a plus accueilli de convives depuis le 29 octobre 2020, quand le couperet de la fermeture administrative est tombé.M. Fontaine, président de l’Association française des maîtres restaurateurs, ne manquera pas de concurrents prêts à profiter de ce premier temps de réouverture des bars et restaurants. Même si le couvre-feu limite le service à 21 heures. D’autant que la Mairie de Paris vient d’annoncer le renouvellement des terrasses éphémères installées en 2020 et leur gratuité jusqu’à la fin de l’été.
|
14 |
+
|
15 |
+
tags:
|
16 |
+
- summarization
|
17 |
+
- mbart
|
18 |
+
- bart
|
19 |
+
---
|
20 |
+
|
21 |
+
# TODO
|
22 |
+
|
23 |
+
## Utilisation
|
24 |
+
|
25 |
+
```python
|
26 |
+
from transformers import MBartForConditionalGeneration, MBartTokenizer
|
27 |
+
from transformers import SummarizationPipeline
|
28 |
+
|
29 |
+
model_name = 'lincoln/mbart-mlsum-automatic-summarization'
|
30 |
+
|
31 |
+
loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
|
32 |
+
loaded_model = AutoModelForSequenceClassification.from_pretrained(model_name)
|
33 |
+
|
34 |
+
nlp = SummarizationPipeline(model=loaded_model, tokenizer=loaded_tokenizer)
|
35 |
+
nlp("""
|
36 |
+
« La veille de l’ouverture, je vais faire venir un coach pour les salariés qui reprendront le travail.
|
37 |
+
Cela va me coûter 300 euros, mais après des mois d’oisiveté obligatoire, la reprise n’est pas simple.
|
38 |
+
Certains sont au chômage partiel depuis mars 2020 », raconte Alain Fontaine, propriétaire du restaurant Le Mesturet,
|
39 |
+
dans le quartier de la Bourse, à Paris. Cette date d’ouverture, désormais, il la connaît. Emmanuel Macron a, en effet,
|
40 |
+
donné le feu vert pour un premier accueil des clients en terrasse, mercredi 19 mai. M. Fontaine imagine même faire venir un orchestre ce jour-là pour fêter l’événement.
|
41 |
+
Il lui reste toutefois à construire sa terrasse. Il pensait que les ouvriers passeraient samedi 1er mai pour l’installer, mais, finalement, le rendez-vous a été décalé.
|
42 |
+
Pour l’instant, le tas de bois est entreposé dans la salle de restaurant qui n’a plus accueilli de convives depuis le 29 octobre 2020,
|
43 |
+
quand le couperet de la fermeture administrative est tombé.M. Fontaine, président de l’Association française des maîtres restaurateurs,
|
44 |
+
ne manquera pas de concurrents prêts à profiter de ce premier temps de réouverture des bars et restaurants. Même si le couvre-feu limite le service à 21 heures.
|
45 |
+
D’autant que la Mairie de Paris vient d’annoncer le renouvellement des terrasses éphémères installées en 2020 et leur gratuité jusqu’à la fin de l’été.
|
46 |
+
""")
|
47 |
+
```
|
48 |
+
|
49 |
+
## Citation
|
50 |
+
|
51 |
+
```bibtex
|
52 |
+
@article{scialom2020mlsum,
|
53 |
+
title={MLSUM: The Multilingual Summarization Corpus},
|
54 |
+
author={Thomas Scialom and Paul-Alexis Dray and Sylvain Lamprier and Benjamin Piwowarski and Jacopo Staiano},
|
55 |
+
year={2020},
|
56 |
+
eprint={2004.14900},
|
57 |
+
archivePrefix={arXiv},
|
58 |
+
primaryClass={cs.CL}
|
59 |
+
}
|
60 |
+
```
|
added_tokens.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"af_ZA": 250027, "az_AZ": 250028, "bn_IN": 250029, "fa_IR": 250030, "he_IL": 250031, "hr_HR": 250032, "id_ID": 250033, "ka_GE": 250034, "km_KH": 250035, "mk_MK": 250036, "ml_IN": 250037, "mn_MN": 250038, "mr_IN": 250039, "pl_PL": 250040, "ps_AF": 250041, "pt_XX": 250042, "sv_SE": 250043, "sw_KE": 250044, "ta_IN": 250045, "te_IN": 250046, "th_TH": 250047, "tl_XX": 250048, "uk_UA": 250049, "ur_PK": 250050, "xh_ZA": 250051, "gl_ES": 250052, "sl_SI": 250053}
|
config.json
ADDED
@@ -0,0 +1,57 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": ".",
|
3 |
+
"_num_labels": 3,
|
4 |
+
"activation_dropout": 0.0,
|
5 |
+
"activation_function": "gelu",
|
6 |
+
"add_bias_logits": false,
|
7 |
+
"add_final_layer_norm": true,
|
8 |
+
"architectures": [
|
9 |
+
"MBartForConditionalGeneration"
|
10 |
+
],
|
11 |
+
"attention_dropout": 0.0,
|
12 |
+
"bos_token_id": 0,
|
13 |
+
"classif_dropout": 0.0,
|
14 |
+
"classifier_dropout": 0.0,
|
15 |
+
"d_model": 1024,
|
16 |
+
"decoder_attention_heads": 16,
|
17 |
+
"decoder_ffn_dim": 4096,
|
18 |
+
"decoder_layerdrop": 0.0,
|
19 |
+
"decoder_layers": 12,
|
20 |
+
"decoder_start_token_id": 2,
|
21 |
+
"dropout": 0.1,
|
22 |
+
"early_stopping": true,
|
23 |
+
"encoder_attention_heads": 16,
|
24 |
+
"encoder_ffn_dim": 4096,
|
25 |
+
"encoder_layerdrop": 0.0,
|
26 |
+
"encoder_layers": 12,
|
27 |
+
"eos_token_id": 2,
|
28 |
+
"forced_eos_token_id": 2,
|
29 |
+
"gradient_checkpointing": false,
|
30 |
+
"id2label": {
|
31 |
+
"0": "LABEL_0",
|
32 |
+
"1": "LABEL_1",
|
33 |
+
"2": "LABEL_2"
|
34 |
+
},
|
35 |
+
"init_std": 0.02,
|
36 |
+
"is_encoder_decoder": true,
|
37 |
+
"label2id": {
|
38 |
+
"LABEL_0": 0,
|
39 |
+
"LABEL_1": 1,
|
40 |
+
"LABEL_2": 2
|
41 |
+
},
|
42 |
+
"max_length": 200,
|
43 |
+
"max_position_embeddings": 1024,
|
44 |
+
"model_type": "mbart",
|
45 |
+
"normalize_before": true,
|
46 |
+
"normalize_embedding": true,
|
47 |
+
"num_beams": 5,
|
48 |
+
"num_hidden_layers": 12,
|
49 |
+
"output_past": true,
|
50 |
+
"pad_token_id": 1,
|
51 |
+
"scale_embedding": true,
|
52 |
+
"static_position_embeddings": false,
|
53 |
+
"tokenizer_class": "MBart50Tokenizer",
|
54 |
+
"transformers_version": "4.2.0",
|
55 |
+
"use_cache": true,
|
56 |
+
"vocab_size": 250054
|
57 |
+
}
|
pytorch_model.bin
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:59ad07c3fad3cfa1c4ebd75b101ff84296159bea678af02b67e34eaf38d22ce5
|
3 |
+
size 2444722195
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
3 |
+
size 5069051
|
special_tokens_map.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": "<mask>", "additional_special_tokens": ["ar_AR", "cs_CZ", "de_DE", "en_XX", "es_XX", "et_EE", "fi_FI", "fr_XX", "gu_IN", "hi_IN", "it_IT", "ja_XX", "kk_KZ", "ko_KR", "lt_LT", "lv_LV", "my_MM", "ne_NP", "nl_XX", "ro_RO", "ru_RU", "si_LK", "tr_TR", "vi_VN", "zh_CN", "af_ZA", "az_AZ", "bn_IN", "fa_IR", "he_IL", "hr_HR", "id_ID", "ka_GE", "km_KH", "mk_MK", "ml_IN", "mn_MN", "mr_IN", "pl_PL", "ps_AF", "pt_XX", "sv_SE", "sw_KE", "ta_IN", "te_IN", "th_TH", "tl_XX", "uk_UA", "ur_PK", "xh_ZA", "gl_ES", "sl_SI"]}
|
tf_model.h5
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:70a1ddbd808f83aaeacea81e04ac8f1f776143b6699fb5418c2c1b540191cc67
|
3 |
+
size 2444052664
|
tokenizer_config.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "tokenizer_file": null, "src_lang": "fr_XX", "tgt_lang": null, "model_max_length": 1024, "name_or_path": "facebook/mbart-large-50", "special_tokens_map_file": "/home/suraj/projects/mbart-50/hf_models/mbart-50-large/special_tokens_map.json"}
|