--- base_model: intfloat/multilingual-e5-large library_name: sentence-transformers pipeline_tag: sentence-similarity tags: - sentence-transformers - sentence-similarity - feature-extraction - generated_from_trainer - dataset_size:1114945 - loss:MultipleNegativesRankingLoss - loss:CoSENTLoss widget: - source_sentence: Quelles sont les exigences pour qu'un objet soit classé comme une planète? sentences: - Ce second scénario pousse certains astronomes, à parler de « planète » à propos de ces objets, puisqu'elles ont été des planètes classiques avant d’être éjectées de leur orbite autour de leur étoile. À l’inverse, d’autres scientifiques nient ce statut car ils défendent l’idée que la définition d’une planète dépend de son état observable immédiat et non de son origine. Ils avancent aussi, pour le premier scénario décrit ici, que ces objets ne seraient donc pas des planètes mais plutôt des naines brunes. - En 2006, lors de la tentative de définition officielle précise du terme « planète » par l'Union astronomique internationale, il fut proposé qu'une planète soit définie comme un corps orbitant autour du Soleil et suffisamment grand pour être de forme globalement sphérique. Selon cette proposition, Charon aurait été considéré comme une planète, puisqu'un satellite aurait été explicitement défini comme tournant autour d'un barycentre situé à l'intérieur du corps principal. La définition finalement adoptée exige qu'une planète ait également éliminé tout objet de taille comparable sur son orbite. Un objet répondant aux précédents critères mais pas au dernier est qualifié de planète naine et Pluton a donc reçu cette nouvelle classification. Charon n'a pas été explicitement classée et reste donc, pour le moment, officiellement considéré comme satellite de Pluton. - La plupart des planeurs sont capables d'effectuer des figures de base de voltige, mais du fait de leur envergure, ils sont moins maniables que les avions. Pour les compétitions, il existe donc des planeurs de voltige, d'envergure moindre donc très maniables, mais dont la finesse plus faible les rend moins apte au vol à voile. - source_sentence: 189 et les coûts d'utilisation sont estimés de la même manière. sentences: - Après avoir regardé autour de ces collections, grimpez la colline jusqu'à la maison de la commissaire, où vous trouverez de belles vues sur la côte environnante et le reste du complexe de l'arsenal maritime. - Ils connaissaient les coûts d'utilisateur exacts. - 189 et les coûts d'utilisation sont estimés de la même manière. - source_sentence: c'est vrai, ils vont passer par la fente sentences: - Ailleurs dans le jardin du prince, dans un bâtiment moderne appelé la Maison du Marin (Casa de Marinos), vous pouvez découvrir ce que devint l'étrange escadre du Tage de la flotte royale. - Ils vont à l'inauguration. - c'est vrai, ils vont passer par la fente - source_sentence: Créer des moments permettant aux parents et aux enfants d'être ensemble constitue un préalable à l'implémentation des idées et des pratiques dont je parle dans ce livre. sentences: - Avant que les Américains n’en prennent le contrôle, Culebra était appelée l'île Vierge espagnole. Elle est située dans les îles Vierges des États-Unis, à mi-chemin entre Puerto Rico et St. Thomas. - Créer des moments permettant aux parents et aux enfants d'être ensemble constitue un préalable à l'implémentation des idées et des pratiques dont je parle dans ce livre. - Ce livre nous explique que les parents ne devraient pas passer de temps avec leurs enfants. - source_sentence: Tenet est sous surveillance depuis novembre, lorsque l'ancien directeur général Jeffrey Barbakow a déclaré que la société a utilisé des prix agressifs pour déclencher des paiements plus élevés pour les patients les plus malades de l'assurance maladie. sentences: - Il est destiné à stimuler la croissance des racines - en particulier à stimuler la création de racines. - En novembre, Jeffrey Brabakow, le directeur général de l'époque, a déclaré que la société utilisait des prix agressifs pour obtenir des paiements plus élevés pour les patients les plus malades de l'assurance maladie. - La femme est en route pour un rendez-vous. --- # SentenceTransformer based on intfloat/multilingual-e5-large This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) - **Maximum Sequence Length:** 512 tokens - **Output Dimensionality:** 1024 tokens - **Similarity Function:** Cosine Similarity ### Model Sources - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("bourdoiscatie/multilingual-e5-large-approche5") # Run inference sentences = [ "Tenet est sous surveillance depuis novembre, lorsque l'ancien directeur général Jeffrey Barbakow a déclaré que la société a utilisé des prix agressifs pour déclencher des paiements plus élevés pour les patients les plus malades de l'assurance maladie.", "En novembre, Jeffrey Brabakow, le directeur général de l'époque, a déclaré que la société utilisait des prix agressifs pour obtenir des paiements plus élevés pour les patients les plus malades de l'assurance maladie.", 'La femme est en route pour un rendez-vous.', ] embeddings = model.encode(sentences) print(embeddings.shape) # [3, 1024] # Get the similarity scores for the embeddings similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] ``` ## Training Details ### Training Hyperparameters #### Non-Default Hyperparameters - `eval_strategy`: epoch - `learning_rate`: 1e-05 - `weight_decay`: 0.01 - `num_train_epochs`: 1 - `batch_sampler`: no_duplicates #### All Hyperparameters
Click to expand - `overwrite_output_dir`: False - `do_predict`: False - `eval_strategy`: epoch - `prediction_loss_only`: True - `per_device_train_batch_size`: 8 - `per_device_eval_batch_size`: 8 - `per_gpu_train_batch_size`: None - `per_gpu_eval_batch_size`: None - `gradient_accumulation_steps`: 1 - `eval_accumulation_steps`: None - `torch_empty_cache_steps`: None - `learning_rate`: 1e-05 - `weight_decay`: 0.01 - `adam_beta1`: 0.9 - `adam_beta2`: 0.999 - `adam_epsilon`: 1e-08 - `max_grad_norm`: 1.0 - `num_train_epochs`: 1 - `max_steps`: -1 - `lr_scheduler_type`: linear - `lr_scheduler_kwargs`: {} - `warmup_ratio`: 0.0 - `warmup_steps`: 0 - `log_level`: passive - `log_level_replica`: warning - `log_on_each_node`: True - `logging_nan_inf_filter`: True - `save_safetensors`: True - `save_on_each_node`: False - `save_only_model`: False - `restore_callback_states_from_checkpoint`: False - `no_cuda`: False - `use_cpu`: False - `use_mps_device`: False - `seed`: 42 - `data_seed`: None - `jit_mode_eval`: False - `use_ipex`: False - `bf16`: False - `fp16`: False - `fp16_opt_level`: O1 - `half_precision_backend`: auto - `bf16_full_eval`: False - `fp16_full_eval`: False - `tf32`: None - `local_rank`: 0 - `ddp_backend`: None - `tpu_num_cores`: None - `tpu_metrics_debug`: False - `debug`: [] - `dataloader_drop_last`: False - `dataloader_num_workers`: 0 - `dataloader_prefetch_factor`: None - `past_index`: -1 - `disable_tqdm`: False - `remove_unused_columns`: True - `label_names`: None - `load_best_model_at_end`: False - `ignore_data_skip`: False - `fsdp`: [] - `fsdp_min_num_params`: 0 - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} - `fsdp_transformer_layer_cls_to_wrap`: None - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} - `deepspeed`: None - `label_smoothing_factor`: 0.0 - `optim`: adamw_torch - `optim_args`: None - `adafactor`: False - `group_by_length`: False - `length_column_name`: length - `ddp_find_unused_parameters`: None - `ddp_bucket_cap_mb`: None - `ddp_broadcast_buffers`: False - `dataloader_pin_memory`: True - `dataloader_persistent_workers`: False - `skip_memory_metrics`: True - `use_legacy_prediction_loop`: False - `push_to_hub`: False - `resume_from_checkpoint`: None - `hub_model_id`: None - `hub_strategy`: every_save - `hub_private_repo`: False - `hub_always_push`: False - `gradient_checkpointing`: False - `gradient_checkpointing_kwargs`: None - `include_inputs_for_metrics`: False - `eval_do_concat_batches`: True - `fp16_backend`: auto - `push_to_hub_model_id`: None - `push_to_hub_organization`: None - `mp_parameters`: - `auto_find_batch_size`: False - `full_determinism`: False - `torchdynamo`: None - `ray_scope`: last - `ddp_timeout`: 1800 - `torch_compile`: False - `torch_compile_backend`: None - `torch_compile_mode`: None - `dispatch_batches`: None - `split_batches`: None - `include_tokens_per_second`: False - `include_num_input_tokens_seen`: False - `neftune_noise_alpha`: None - `optim_target_modules`: None - `batch_eval_metrics`: False - `eval_on_start`: False - `use_liger_kernel`: False - `eval_use_gather_object`: False - `batch_sampler`: no_duplicates - `multi_dataset_batch_sampler`: proportional
### Training Logs | Epoch | Step | Training Loss | nli loss | sts loss | triplet loss | |:------:|:-----:|:-------------:|:--------:|:--------:|:------------:| | 0.0137 | 500 | 2.3683 | - | - | - | | 0.0273 | 1000 | 2.2564 | - | - | - | | 0.0410 | 1500 | 2.3976 | - | - | - | | 0.0547 | 2000 | 2.1925 | - | - | - | | 0.0684 | 2500 | 2.1542 | - | - | - | | 0.0820 | 3000 | 2.0945 | - | - | - | | 0.0957 | 3500 | 2.1411 | - | - | - | | 0.1094 | 4000 | 1.9079 | - | - | - | | 0.1231 | 4500 | 1.7574 | - | - | - | | 0.1367 | 5000 | 2.1923 | - | - | - | | 0.1504 | 5500 | 2.0054 | - | - | - | | 0.1641 | 6000 | 1.6717 | - | - | - | | 0.1778 | 6500 | 1.7374 | - | - | - | | 0.1914 | 7000 | 2.0042 | - | - | - | | 0.2051 | 7500 | 1.7486 | - | - | - | | 0.2188 | 8000 | 1.5635 | - | - | - | | 0.2324 | 8500 | 1.8133 | - | - | - | | 0.2461 | 9000 | 1.7885 | - | - | - | | 0.2598 | 9500 | 1.6298 | - | - | - | | 0.2735 | 10000 | 1.3568 | - | - | - | | 0.2871 | 10500 | 1.8475 | - | - | - | | 0.3008 | 11000 | 1.7642 | - | - | - | | 0.3145 | 11500 | 1.4048 | - | - | - | | 0.3282 | 12000 | 1.3782 | - | - | - | | 0.3418 | 12500 | 1.8164 | - | - | - | | 0.3555 | 13000 | 1.5559 | - | - | - | | 0.3692 | 13500 | 1.2515 | - | - | - | | 0.3828 | 14000 | 1.4736 | - | - | - | | 0.3965 | 14500 | 1.5527 | - | - | - | | 0.4102 | 15000 | 1.384 | - | - | - | | 0.4239 | 15500 | 1.167 | - | - | - | | 0.4375 | 16000 | 1.6116 | - | - | - | | 0.4512 | 16500 | 1.5668 | - | - | - | | 0.4649 | 17000 | 1.1458 | - | - | - | | 0.4786 | 17500 | 1.1103 | - | - | - | | 0.4922 | 18000 | 1.6152 | - | - | - | | 0.5059 | 18500 | 1.347 | - | - | - | | 0.5196 | 19000 | 1.1 | - | - | - | | 0.5333 | 19500 | 1.2662 | - | - | - | | 0.5469 | 20000 | 1.456 | - | - | - | | 0.5606 | 20500 | 1.1928 | - | - | - | | 0.5743 | 21000 | 0.9972 | - | - | - | | 0.5879 | 21500 | 1.4499 | - | - | - | | 0.6016 | 22000 | 1.3264 | - | - | - | | 0.6153 | 22500 | 1.003 | - | - | - | | 0.6290 | 23000 | 1.0512 | - | - | - | | 0.6426 | 23500 | 1.3041 | - | - | - | | 0.6563 | 24000 | 1.1227 | - | - | - | | 0.6700 | 24500 | 0.9579 | - | - | - | | 0.6837 | 25000 | 1.1196 | - | - | - | | 0.6973 | 25500 | 1.1362 | - | - | - | | 0.7110 | 26000 | 1.0376 | - | - | - | | 0.7247 | 26500 | 0.8037 | - | - | - | | 0.7384 | 27000 | 1.2622 | - | - | - | | 0.7520 | 27500 | 1.1696 | - | - | - | | 0.7657 | 28000 | 0.8923 | - | - | - | | 0.7794 | 28500 | 0.8389 | - | - | - | | 0.7930 | 29000 | 1.2655 | - | - | - | | 0.8067 | 29500 | 0.965 | - | - | - | | 0.8204 | 30000 | 0.8043 | - | - | - | | 0.8341 | 30500 | 1.0491 | - | - | - | | 0.8477 | 31000 | 1.1186 | - | - | - | | 0.8614 | 31500 | 0.8794 | - | - | - | | 0.8751 | 32000 | 0.7776 | - | - | - | | 0.8888 | 32500 | 1.1299 | - | - | - | | 0.9024 | 33000 | 0.9544 | - | - | - | | 0.9161 | 33500 | 0.7195 | - | - | - | | 0.9298 | 34000 | 0.8298 | - | - | - | | 0.9434 | 34500 | 1.0767 | - | - | - | | 0.9571 | 35000 | 0.8287 | - | - | - | | 0.9708 | 35500 | 0.7331 | - | - | - | | 0.9845 | 36000 | 0.904 | - | - | - | | 0.9981 | 36500 | 0.9645 | - | - | - | | 1.0 | 36568 | - | 0.0193 | 5.4479 | 0.5933 | ### Framework Versions - Python: 3.12.6 - Sentence Transformers: 3.1.1 - Transformers: 4.45.2 - PyTorch: 2.4.0+cu121 - Accelerate: 0.29.3 - Datasets: 3.0.2 - Tokenizers: 0.20.1 ## Citation ### BibTeX #### Sentence Transformers ```bibtex @inproceedings{reimers-2019-sentence-bert, title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2019", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/1908.10084", } ``` #### MultipleNegativesRankingLoss ```bibtex @misc{henderson2017efficient, title={Efficient Natural Language Response Suggestion for Smart Reply}, author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil}, year={2017}, eprint={1705.00652}, archivePrefix={arXiv}, primaryClass={cs.CL} } ``` #### CoSENTLoss ```bibtex @online{kexuefm-8847, title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT}, author={Su Jianlin}, year={2022}, month={Jan}, url={https://kexue.fm/archives/8847}, } ```