intfloat
/

multilingual-e5-base

@@ -6828,7 +6828,42 @@ but low-resource languages may see performance degradation.
 ## Training Details
-Please refer to our paper at [https://arxiv.org/pdf/2212.03533.pdf](https://arxiv.org/pdf/2212.03533.pdf).
 ## Benchmark Evaluation

 ## Training Details
+**Initialization**: [xlm-roberta-base](https://huggingface.co/xlm-roberta-base)
+**First stage**: contrastive pre-training with weak supervision
+| Dataset                                                                                                | Weak supervision                      | # of text pairs |
+|--------------------------------------------------------------------------------------------------------|---------------------------------------|-----------------|
+| Filtered [mC4](https://huggingface.co/datasets/mc4)                                                    | (title, page content)                 | 1B              |
+| [CC News](https://huggingface.co/datasets/intfloat/multilingual_cc_news)                               | (title, news content)                 | 400M            |
+| [NLLB](https://huggingface.co/datasets/allenai/nllb)                                                   | translation pairs                     | 2.4B            |
+| [Wikipedia](https://huggingface.co/datasets/intfloat/wikipedia)                                        | (hierarchical section title, passage) | 150M            |
+| Filtered [Reddit](https://www.reddit.com/)                                                             | (comment, response)                   | 800M            |
+| [S2ORC](https://github.com/allenai/s2orc)                                                              | (title, abstract) and citation pairs  | 100M            |
+| [Stackexchange](https://stackexchange.com/)                                                            | (question, answer)                    | 50M             |
+| [xP3](https://huggingface.co/datasets/bigscience/xP3)                                                  | (input prompt, response)              | 80M             |
+| [Miscellaneous unsupervised SBERT data](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2) | -                                     | 10M             |
+**Second stage**: supervised fine-tuning
+| Dataset                                                                                | Language     | # of text pairs |
+|----------------------------------------------------------------------------------------|--------------|-----------------|
+| [MS MARCO](https://microsoft.github.io/msmarco/)                                       | English      | 500k            |
+| [NQ](https://github.com/facebookresearch/DPR)                                          | English      | 70k             |
+| [Trivia QA](https://github.com/facebookresearch/DPR)                                   | English      | 60k             |
+| [NLI from SimCSE](https://github.com/princeton-nlp/SimCSE)                             | English      | <300k           |
+| [ELI5](https://huggingface.co/datasets/eli5)                                           | English      | 500k            |
+| [DuReader Retrieval](https://github.com/baidu/DuReader/tree/master/DuReader-Retrieval) | Chinese      | 86k             |
+| [KILT Fever](https://huggingface.co/datasets/kilt_tasks)                               | English      | 70k             |
+| [KILT HotpotQA](https://huggingface.co/datasets/kilt_tasks)                            | English      | 70k             |
+| [SQuAD](https://huggingface.co/datasets/squad)                                         | English      | 87k             |
+| [Quora](https://huggingface.co/datasets/quora)                                         | English      | 150k            |
+| [Mr. TyDi](https://huggingface.co/datasets/castorini/mr-tydi)                                                                           | 11 languages | 50k             |
+| [MIRACL](https://huggingface.co/datasets/miracl/miracl)                                                                             | 16 languages | 40k             |
+For all labeled datasets, we only use its training set for fine-tuning.
+For other training details, please refer to our paper at [https://arxiv.org/pdf/2212.03533.pdf](https://arxiv.org/pdf/2212.03533.pdf).
 ## Benchmark Evaluation