mohalisad commited on
Commit
75052de
·
verified ·
1 Parent(s): a186bf0

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +113 -0
README.md ADDED
@@ -0,0 +1,113 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - fa
5
+ library_name: sentence-transformers
6
+ pipeline_tag: sentence-similarity
7
+ tags:
8
+ - sentence-transformers
9
+ - sentence-similarity
10
+ - feature-extraction
11
+ - loss:CachedMultipleNegativesRankingLoss
12
+ widget:
13
+ - source_sentence: درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.
14
+ sentences:
15
+ - >-
16
+ درناها با قامتی بلند و بال‌های پهن، از زیباترین پرندگان مهاجر به شمار
17
+ می‌روند.
18
+ - درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمی‌کنند.
19
+ - ایران برای بار دیگر توانست به مدال طلا دست یابد.
20
+ - source_sentence: در زمستان هوای تهران بسیار آلوده است.
21
+ sentences:
22
+ - تهران هوای پاکی در فصل زمستان دارد.
23
+ - مشهد و تهران شلوغ‌ترین شهرهای ایران هستند.
24
+ - در زمستان‌ها هوای تهران پاک نیست.
25
+ - source_sentence: یادگیری زبان خارجی فرصت‌های شغلی را افزایش می‌دهد.
26
+ sentences:
27
+ - تسلط بر چند زبان، شانس استخدام در شرکت‌های بین‌المللی را بالا می‌برد.
28
+ - دانستن زبان‌های خارجی تأثیری در موفقیت شغلی ندارد.
29
+ - دمای هوا در قطب جنوب به پایین‌ترین حد خود در 50 سال اخیر رسید.
30
+ - source_sentence: سفر کردن باعث گسترش دیدگاه‌های فرهنگی می‌شود.
31
+ sentences:
32
+ - بازدید از کشورهای مختلف به درک بهتر تنوع فرهنگی کمک می‌کند.
33
+ - سفر کردن هیچ تأثیری بر دیدگاه‌های فرهنگی افراد ندارد
34
+ - دمای هوا در قطب جنوب به پایین‌ترین حد خود در 50 سال اخیر رسید.
35
+ base_model:
36
+ - PartAI/TookaBERT-Large
37
+ ---
38
+
39
+ # SentenceTransformer
40
+
41
+ This is a [sentence-transformers](https://www.SBERT.net) model trained. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
42
+
43
+ ## Model Details
44
+
45
+ ### Model Description
46
+ - **Model Type:** Sentence Transformer
47
+ - **Base model:** [TookaBERT-Large](https://huggingface.co/PartAI/TookaBERT-Large)
48
+ - **Maximum Sequence Length:** 512 tokens
49
+ - **Output Dimensionality:** 1024 tokens
50
+ - **Similarity Function:** Cosine Similarity
51
+ - **Language:** Persian
52
+
53
+
54
+ ## Usage
55
+
56
+ ### Direct Usage (Sentence Transformers)
57
+
58
+ First install the Sentence Transformers library:
59
+
60
+ ```bash
61
+ pip install -U sentence-transformers
62
+ ```
63
+
64
+ Then you can load this model and run inference.
65
+ ```python
66
+ from sentence_transformers import SentenceTransformer
67
+
68
+ # Download from the 🤗 Hub
69
+ model = SentenceTransformer("sentence_transformers_model_id")
70
+ # Run inference
71
+ sentences = [
72
+ 'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
73
+ 'درناها با قامتی بلند و بال‌های پهن، از زیباترین پرندگان مهاجر به شمار می‌روند.',
74
+ 'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمی‌کنند.'
75
+ ]
76
+ embeddings = model.encode(sentences)
77
+ print(embeddings.shape)
78
+ # [3, 1024]
79
+
80
+ # Get the similarity scores for the embeddings
81
+ similarities = model.similarity(embeddings, embeddings)
82
+ print(similarities.shape)
83
+ # [3, 3]
84
+ ```
85
+
86
+ ## Citation
87
+
88
+ ### BibTeX
89
+
90
+ #### Sentence Transformers
91
+ ```bibtex
92
+ @inproceedings{reimers-2019-sentence-bert,
93
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
94
+ author = "Reimers, Nils and Gurevych, Iryna",
95
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
96
+ month = "11",
97
+ year = "2019",
98
+ publisher = "Association for Computational Linguistics",
99
+ url = "https://arxiv.org/abs/1908.10084",
100
+ }
101
+ ```
102
+
103
+ #### CachedMultipleNegativesRankingLoss
104
+ ```bibtex
105
+ @misc{gao2021scaling,
106
+ title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
107
+ author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
108
+ year={2021},
109
+ eprint={2101.06983},
110
+ archivePrefix={arXiv},
111
+ primaryClass={cs.LG}
112
+ }
113
+ ```