tintnguyen commited on
Commit
4705cc6
1 Parent(s): 7ba1dde

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,508 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:1449744
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: tintnguyen/bert-base-vi-uncased-st-3
10
+ widget:
11
+ - source_sentence: đánh chìm hms lightning khi nào
12
+ sentences:
13
+ - 'Nữ tính ::: Nữ tính là một tập hợp các thuộc tính, hành vi và vai trò thường
14
+ liên quan đến con gái và phụ nữ. Nữ tính được xây dựng một phần về mặt xã hội,
15
+ được tạo thành từ cả hai yếu tố được xác định về mặt xã hội và sinh học. Điều
16
+ này làm cho nữ tính khác biệt với định nghĩa về giới tính nữ sinh học, vì cả nam
17
+ và nữ đều có thể biểu hiện những đặc điểm nữ tính.'
18
+ - 'HMS Lightning (G55) ::: HMS Lightning (G55) là một tàu khu trục lớp L được Hải
19
+ quân Hoàng gia Anh Quốc chế tạo vào cuối những năm 1930. Nó đã nhập biên chế và
20
+ phục vụ trong Chiến tranh Thế giới thứ hai cho đến khi bị đánh chìm bởi ngư lôi
21
+ phóng từ tàu phóng lôi E-boat Đức S-55 tại Địa Trung Hải vào ngày 12 tháng 3 năm
22
+ 1943.'
23
+ - 'HMS Glowworm (H92) ::: HMS Glowworm (H92) là một tàu khu trục lớp G được chế
24
+ tạo cho Hải quân Hoàng gia Anh Quốc vào giữa những năm 1930. Nó trải qua một phần
25
+ lớn thời gian tại vùng biển Tây Ban Nha trong giai đoạn Nội chiến ở nước này vào
26
+ năm 1936–1939, thực thi chính sách cấm vận vũ khí mà Anh và Pháp áp đặt cho các
27
+ bên xung đột. Nó được điều từ Hạm đội Địa Trung Hải trở về quần đảo Anh vào đầu
28
+ Chiến tranh Thế giới thứ hai để hộ tống tàu bè tại vùng biển nhà. Đến tháng 3
29
+ năm 1940, nó được điều sang Hạm đội Nhà vừa kịp lúc để tham gia giai đoạn mở màn
30
+ của Chiến dịch Na Uy. Vào ngày 8 tháng 4 năm 1940, Glowworm đụng độ với các tàu
31
+ khu trục Đức đang vận chuyển binh lính xâm chiếm Na Uy trong Chiến dịch Weserübung.
32
+ Các tàu khu trục Đức tìm cách tách khỏi trận chiến và gửi tín hiệu cầu cứu đến
33
+ tàu tuần dương hạng nặng Admiral Hipper. Glowworm bị hư hại nặng bởi hỏa lực pháo
34
+ hạng nặng của Admiral Hipper, nhưng vẫn tìm cách phóng ngư lôi vào chiếc tàu chiến
35
+ Đức. Hai con tàu va chạm, làm vỡ mũi tàu của Glowworm, và nó đắm không lâu sau
36
+ đó.'
37
+ - source_sentence: cầu thủ bóng đá milison niasexe sinh năm bao nhiêu
38
+ sentences:
39
+ - 'Daniel Jarl ::: Daniel Jarl (born ngày 13 tháng 4 năm 1992) là một cầu thủ bóng
40
+ đá người Thụy Điển thi đấu cho IK Sirius ở vị trí hậu vệ.'
41
+ - 'Milison Niasexe ::: Milison Niasexe (sinh ngày 16 tháng 2 năm 1986 ở Adema) là
42
+ một cầu thủ bóng đá người Madagascar, hiện tại thi đấu cho Anse Réunion FC.'
43
+ - 'Thierno Niang (cầu thủ bóng đá) ::: Thierno Niang (sinh ngày 18 tháng 1 năm 1992)
44
+ là một cầu thủ bóng đá người Sénégal thi đấu cho S.C. Freamunde.'
45
+ - source_sentence: dân số của zebrzydowice
46
+ sentences:
47
+ - 'Zbizuby ::: Zbizuby là một làng thuộc huyện Kutná Hora, vùng Středočeský, Cộng
48
+ hòa Séc.'
49
+ - 'Krzekoszewo ::: Krzekoszewo là một khu định cư ở khu hành chính của Gmina Malechowo,
50
+ thuộc hạt Sławno, West Pomeranian Voivodeship, ở phía tây bắc Ba Lan. Nó nằm khoảng
51
+ 7 kilômét (4 dặm) phía nam Malechowo, 18 km (11 dặm) phía tây nam Sławno và
52
+ 157 km (98 dặm) về phía đông bắc của thủ đô khu vực Szczecin.'
53
+ - 'Zebrzydowice, Rybnik ::: Zebrzydowice (tiếng Đức: Seibersdorf) là một quận của
54
+ Rybnik, Silesian Voivodeship, miền nam Ba Lan. Vào ngày 31 tháng 12 năm 2013,
55
+ quận có 3.150 cư dân.'
56
+ - source_sentence: tạp chí thủy sản việt nam là gì
57
+ sentences:
58
+ - 'Tạp chí Thủy sản Việt Nam ::: Tạp chí Thủy sản Việt Nam là tạp chí về lĩnh vực
59
+ thủy sản tại Việt Nam, là diễn đàn của nông ngư dân, doanh nghiệp, hoạt động trên
60
+ các lĩnh vực nuôi trồng, khai thác, chế biến, tiêu thụ và dịch vụ hậu cần nghề
61
+ cá. Chuyển tải thông tin về khoa học và công nghệ đến với bà nông, ngư dân, doanh
62
+ nghiệp.'
63
+ - 'Độc tố thủy sản ::: Dưới đây là danh mục độc tố từ thủy sản, hải sản'
64
+ - 'Nick van der Velden ::: Nick van der Velden (sinh ngày 16 tháng 12 năm 1981)
65
+ là một cầu thủ bóng đá người Hà Lan hiện tại thi đấu cho câu lạc bộ Indonesia
66
+ Bali United ở Liga 1. Trước đây anh thi đấu cho FC Dordrecht, RKC Waalwijk, AZ
67
+ Alkmaar, NEC, FC Groningen, Willem II và Dundee United. Tại AZ anh giành chức
68
+ vô địch Eredivisie 2008-09.'
69
+ - source_sentence: rotheca là gì
70
+ sentences:
71
+ - 'Rotheca ::: Rotheca là một chi thực vật có hoa trong họ Hoa môi (Lamiaceae).'
72
+ - 'Rothera ::: Trạm Nghiên cứu Rothera là một Cơ sở Khảo sát Nam Cực của Anh (BAS)
73
+ trên bán đảo Nam Cực, tọa lạc tại Điểm Rothera, Đảo Adelaide. Rothera cũng phục
74
+ vụ như là thủ phủ của Lãnh thổ Nam Cực thuộc Anh, Lãnh thổ hải ngoại thuộc Anh.'
75
+ - 'Kim Bo-hyon ::: Kim Bo-hyon (tiếng Triều Tiên: 김보현; Hanja: 金輔鉉; 3 tháng 10 năm
76
+ 1871 - 2 tháng 9 năm 1955) xuất thân là một nông dân từ tỉnh Nam Pyongan. Ông
77
+ là ông nội của người sáng lập Cộng hòa Dân chủ Nhân dân Triều Tiên, Kim Nhật Thành.'
78
+ datasets:
79
+ - tintnguyen/generated-viwiki-questions-negs-2
80
+ pipeline_tag: sentence-similarity
81
+ library_name: sentence-transformers
82
+ ---
83
+
84
+ # SentenceTransformer based on tintnguyen/bert-base-vi-uncased-st-3
85
+
86
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [tintnguyen/bert-base-vi-uncased-st-3](https://huggingface.co/tintnguyen/bert-base-vi-uncased-st-3) on the [train](https://huggingface.co/datasets/tintnguyen/generated-viwiki-questions-negs-2) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
87
+
88
+ ## Model Details
89
+
90
+ ### Model Description
91
+ - **Model Type:** Sentence Transformer
92
+ - **Base model:** [tintnguyen/bert-base-vi-uncased-st-3](https://huggingface.co/tintnguyen/bert-base-vi-uncased-st-3) <!-- at revision 72088a5ac2d4aca6cf16ac93835adc44c7222ad6 -->
93
+ - **Maximum Sequence Length:** 512 tokens
94
+ - **Output Dimensionality:** 768 dimensions
95
+ - **Similarity Function:** Cosine Similarity
96
+ - **Training Dataset:**
97
+ - [train](https://huggingface.co/datasets/tintnguyen/generated-viwiki-questions-negs-2)
98
+ <!-- - **Language:** Unknown -->
99
+ <!-- - **License:** Unknown -->
100
+
101
+ ### Model Sources
102
+
103
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
104
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
105
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
106
+
107
+ ### Full Model Architecture
108
+
109
+ ```
110
+ SentenceTransformer(
111
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
112
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
113
+ )
114
+ ```
115
+
116
+ ## Usage
117
+
118
+ ### Direct Usage (Sentence Transformers)
119
+
120
+ First install the Sentence Transformers library:
121
+
122
+ ```bash
123
+ pip install -U sentence-transformers
124
+ ```
125
+
126
+ Then you can load this model and run inference.
127
+ ```python
128
+ from sentence_transformers import SentenceTransformer
129
+
130
+ # Download from the 🤗 Hub
131
+ model = SentenceTransformer("tintnguyen/bert-base-vi-uncased-st-4")
132
+ # Run inference
133
+ sentences = [
134
+ 'rotheca là gì',
135
+ 'Rotheca ::: Rotheca là một chi thực vật có hoa trong họ Hoa môi (Lamiaceae).',
136
+ 'Rothera ::: Trạm Nghiên cứu Rothera là một Cơ sở Khảo sát Nam Cực của Anh (BAS) trên bán đảo Nam Cực, tọa lạc tại Điểm Rothera, Đảo Adelaide. Rothera cũng phục vụ như là thủ phủ của Lãnh thổ Nam Cực thuộc Anh, Lãnh thổ hải ngoại thuộc Anh.',
137
+ ]
138
+ embeddings = model.encode(sentences)
139
+ print(embeddings.shape)
140
+ # [3, 768]
141
+
142
+ # Get the similarity scores for the embeddings
143
+ similarities = model.similarity(embeddings, embeddings)
144
+ print(similarities.shape)
145
+ # [3, 3]
146
+ ```
147
+
148
+ <!--
149
+ ### Direct Usage (Transformers)
150
+
151
+ <details><summary>Click to see the direct usage in Transformers</summary>
152
+
153
+ </details>
154
+ -->
155
+
156
+ <!--
157
+ ### Downstream Usage (Sentence Transformers)
158
+
159
+ You can finetune this model on your own dataset.
160
+
161
+ <details><summary>Click to expand</summary>
162
+
163
+ </details>
164
+ -->
165
+
166
+ <!--
167
+ ### Out-of-Scope Use
168
+
169
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
170
+ -->
171
+
172
+ <!--
173
+ ## Bias, Risks and Limitations
174
+
175
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
176
+ -->
177
+
178
+ <!--
179
+ ### Recommendations
180
+
181
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
182
+ -->
183
+
184
+ ## Training Details
185
+
186
+ ### Training Dataset
187
+
188
+ #### train
189
+
190
+ * Dataset: [train](https://huggingface.co/datasets/tintnguyen/generated-viwiki-questions-negs-2) at [73dbd75](https://huggingface.co/datasets/tintnguyen/generated-viwiki-questions-negs-2/tree/73dbd75d7f4f0e53659bf3a556800e0989fd8643)
191
+ * Size: 1,449,744 training samples
192
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
193
+ * Approximate statistics based on the first 1000 samples:
194
+ | | anchor | positive | negative |
195
+ |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
196
+ | type | string | string | string |
197
+ | details | <ul><li>min: 6 tokens</li><li>mean: 10.87 tokens</li><li>max: 26 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 93.5 tokens</li><li>max: 402 tokens</li></ul> | <ul><li>min: 19 tokens</li><li>mean: 99.32 tokens</li><li>max: 463 tokens</li></ul> |
198
+ * Samples:
199
+ | anchor | positive | negative |
200
+ |:----------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
201
+ | <code>cầu thủ ahn joon-soo là ai</code> | <code>Ahn Joon-soo ::: Ahn Joon-soo (安俊洙, sinh ngày 28 tháng 1 năm 1998) là một cầu thủ bóng đá người Hàn Quốc. Anh thi đấu cho Cerezo Osaka.</code> | <code>Ahn Jung-hwan ::: Ahn Jung-Hwan (Hangul: 안정환; sinh ngày 27 tháng 1 năm 1976 tại Paju, Gyeonggi) là một cựu cầu thủ bóng đá người Hàn Quốc, anh nổi tiếng với việc ghi bàn thắng vàng cho đội tuyển Hàn Quốc trong trận gặp Ý tại vòng hai World Cup 2002 đồng thời đưa tuyển Hàn tiến vào tứ kết.</code> |
202
+ | <code>cầu thủ ahn joon-soo là ai</code> | <code>Ahn Joon-soo ::: Ahn Joon-soo (安俊洙, sinh ngày 28 tháng 1 năm 1998) là một cầu thủ bóng đá người Hàn Quốc. Anh thi đấu cho Cerezo Osaka.</code> | <code>Ahn Sung-nam ::: Ahn Sung-Nam (Hangul: 안성남; Hanja: 安成男, sinh ngày 17 tháng 4 năm 1984) là một cầu thủ bóng đá Hàn Quốc hiện tại thi đấu cho Gyeongnam FC.</code> |
203
+ | <code>cầu thủ ahn joon-soo là ai</code> | <code>Ahn Joon-soo ::: Ahn Joon-soo (安俊洙, sinh ngày 28 tháng 1 năm 1998) là một cầu thủ bóng đá người Hàn Quốc. Anh thi đấu cho Cerezo Osaka.</code> | <code>Ahn So-hee ::: Ahn So-hee (Hangul: 안소희), sinh ngày 27 tháng 6 năm 1992, là nữ ca sĩ, diễn viên, vũ công, MC người Hàn Quốc, cựu thành viên nhóm nhạc Wonder Girls do JYP quản lý nhưng đã rời JYP. Hiện cô đang đầu quân cho KeyEast, tập trung vào diễn xuất.</code> |
204
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
205
+ ```json
206
+ {
207
+ "scale": 20.0,
208
+ "similarity_fct": "cos_sim"
209
+ }
210
+ ```
211
+
212
+ ### Training Hyperparameters
213
+ #### Non-Default Hyperparameters
214
+
215
+ - `per_device_train_batch_size`: 40
216
+ - `per_device_eval_batch_size`: 32
217
+ - `learning_rate`: 2e-05
218
+ - `num_train_epochs`: 2
219
+ - `warmup_ratio`: 0.1
220
+ - `fp16`: True
221
+ - `batch_sampler`: no_duplicates
222
+
223
+ #### All Hyperparameters
224
+ <details><summary>Click to expand</summary>
225
+
226
+ - `overwrite_output_dir`: False
227
+ - `do_predict`: False
228
+ - `eval_strategy`: no
229
+ - `prediction_loss_only`: True
230
+ - `per_device_train_batch_size`: 40
231
+ - `per_device_eval_batch_size`: 32
232
+ - `per_gpu_train_batch_size`: None
233
+ - `per_gpu_eval_batch_size`: None
234
+ - `gradient_accumulation_steps`: 1
235
+ - `eval_accumulation_steps`: None
236
+ - `torch_empty_cache_steps`: None
237
+ - `learning_rate`: 2e-05
238
+ - `weight_decay`: 0.0
239
+ - `adam_beta1`: 0.9
240
+ - `adam_beta2`: 0.999
241
+ - `adam_epsilon`: 1e-08
242
+ - `max_grad_norm`: 1.0
243
+ - `num_train_epochs`: 2
244
+ - `max_steps`: -1
245
+ - `lr_scheduler_type`: linear
246
+ - `lr_scheduler_kwargs`: {}
247
+ - `warmup_ratio`: 0.1
248
+ - `warmup_steps`: 0
249
+ - `log_level`: passive
250
+ - `log_level_replica`: warning
251
+ - `log_on_each_node`: True
252
+ - `logging_nan_inf_filter`: True
253
+ - `save_safetensors`: True
254
+ - `save_on_each_node`: False
255
+ - `save_only_model`: False
256
+ - `restore_callback_states_from_checkpoint`: False
257
+ - `no_cuda`: False
258
+ - `use_cpu`: False
259
+ - `use_mps_device`: False
260
+ - `seed`: 42
261
+ - `data_seed`: None
262
+ - `jit_mode_eval`: False
263
+ - `use_ipex`: False
264
+ - `bf16`: False
265
+ - `fp16`: True
266
+ - `fp16_opt_level`: O1
267
+ - `half_precision_backend`: auto
268
+ - `bf16_full_eval`: False
269
+ - `fp16_full_eval`: False
270
+ - `tf32`: None
271
+ - `local_rank`: 0
272
+ - `ddp_backend`: None
273
+ - `tpu_num_cores`: None
274
+ - `tpu_metrics_debug`: False
275
+ - `debug`: []
276
+ - `dataloader_drop_last`: False
277
+ - `dataloader_num_workers`: 0
278
+ - `dataloader_prefetch_factor`: None
279
+ - `past_index`: -1
280
+ - `disable_tqdm`: False
281
+ - `remove_unused_columns`: True
282
+ - `label_names`: None
283
+ - `load_best_model_at_end`: False
284
+ - `ignore_data_skip`: False
285
+ - `fsdp`: []
286
+ - `fsdp_min_num_params`: 0
287
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
288
+ - `fsdp_transformer_layer_cls_to_wrap`: None
289
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
290
+ - `deepspeed`: None
291
+ - `label_smoothing_factor`: 0.0
292
+ - `optim`: adamw_torch
293
+ - `optim_args`: None
294
+ - `adafactor`: False
295
+ - `group_by_length`: False
296
+ - `length_column_name`: length
297
+ - `ddp_find_unused_parameters`: None
298
+ - `ddp_bucket_cap_mb`: None
299
+ - `ddp_broadcast_buffers`: False
300
+ - `dataloader_pin_memory`: True
301
+ - `dataloader_persistent_workers`: False
302
+ - `skip_memory_metrics`: True
303
+ - `use_legacy_prediction_loop`: False
304
+ - `push_to_hub`: False
305
+ - `resume_from_checkpoint`: None
306
+ - `hub_model_id`: None
307
+ - `hub_strategy`: every_save
308
+ - `hub_private_repo`: False
309
+ - `hub_always_push`: False
310
+ - `gradient_checkpointing`: False
311
+ - `gradient_checkpointing_kwargs`: None
312
+ - `include_inputs_for_metrics`: False
313
+ - `include_for_metrics`: []
314
+ - `eval_do_concat_batches`: True
315
+ - `fp16_backend`: auto
316
+ - `push_to_hub_model_id`: None
317
+ - `push_to_hub_organization`: None
318
+ - `mp_parameters`:
319
+ - `auto_find_batch_size`: False
320
+ - `full_determinism`: False
321
+ - `torchdynamo`: None
322
+ - `ray_scope`: last
323
+ - `ddp_timeout`: 1800
324
+ - `torch_compile`: False
325
+ - `torch_compile_backend`: None
326
+ - `torch_compile_mode`: None
327
+ - `dispatch_batches`: None
328
+ - `split_batches`: None
329
+ - `include_tokens_per_second`: False
330
+ - `include_num_input_tokens_seen`: False
331
+ - `neftune_noise_alpha`: None
332
+ - `optim_target_modules`: None
333
+ - `batch_eval_metrics`: False
334
+ - `eval_on_start`: False
335
+ - `use_liger_kernel`: False
336
+ - `eval_use_gather_object`: False
337
+ - `average_tokens_across_devices`: False
338
+ - `prompts`: None
339
+ - `batch_sampler`: no_duplicates
340
+ - `multi_dataset_batch_sampler`: proportional
341
+
342
+ </details>
343
+
344
+ ### Training Logs
345
+ <details><summary>Click to expand</summary>
346
+
347
+ | Epoch | Step | Training Loss |
348
+ |:------:|:-----:|:-------------:|
349
+ | 0.0138 | 500 | 0.2135 |
350
+ | 0.0276 | 1000 | 0.1575 |
351
+ | 0.0414 | 1500 | 0.1395 |
352
+ | 0.0552 | 2000 | 0.1241 |
353
+ | 0.0690 | 2500 | 0.1041 |
354
+ | 0.0828 | 3000 | 0.1063 |
355
+ | 0.0966 | 3500 | 0.1011 |
356
+ | 0.1104 | 4000 | 0.0982 |
357
+ | 0.1242 | 4500 | 0.0923 |
358
+ | 0.1380 | 5000 | 0.0916 |
359
+ | 0.1517 | 5500 | 0.0831 |
360
+ | 0.1655 | 6000 | 0.0904 |
361
+ | 0.1793 | 6500 | 0.0891 |
362
+ | 0.1931 | 7000 | 0.0843 |
363
+ | 0.2069 | 7500 | 0.0816 |
364
+ | 0.2207 | 8000 | 0.0862 |
365
+ | 0.2345 | 8500 | 0.0743 |
366
+ | 0.2483 | 9000 | 0.09 |
367
+ | 0.2621 | 9500 | 0.0761 |
368
+ | 0.2759 | 10000 | 0.0762 |
369
+ | 0.2897 | 10500 | 0.0794 |
370
+ | 0.3035 | 11000 | 0.0761 |
371
+ | 0.3173 | 11500 | 0.0757 |
372
+ | 0.3311 | 12000 | 0.0697 |
373
+ | 0.3449 | 12500 | 0.0746 |
374
+ | 0.3587 | 13000 | 0.0736 |
375
+ | 0.3725 | 13500 | 0.0672 |
376
+ | 0.3863 | 14000 | 0.0683 |
377
+ | 0.4001 | 14500 | 0.0684 |
378
+ | 0.4139 | 15000 | 0.0683 |
379
+ | 0.4277 | 15500 | 0.0717 |
380
+ | 0.4415 | 16000 | 0.0673 |
381
+ | 0.4552 | 16500 | 0.0624 |
382
+ | 0.4690 | 17000 | 0.0658 |
383
+ | 0.4828 | 17500 | 0.0661 |
384
+ | 0.4966 | 18000 | 0.0667 |
385
+ | 0.5104 | 18500 | 0.0658 |
386
+ | 0.5242 | 19000 | 0.0665 |
387
+ | 0.5380 | 19500 | 0.0642 |
388
+ | 0.5518 | 20000 | 0.0635 |
389
+ | 0.5656 | 20500 | 0.0634 |
390
+ | 0.5794 | 21000 | 0.0623 |
391
+ | 0.5932 | 21500 | 0.0628 |
392
+ | 0.6070 | 22000 | 0.0658 |
393
+ | 0.6208 | 22500 | 0.0611 |
394
+ | 0.6346 | 23000 | 0.0623 |
395
+ | 0.6484 | 23500 | 0.0655 |
396
+ | 0.6622 | 24000 | 0.0587 |
397
+ | 0.6760 | 24500 | 0.0551 |
398
+ | 0.6898 | 25000 | 0.0555 |
399
+ | 0.7036 | 25500 | 0.0551 |
400
+ | 0.7174 | 26000 | 0.0622 |
401
+ | 0.7312 | 26500 | 0.0528 |
402
+ | 0.7450 | 27000 | 0.058 |
403
+ | 0.7587 | 27500 | 0.0538 |
404
+ | 0.7725 | 28000 | 0.0568 |
405
+ | 0.7863 | 28500 | 0.0531 |
406
+ | 0.8001 | 29000 | 0.0552 |
407
+ | 0.8139 | 29500 | 0.0533 |
408
+ | 0.8277 | 30000 | 0.0547 |
409
+ | 0.8415 | 30500 | 0.0541 |
410
+ | 0.8553 | 31000 | 0.055 |
411
+ | 0.8691 | 31500 | 0.0519 |
412
+ | 0.8829 | 32000 | 0.0492 |
413
+ | 0.8967 | 32500 | 0.0569 |
414
+ | 0.9105 | 33000 | 0.0484 |
415
+ | 0.9243 | 33500 | 0.0493 |
416
+ | 0.9381 | 34000 | 0.0507 |
417
+ | 0.9519 | 34500 | 0.0496 |
418
+ | 0.9657 | 35000 | 0.0502 |
419
+ | 0.9795 | 35500 | 0.0473 |
420
+ | 0.9933 | 36000 | 0.0532 |
421
+ | 1.0071 | 36500 | 0.0492 |
422
+ | 1.0209 | 37000 | 0.0469 |
423
+ | 1.0347 | 37500 | 0.046 |
424
+ | 1.0484 | 38000 | 0.0385 |
425
+ | 1.0622 | 38500 | 0.037 |
426
+ | 1.0760 | 39000 | 0.0359 |
427
+ | 1.0898 | 39500 | 0.0315 |
428
+ | 1.1036 | 40000 | 0.0274 |
429
+ | 1.1174 | 40500 | 0.0271 |
430
+ | 1.1312 | 41000 | 0.0242 |
431
+ | 1.1450 | 41500 | 0.0249 |
432
+ | 1.1588 | 42000 | 0.021 |
433
+ | 1.1726 | 42500 | 0.0197 |
434
+ | 1.1864 | 43000 | 0.0194 |
435
+ | 1.2002 | 43500 | 0.0157 |
436
+ | 1.2140 | 44000 | 0.0153 |
437
+ | 1.2278 | 44500 | 0.0143 |
438
+ | 1.2416 | 45000 | 0.0179 |
439
+ | 1.2554 | 45500 | 0.0148 |
440
+ | 1.2692 | 46000 | 0.0155 |
441
+ | 1.2830 | 46500 | 0.0145 |
442
+ | 1.2968 | 47000 | 0.0147 |
443
+ | 1.3106 | 47500 | 0.0141 |
444
+ | 1.3244 | 48000 | 0.0138 |
445
+ | 1.3382 | 48500 | 0.0148 |
446
+ | 1.3519 | 49000 | 0.0137 |
447
+ | 1.3657 | 49500 | 0.014 |
448
+ | 1.3795 | 50000 | 0.0132 |
449
+ | 1.3933 | 50500 | 0.0131 |
450
+ | 1.4071 | 51000 | 0.0125 |
451
+
452
+ </details>
453
+
454
+ ### Framework Versions
455
+ - Python: 3.11.10
456
+ - Sentence Transformers: 3.3.1
457
+ - Transformers: 4.46.3
458
+ - PyTorch: 2.5.1+cu124
459
+ - Accelerate: 1.1.1
460
+ - Datasets: 3.1.0
461
+ - Tokenizers: 0.20.3
462
+
463
+ ## Citation
464
+
465
+ ### BibTeX
466
+
467
+ #### Sentence Transformers
468
+ ```bibtex
469
+ @inproceedings{reimers-2019-sentence-bert,
470
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
471
+ author = "Reimers, Nils and Gurevych, Iryna",
472
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
473
+ month = "11",
474
+ year = "2019",
475
+ publisher = "Association for Computational Linguistics",
476
+ url = "https://arxiv.org/abs/1908.10084",
477
+ }
478
+ ```
479
+
480
+ #### MultipleNegativesRankingLoss
481
+ ```bibtex
482
+ @misc{henderson2017efficient,
483
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
484
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
485
+ year={2017},
486
+ eprint={1705.00652},
487
+ archivePrefix={arXiv},
488
+ primaryClass={cs.CL}
489
+ }
490
+ ```
491
+
492
+ <!--
493
+ ## Glossary
494
+
495
+ *Clearly define terms in order to be accessible across audiences.*
496
+ -->
497
+
498
+ <!--
499
+ ## Model Card Authors
500
+
501
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
502
+ -->
503
+
504
+ <!--
505
+ ## Model Card Contact
506
+
507
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
508
+ -->
config.json ADDED
@@ -0,0 +1,31 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "models/bert-base-vi-uncased-st-4/checkpoint-51000",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "directionality": "bidi",
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 512,
16
+ "model_type": "bert",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 0,
20
+ "pooler_fc_size": 768,
21
+ "pooler_num_attention_heads": 12,
22
+ "pooler_num_fc_layers": 3,
23
+ "pooler_size_per_head": 128,
24
+ "pooler_type": "first_token_transform",
25
+ "position_embedding_type": "absolute",
26
+ "torch_dtype": "float32",
27
+ "transformers_version": "4.46.3",
28
+ "type_vocab_size": 2,
29
+ "use_cache": true,
30
+ "vocab_size": 75000
31
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.46.3",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8ddb9ed8e373939af9196d98aaa20d382ef02a8cb5d6c74a0de3dc3cfaf6213a
3
+ size 574587752
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[UNK]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[CLS]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[SEP]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[PAD]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": false,
45
+ "cls_token": "[CLS]",
46
+ "do_lower_case": false,
47
+ "mask_token": "[MASK]",
48
+ "max_length": 512,
49
+ "model_max_length": 512,
50
+ "pad_to_multiple_of": null,
51
+ "pad_token": "[PAD]",
52
+ "pad_token_type_id": 0,
53
+ "padding_side": "right",
54
+ "sep_token": "[SEP]",
55
+ "stride": 0,
56
+ "strip_accents": null,
57
+ "tokenize_chinese_chars": true,
58
+ "tokenizer_class": "DistilBertTokenizer",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "[UNK]"
62
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff