SentenceTransformer based on Alibaba-NLP/gte-multilingual-base

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Alibaba-NLP/gte-multilingual-base
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("anhtuansh/gte-multilingual-base-Matryoshka-1e-9k")
# Run inference
sentences = [
    'quản_lý nhập_khẩu hàng_hóa bị điều_tra , phục_vụ công_tác điều_tra , áp_dụng biện_pháp phòng_vệ thương_mại .',
    'mục_đích của thủ_tục khai_báo là gì ?',
    'đơn_vị chúng_tôi đã được cấp chứng_chỉ năng_lực hoạt_động xây_dựng nhưng hiện_nay chúng_tôi thay_đổi người đại_diện pháp_luật của đơn_vị . vậy chúng_tôi có phải làm thủ_tục nào để thay_đổi người đại_diện theo pháp_luật của chúng_tôi trên chứng_chỉ ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512
cosine_accuracy@1 0.5937 0.5817
cosine_accuracy@3 0.7571 0.7549
cosine_accuracy@5 0.7996 0.8017
cosine_accuracy@10 0.8529 0.8519
cosine_precision@1 0.5937 0.5817
cosine_precision@3 0.2524 0.2516
cosine_precision@5 0.1599 0.1603
cosine_precision@10 0.0853 0.0852
cosine_recall@1 0.5937 0.5817
cosine_recall@3 0.7571 0.7549
cosine_recall@5 0.7996 0.8017
cosine_recall@10 0.8529 0.8519
cosine_ndcg@10 0.7258 0.7211
cosine_mrr@10 0.6849 0.6788
cosine_map@100 0.6892 0.6831

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 8,259 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 5 tokens
    • mean: 303.9 tokens
    • max: 3209 tokens
    • min: 7 tokens
    • mean: 56.17 tokens
    • max: 578 tokens
  • Samples:
    positive anchor
    điểm a , mục 2 phần ii thông_tư số 04 / 1999 / tt - bca ( c13 ) ngày 29 / 4 / 1999 của bộ công_an hướng_dẫn một_số quy_định của nghị_định số 05 / 1999 / nđ - cp ngày 03 / 01 / 1999 của chính_phủ về chứng_minh nhân_dân quy_định các trường_hợp phải đổi cmnd như sau : - quá thời_hạn sử_dụng 15 năm kể từ ngày cấp ; - cmnd rách , nát , không rõ ảnh hoặc một trong các thông_tin đã ghi trên cmnd ; - thay_đổi họ , tên , chữ đệm , ngày , tháng , năm sinh . những thay_đổi này phải có quyết_định của cơ_quan có thẩm_quyền ; - những người đã được cấp giấy cmnd nhưng chuyển nơi đăng_ký hộ_khẩu thường_trú ngoài phạm_vi tỉnh , thành_phố trực_thuộc trung_ương . trường_hợp chuyển nơi thường_trú trong phạm_vi tỉnh , thành_phố mà công_dân có yêu_cầu thì được đổi lại cmnd ; - thay_đổi đặc_điểm nhận_dạng là những trường_hợp đã qua phẫu_thuật thẩm_mỹ , chỉnh_hình hoặc vì lý_do khác đã làm thay_đổi hình_ảnh hoặc đặc_điểm nhận_dạng của họ . công_dân phải làm thủ_tục đổi chứng_minh nhân_dân khi nào ?
    việc thực_hiện thủ_tục tặng cờ thi_đua cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương theo đợt hoặc chuyên_đề được tiến_hành như sau :
    bước 1 . vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương tiếp_nhận đề_nghị khen_thưởng của các đơn_vị thực thuộc .
    bước 2 . thẩm_định hồ_sơ , xin ý_kiến các cơ_quan liên_quan , báo_cáo hội_đồng thi_đua khen_thưởng cùng cấp , tổng_hợp trình bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố quyết_định khen_thưởng .
    bước 3 . khi có quyết_định của bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố trực_thuộc trung_ương ; vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương thông_báo quyết_định , viết bằng , đóng_dấu và cấp_phát cho đơn_vị trình khen .
    bước 4 . các trường_hợp không được khen_thưởng ( không đúng đối_tượng , không đủ tiêu_chuẩn , không đủ hồ_sơ...
    đề_nghị cho biết trình_tự thực_hiện thủ_tục tặng cờ thi_đua cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương theo đợt hoặc chuyên_đề
    thời_gian phục_vụ tại_ngũ của hạ_sĩ_quan binh_sĩ được quy_định tại điều 21 luật nvqs năm 2015 , cụ_thể như sau : “ điều 21 . thời_hạn phục_vụ tại_ngũ của hạ_sĩ_quan , binh sĩ1 . thời_hạn phục_vụ tại_ngũ trong thời_bình của hạ_sĩ_quan , binh_sĩ là 24 tháng . 2 . bộ_trưởng bộ quốc_phòng được quyết_định kéo_dài thời_hạn phục_vụ tại_ngũ của hạ_sĩ_quan , binh_sĩ nhưng không quá 06 tháng trong trường_hợp sau đây : a ) để bảo_đảm_nhiệm_vụ sẵn_sàng chiến_đấu ; b ) đang thực_hiện nhiệm_vụ phòng , chống thiên_tai , dịch_bệnh , cứu_hộ , cứu nạn . 3 . thời_hạn phục_vụ của hạ_sĩ_quan , binh_sĩ trong tình_trạng chiến_tranh hoặc tình_trạng khẩn_cấp về quốc_phòng được thực_hiện theo lệnh tổng_động_viên hoặc động_viên cục_bộ . ” quy_định thời_gian phục_vụ tại_ngũ của hạ_sĩ_quan binh_sĩ như thế_nào ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 918 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 918 samples:
    positive anchor
    type string string
    details
    • min: 5 tokens
    • mean: 307.44 tokens
    • max: 3463 tokens
    • min: 11 tokens
    • mean: 55.94 tokens
    • max: 383 tokens
  • Samples:
    positive anchor
    theo quy_định tại khoản 9 điều 1 nghị_định số 161 / 2018 / nđ - cpngày 29 / 11 / 2018 của chính_phủ sửa_đổi , bổ_sung một_số quy_định về tuyển_dụng công_chức , viên_chức , nâng ngạch công_chức , thăng_hạng viên_chức và thực_hiện chế_độ hợp_đồng một_số loại công_việc trong cơ_quan hành_chính nhà_nước , đơn_vị sự_nghiệp công_lập thì đối_tượng và điểm ưu_tiên trong thi_tuyển hoặc xét tuyển công_chức :
    + anh_hùng lực_lượng vũ_trang , anh_hùng lao_động , thương_binh , người hưởng chính_sách như thương_binh , thương_binh loại b : được cộng 7,5 điểm vào kết_quả điểm thi tại vòng 2 ;
    + người dân_tộc_thiểu_số , sĩ_quan quân_đội , sĩ_quan công_an , quân_nhân chuyên_nghiệp , người làm công_tác cơ_yếu chuyển ngành , con liệt_sĩ , con thương_binh , con bệnh_binh , con của người hưởng chính_sách như thương_binh , con của thương_binh loại b , con của người hoạt_động cách_mạng trước tổng_khởi_nghĩa ( từ ngày 19 / 8 / 1945 trở về trước ) , con_đẻ của người hoạt_động kháng_chiến bị nhiễm chất_độc_hó...
    đề_nghị cho tôi được biết đối_tượng được hưởng ưu_tiên trong tuyển_dụng công_chức ?
    1 . khi phát_hiện tổ_chức , cá_nhân kê_khai hồ_sơ , thông_báo không_trung_thực hoặc vi_phạm_quy_định tại điều 8 nghị_định số 23 / 2019 / nđ - cp , cơ_quan tiếp_nhận thông_báo yêu_cầu tạm dừng hoạt_động triển_lãm bằng văn_bản ( mẫu_số 03 tại phụ_lục ban_hành kèm theo nghị_định số 23 / 2019 / nđ - cp ) . 2 . tổ_chức , cá_nhân phải dừng hoạt_động triển_lãm ngay khi nhận được văn_bản của cơ_quan có thẩm_quyền ; kịp_thời_khắc_phục hậu_quả , đề_xuất phương_án tiếp_tục tổ_chức triển_lãm gửi cơ_quan có thẩm_quyền xem_xét , quyết_định . 3 . kết_quả xem_xét , quyết_định của cơ_quan có thẩm_quyền phải được thể_hiện bằng văn_bản và gửi cho tổ_chức , cá_nhân biết để thực_hiện . thời_hạn gửi văn_bản cho tổ_chức , cá_nhân là 03 ngày , kể từ ngày cơ_quan có thẩm_quyền nhận được văn_bản đề_xuất phương_án tiếp_tục tổ_chức triển_lãm của tổ_chức , cá_nhân . những lý_do nào khiến hoạt_động triển_lãm bị tạm dừng ?
    theo quy_định tại khoản 1 điều 33 luật quản_lý , sử_dụng vũ_khí , vật_liệu nổ và công_cụ hỗ_trợ và điểm a khoản 4 điều 3 thông_tư số 16 / 2018 / tt - bca ngày 15 / 5 / 2018 của bộ công_an quy_định chi_tiết thi_hành một_số điều của luật quản_lý , sử_dụng vũ_khí , vật_liệu nổ và công_cụ hỗ_trợ thì thủ_tục đề_nghị cấp giấy_phép vận_chuyển vũ_khí quân_dụng đối_với cơ_quan , tổ_chức ở trung_ương không thuộc phạm_vi quản_lý của bộ quốc_phòng được thực_hiện như sau : a ) hồ_sơ đề_nghị bao_gồm : văn_bản đề_nghị nêu rõ số_lượng , chủng_loại , nguồn_gốc xuất_xứ của vũ_khí cần vận_chuyển ; nơi đi , nơi đến , thời_gian và tuyến đường vận_chuyển ; họ và tên , địa_chỉ của người chịu trách_nhiệm vận_chuyển , người điều_khiển phương_tiện ; biển kiểm_soát của phương_tiện ; giấy giới_thiệu kèm theo bản_sao thẻ căn_cước công_dân , chứng_minh nhân_dân , hộ_chiếu hoặc chứng_minh công_an nhân_dân của người đến liên_hệ ; b ) hồ_sơ lập thành 01 bộ và nộp tại cục cảnh_sát qlhc về ttxh ; c ) trong thời_hạn 05 n... thủ_tục cấp giấy_phép vận_chuyển vũ_khí quân_dụng đối_với cơ_quan , tổ_chức ở trung_ương không thuộc phạm_vi quản_lý của bộ quốc_phòng thực_hiện như thế_nào ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10
0 0 - - 0.5887 0.5836
0.0048 10 0.1623 - - -
0.0097 20 0.1729 - - -
0.0145 30 0.2747 - - -
0.0194 40 0.2127 - - -
0.0242 50 0.1473 - - -
0.0291 60 0.4109 - - -
0.0339 70 0.2261 - - -
0.0387 80 0.0818 - - -
0.0436 90 0.089 - - -
0.0484 100 0.0978 - - -
0.0533 110 0.0086 - - -
0.0581 120 0.1008 - - -
0.0630 130 0.2521 - - -
0.0678 140 0.0351 - - -
0.0726 150 0.0749 - - -
0.0775 160 0.1351 - - -
0.0823 170 0.0856 - - -
0.0872 180 0.0394 - - -
0.0920 190 0.2015 - - -
0.0969 200 0.026 - - -
0.1017 210 0.0287 - - -
0.1065 220 0.2549 - - -
0.1114 230 0.1615 - - -
0.1162 240 0.0181 - - -
0.1211 250 0.0582 - - -
0.1259 260 0.0537 - - -
0.1308 270 0.0404 - - -
0.1356 280 0.0307 - - -
0.1404 290 0.0316 - - -
0.1453 300 0.1625 - - -
0.1501 310 0.0104 - - -
0.1550 320 0.1477 - - -
0.1598 330 0.3662 - - -
0.1646 340 0.0763 - - -
0.1695 350 0.0291 - - -
0.1743 360 0.0858 - - -
0.1792 370 0.0131 - - -
0.1840 380 0.0255 - - -
0.1889 390 0.0596 - - -
0.1937 400 0.0939 - - -
0.1985 410 0.0197 - - -
0.2034 420 0.0289 - - -
0.2082 430 0.0709 - - -
0.2131 440 0.0148 - - -
0.2179 450 0.0281 - - -
0.2228 460 0.0657 - - -
0.2276 470 0.2965 - - -
0.2324 480 0.0691 - - -
0.2373 490 0.0017 - - -
0.2421 500 0.0045 - - -
0.2470 510 0.0076 - - -
0.2518 520 0.0996 - - -
0.2567 530 0.1027 - - -
0.2615 540 0.0192 - - -
0.2663 550 0.0048 - - -
0.2712 560 0.1203 - - -
0.2760 570 0.0541 - - -
0.2809 580 0.0596 - - -
0.2857 590 0.027 - - -
0.2906 600 0.2358 - - -
0.2954 610 0.001 - - -
0.3002 620 0.0138 - - -
0.3051 630 0.0355 - - -
0.3099 640 0.1318 - - -
0.3148 650 0.0056 - - -
0.3196 660 0.0677 - - -
0.3245 670 0.0425 - - -
0.3293 680 0.003 - - -
0.3341 690 0.0608 - - -
0.3390 700 0.0024 - - -
0.3438 710 0.0327 - - -
0.3487 720 0.0021 - - -
0.3535 730 0.0504 - - -
0.3584 740 0.0012 - - -
0.3632 750 0.0383 - - -
0.3680 760 0.0127 - - -
0.3729 770 0.0073 - - -
0.3777 780 0.0223 - - -
0.3826 790 0.2714 - - -
0.3874 800 0.1781 - - -
0.3923 810 0.1457 - - -
0.3971 820 0.0428 - - -
0.4019 830 0.0663 - - -
0.4068 840 0.0746 - - -
0.4116 850 0.048 - - -
0.4165 860 0.0052 - - -
0.4213 870 0.0063 - - -
0.4262 880 0.0183 - - -
0.4310 890 0.0075 - - -
0.4358 900 0.0085 - - -
0.4407 910 0.0006 - - -
0.4455 920 0.0112 - - -
0.4504 930 0.0128 - - -
0.4552 940 0.0092 - - -
0.4600 950 0.0187 - - -
0.4649 960 0.0003 - - -
0.4697 970 0.0027 - - -
0.4746 980 0.1156 - - -
0.4794 990 0.0921 - - -
0.4843 1000 0.0676 - - -
0.4891 1010 0.0868 - - -
0.4939 1020 0.3319 - - -
0.4988 1030 0.0227 - - -
0.5036 1040 0.0026 - - -
0.5085 1050 0.0033 - - -
0.5133 1060 0.038 - - -
0.5182 1070 0.1247 - - -
0.5230 1080 0.0015 - - -
0.5278 1090 0.0104 - - -
0.5327 1100 0.0118 - - -
0.5375 1110 0.0008 - - -
0.5424 1120 0.0094 - - -
0.5472 1130 0.0324 - - -
0.5521 1140 0.0011 - - -
0.5569 1150 0.0394 - - -
0.5617 1160 0.0096 - - -
0.5666 1170 0.0031 - - -
0.5714 1180 0.0564 - - -
0.5763 1190 0.181 - - -
0.5811 1200 0.0401 - - -
0.5860 1210 0.0163 - - -
0.5908 1220 0.0583 - - -
0.5956 1230 0.1254 - - -
0.6005 1240 0.0027 - - -
0.6053 1250 0.1357 - - -
0.6102 1260 0.0036 - - -
0.6150 1270 0.0015 - - -
0.6199 1280 0.1927 - - -
0.6247 1290 0.098 - - -
0.6295 1300 0.0119 - - -
0.6344 1310 0.0189 - - -
0.6392 1320 0.0792 - - -
0.6441 1330 0.0084 - - -
0.6489 1340 0.0617 - - -
0.6538 1350 0.0818 - - -
0.6586 1360 0.0264 - - -
0.6634 1370 0.0004 - - -
0.6683 1380 0.0472 - - -
0.6731 1390 0.0013 - - -
0.6780 1400 0.0117 - - -
0.6828 1410 0.0213 - - -
0.6877 1420 0.1806 - - -
0.6925 1430 0.0278 - - -
0.6973 1440 0.0053 - - -
0.7022 1450 0.1247 - - -
0.7070 1460 0.002 - - -
0.7119 1470 0.0235 - - -
0.7167 1480 0.0044 - - -
0.7215 1490 0.029 - - -
0.7264 1500 0.004 - - -
0.7312 1510 0.001 - - -
0.7361 1520 0.003 - - -
0.7409 1530 0.0004 - - -
0.7458 1540 0.0027 - - -
0.7506 1550 0.0018 - - -
0.7554 1560 0.004 - - -
0.7603 1570 0.0071 - - -
0.7651 1580 0.0358 - - -
0.7700 1590 0.0015 - - -
0.7748 1600 0.0409 - - -
0.7797 1610 0.0561 - - -
0.7845 1620 0.0311 - - -
0.7893 1630 0.0132 - - -
0.7942 1640 0.0026 - - -
0.7990 1650 0.0925 - - -
0.8039 1660 0.0062 - - -
0.8087 1670 0.0041 - - -
0.8136 1680 0.0014 - - -
0.8184 1690 0.0135 - - -
0.8232 1700 0.0033 - - -
0.8281 1710 0.0003 - - -
0.8329 1720 0.0355 - - -
0.8378 1730 0.0035 - - -
0.8426 1740 0.0018 - - -
0.8475 1750 0.0249 - - -
0.8523 1760 0.0217 - - -
0.8571 1770 0.0883 - - -
0.8620 1780 0.0063 - - -
0.8668 1790 0.0067 - - -
0.8717 1800 0.0127 - - -
0.8765 1810 0.0019 - - -
0.8814 1820 0.0023 - - -
0.8862 1830 0.0246 - - -
0.8910 1840 0.0044 - - -
0.8959 1850 0.0086 - - -
0.9007 1860 0.0323 - - -
0.9056 1870 0.013 - - -
0.9104 1880 0.002 - - -
0.9153 1890 0.0053 - - -
0.9201 1900 0.0009 - - -
0.9249 1910 0.0082 - - -
0.9298 1920 0.0008 - - -
0.9346 1930 0.0079 - - -
0.9395 1940 0.0031 - - -
0.9443 1950 0.0039 - - -
0.9492 1960 0.0261 - - -
0.9540 1970 0.0006 - - -
0.9588 1980 0.0063 - - -
0.9637 1990 0.0132 - - -
0.9685 2000 0.0061 - - -
0.9734 2010 0.0008 - - -
0.9782 2020 0.0341 - - -
0.9831 2030 0.0054 - - -
0.9879 2040 0.0001 - - -
0.9927 2050 0.0367 - - -
0.9976 2060 0.0046 - - -
1.0 2065 - 0.0276 0.7258 0.7211
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.1
  • Transformers: 4.41.2
  • PyTorch: 2.4.0
  • Accelerate: 0.29.3
  • Datasets: 2.19.1
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
4
Safetensors
Model size
305M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Model tree for anhtuansh/gte-multilingual-base-Matryoshka-1e-9k

Finetuned
(36)
this model

Evaluation results