anhtuansh's picture
Add new SentenceTransformer model
bc9d499 verified
metadata
base_model: anhtuansh/bert-base-multilingual-uncased-Financial-Matryoshka-5e-11k
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:10200
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: >-
      1.500.000 ( một triệu năm trăm_nghìn ) đồng / giấy_phép ( theo quy_định
      tại khoản b điều 4 thông_tư số 143 / 2016 / tt - btc ngày 26 / 9 / 2016
      của bộ tài_chính , có hiệu_lực thi_hành kể từ ngày 01 / 01 / 2017 ) .
    sentences:
      - >-
        phí lệ_phí của thủ_tục : thủ_tục cấp lại giấy_phép thành_lập văn_phòng
        đại_diện của thương_nhân nước_ngoài tại việt_nam là bao_nhiêu ?
      - khi nào người giải_quyết tố_cáo tạm đình_chỉ việc giải_quyết tố_cáo ?
      - >-
        người điều_khiển , người đi trên phương_tiện , phương_tiện xuất_cảnh ,
        nhập_cảnh qua cửa_khẩu biên_giới đất_liền phải thực_hiện thủ_tục
        biên_phòng điện_tử như thế_nào ?
  - source_sentence: |-
      bước 1 : tổ_chức sử_dụng đất chuẩn_bị hồ_sơ theo quy_định của pháp_luật ; 
       bước 2 : tổ_chức sử_dụng đất nộp hồ_sơ tại bộ_phận hành_chính công về tài_nguyên và môi_trường của ban quản_lý khu kinh_tế quảng_ninh tại trung_tâm phục_vụ hành_chính công tỉnh ; 
       bước 3 : cán_bộ bộ_phận hành_chính công về tài_nguyên và môi_trường kiểm_tra hồ_sơ và trao giấy tiếp_nhận hồ_sơ cho nhà đầu_tư ; 
       bước 4 : tổ_chức sử_dụng đất căn_cứ thời_gian ghi trên giấy tiếp_nhận hồ_sơ đến trung_tâm phục_vụ hành_chính công_nhận kết_quả .
    sentences:
      - >-
        khiếu_nại quyết_định kỷ_luật cán_bộ , công_chức được thực_hiện trong
        trường_hợp nào ?
      - >-
        trình_tự thực_hiện của thủ_tục : thủ_tục miễn , giảm tiền thuê đất trong
        khu kinh_tế ( trừ khu kinh_tế vân_đồn ) là gì ?
      - >-
        trường_hợp đã hết thời_hiệu yêu_cầu thi_hành án , đề_nghị khôi_phục
        thời_hiệu thi_hành án cần những thủ_tục gì ?
  - source_sentence: >-
      theo quy_định tại nghị_định số 91 / 2017 / nđ - cp ngày 31 / 7 / 2017 của
      chính_phủ quy_định chi_tiết thi_hành luật sửa_đổi , bổ_sung một_số điều
      của luật thi_đua , khen_thưởng năm 2013 : 
       trong thời_hạn 20 ngày_ngày làm_việc ( 30 ngày làm_việc đối_với trường_hợp phải lấy ý_kiến hiệp y ) kể từ ngày nhận đủ hồ_sơ theo quy_định , trưởng ban ban thi_đua - khen_thưởng trung_ương trình thủ_tướng chính_phủ xem_xét , quyết_định ; 
       sau khi nhận được quyết_định khen_thưởng của thủ_tướng chính_phủ , trong thời_hạn 10 ngày làm_việc , ban thi_đua - khen_thưởng trung_ương sao quyết_định và thông_báo kết_quả khen_thưởng cho bộ , ban , ngành , tỉnh , đoàn_thể trung_ương trình khen_thưởng ; 
       sau khi nhận được quyết_định khen_thưởng của cấp có thẩm_quyền , trong thời_hạn 10 ngày làm_việc , cơ_quan trình khen_thưởng thông_báo và gửi kết_quả khen_thưởng cho các trường_hợp được khen_thưởng ; 
       đối_với các trường_hợp không đủ điều_kiện , tiêu_chuẩn , hồ_sơ theo quy_định , trong thời_hạn 10ngày làm_việc kể từ ngày nhận đủ hồ_sơ theo quy_định , ban thi_đua - khen_thưởng trung_ương thông_báo bằng văn_bản cho bộ , ban , ngành , tỉnh , đoàn_thể trung_ương trình khen_thưởng .
    sentences:
      - >-
        yêu_cầu về xác_nhận quá_trình thực_hành trong cấp chứng_chỉ hành_nghề
        khám chữa bệnh là gì ?
      - >-
        đề_nghị cho biết thời_hạn thực_hiện thủ_tục tặng_thưởng " cờ thi_đua của
        chính_phủ " về thành_tích thi_đua theo đợt hoặc chuyên_đề
      - >-
        vợ_chồng tôi năm nay được 38 tuổi , nghề_nghiệp là nông_dân . vợ_chồng
        tôi muốn tham_gia bhxh tự_nguyện để khi về già có lương hưu . vậy
        vợ_chồng tôi có được đóng bhxh không ?
  - source_sentence: >-
      theo quy_định tại điểm c khoản 1 điều 211 luật doanh_nghiệp ,
      trường_hợp_doanh_nghiệp ngừng hoạt_động_kinh_doanh 01 năm mà không
      thông_báo với cơ_quan đăng_ký kinh_doanh và cơ_quan thuế thì doanh_nghiệp
      thuộc trường_hợp bị thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp . -
      trình_tự , thủ_tục thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp thực_hiện
      theo quy_định tại khoản 3 điều 63 nghị_định số 78 / 2015 / nđ - cp được
      sửa_đổi , bổ_sung tại khoản 20 điều 1 nghị_định số 108 / 2018 / nđ - cp
      sửa_đổi , bổ_sung một_số điều của nghị_định số 78 / 2015 / nđ - cp. theo
      đó , phòng đăng_ký kinh_doanh thông_báo bằng văn_bản về hành_vi vi_phạm và
      yêu_cầu người đại_diện theo pháp_luật của doanh_nghiệp đến trụ_sở của
      phòng để giải_trình . sau 10 ngày làm_việc , kể từ ngày kết_thúc thời_hạn
      hẹn trong thông_báo mà người được yêu_cầu không đến hoặc nội_dung
      giải_trình không được chấp_thuận thì phòng đăng_ký kinh_doanh ra
      quyết_định thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp . - như_vậy , theo
      quy_định nêu trên việc công_ty ngừng hoạt_động_kinh_doanh 01 năm mà không
      thông_báo với cơ_quan đăng_ký kinh_doanh và cơ_quan thuế là
      vi_phạm_quy_định pháp_luật và thuộc một trong các trường_hợp bị thu_hồi
      giấy chứng_nhận đăng_ký doanh_nghiệp .
    sentences:
      - >-
        thủ_tục và hồ_sơ xin phép chuyển_đổi mục_đích sử_dụng , di_dời , tháo_dỡ
        ?
      - >-
        thời_gian đăng_ký hoạt_động của chi_nhánh của tổ_chức trọng_tài
        nước_ngoài tại việt_nam được quy_định như thế_nào ?
      - >-
        công_ty tnhh xyz ngừng hoạt_động_kinh_doanh 01 năm mà không thông_báo
        với cơ_quan đăng_ký kinh_doanh và cơ_quan thuế ? trong trường_hợp này ,
        công_ty bị thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp thì có đúng
        quy_định pháp_luật hiện_hành không ?
  - source_sentence: >-
      thời_hạn giải_quyết việc gia_hạn thời_gian học_tập cho lưu học_sinh để
      hoàn_thành khóa học như sau : tối_đa 20 ngày làm_việc kể từ ngày nhận đủ
      hồ_sơ hợp_lệ .
    sentences:
      - >-
        tôi muốn hỏi về gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành
        khóa học , có thời_hạn giải_quyết như thế_nào ?
      - >-
        thành_phần hồ_sơ giải_quyết chế_độ hỗ_trợ đối_với người việt_nam có công
        với cách_mạng quy_định tại nghị_định số 102 / 2018 / nđ - cp ngày 20 / 7
        / 2018 của chính_phủ về chế_độ hỗ_trợ và một_số chế_độ đãi_ngộ khác
        đối_với người việt_nam có công với cách_mạng , người tham_gia
        kháng_chiến , chiến_tranh bảo_vệ tổ_quốc và làm nhiệm_vụ quốc_tế đang
        định_cư ở nước_ngoài ( nghị_định số 102 / 2018 / nđ - cp ) , bao_gồm
        những giấy_tờ gì ?
      - >-
        nhiệm_vụ thiết_kế bvtc gồm nội_dung gì ? đơn_vị lập và thẩm_quyền
        phê_duyệt nhiệm_vụ thiết_kế bvtc ?
model-index:
  - name: >-
      SentenceTransformer based on
      anhtuansh/bert-base-multilingual-uncased-Financial-Matryoshka-5e-11k
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 768
          type: dim_768
        metrics:
          - type: cosine_accuracy@1
            value: 0.36684303350970016
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.5185185185185185
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.5925925925925926
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.6781305114638448
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.36684303350970016
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.17283950617283947
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.11851851851851852
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.06781305114638449
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.36684303350970016
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.5185185185185185
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.5925925925925926
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.6781305114638448
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.5144768449256533
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.46301020408163257
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.47144205209022744
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 512
          type: dim_512
        metrics:
          - type: cosine_accuracy@1
            value: 0.36331569664902996
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.517636684303351
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.591710758377425
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.6693121693121693
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.36331569664902996
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.1725455614344503
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.118342151675485
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.06693121693121694
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.36331569664902996
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.517636684303351
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.591710758377425
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.6693121693121693
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.5100016392336931
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.45984154978863945
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.4684446566514212
            name: Cosine Map@100

SentenceTransformer based on anhtuansh/bert-base-multilingual-uncased-Financial-Matryoshka-5e-11k

This is a sentence-transformers model finetuned from anhtuansh/bert-base-multilingual-uncased-Financial-Matryoshka-5e-11k on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("anhtuansh/bert-base-multilingual-uncased-Financial-Matryoshka-8e-11k")
# Run inference
sentences = [
    'thời_hạn giải_quyết việc gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành khóa học như sau : tối_đa 20 ngày làm_việc kể từ ngày nhận đủ hồ_sơ hợp_lệ .',
    'tôi muốn hỏi về gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành khóa học , có thời_hạn giải_quyết như thế_nào ?',
    'thành_phần hồ_sơ giải_quyết chế_độ hỗ_trợ đối_với người việt_nam có công với cách_mạng quy_định tại nghị_định số 102 / 2018 / nđ - cp ngày 20 / 7 / 2018 của chính_phủ về chế_độ hỗ_trợ và một_số chế_độ đãi_ngộ khác đối_với người việt_nam có công với cách_mạng , người tham_gia kháng_chiến , chiến_tranh bảo_vệ tổ_quốc và làm nhiệm_vụ quốc_tế đang định_cư ở nước_ngoài ( nghị_định số 102 / 2018 / nđ - cp ) , bao_gồm những giấy_tờ gì ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512
cosine_accuracy@1 0.3668 0.3633
cosine_accuracy@3 0.5185 0.5176
cosine_accuracy@5 0.5926 0.5917
cosine_accuracy@10 0.6781 0.6693
cosine_precision@1 0.3668 0.3633
cosine_precision@3 0.1728 0.1725
cosine_precision@5 0.1185 0.1183
cosine_precision@10 0.0678 0.0669
cosine_recall@1 0.3668 0.3633
cosine_recall@3 0.5185 0.5176
cosine_recall@5 0.5926 0.5917
cosine_recall@10 0.6781 0.6693
cosine_ndcg@10 0.5145 0.51
cosine_mrr@10 0.463 0.4598
cosine_map@100 0.4714 0.4684

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 10,200 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 4 tokens
    • mean: 222.47 tokens
    • max: 512 tokens
    • min: 8 tokens
    • mean: 46.3 tokens
    • max: 328 tokens
  • Samples:
    positive anchor
    1 . thẩm_quyền cấp giấy_phép tổ_chức triển_lãm , hội_chợ xuất_bản_phẩm được quy_định cụ_thể như sau : - bộ thông_tin và truyền_thông cấp giấy_phép cho cơ_quan , tổ_chức ở trung_ương ; cơ_quan , tổ_chức , cá_nhân nước_ngoài ; - ủy_ban nhân_dân cấp tỉnh cấp giấy_phép cho cơ_quan , tổ_chức , cá_nhân có trụ_sở hoặc cư_trú tại địa_phương ; chi_nhánh , văn_phòng đại_diện , đơn_vị trực_thuộc cơ_quan , tổ_chức ở trung_ương đặt tại địa_phương . 2 . hồ_sơ bao_gồm : - đơn đề_nghị cấp giấy_phép trong đó ghi rõ mục_đích , thời_gian , địa_điểm và tên các đơn_vị tham_gia triển_lãm , hội_chợ ; - danh_mục xuất_bản_phẩm để triển_lãm , hội_chợ theo mẫu quy_định . ( quy_định tại khoản 2 , 3 điều 44 luật xuất_bản ) hồ_sơ và thẩm_quyền cấp giấy_phép tổ_chức triển_lãm , hội_chợ xuất_bản_phẩm được quy_định cụ_thể như thế_nào ?
    - trường_hợp mất danh_mục và phiếu theo_dõi trừ lùi thì người khai hải_quan có hồ_sơ đề_nghị cơ_quan hải_quan nơi cấp danh_mục lần đầu_đề_nghị cấp lại , bao_gồm :
    + công_văn đề_nghị cấp lại danh_mục , phiếu theo_dõi trừ lùi trong đó nêu rõ : lý_do mất danh_mục , phiếu theo_dõi trừ lùi và cam_kết của người khai hải_quan về tính chính_xác của nội_dung khai_báo ;
    + bảng kê toàn_bộ tờ khai hải_quan ( điện_tử hoặc giấy ) của số_lượng hàng_hóa đã nhập_khẩu theo danh_mục ;
    + bản danh_mục và phiếu theo_dõi trừ lùi của cơ_quan hải_quan nơi làm thủ_tục nhập_khẩu lô hàng cuối_cùng trước khi thất_lạc ( 01 bản chụp có xác_nhận của cơ_quan hải_quan nơi nhập_khẩu ) .
    - khi làm thủ_tục hải_quan , người khai hải_quan nộp , xuất_trình cho cơ_quan hải_quan nơi đăng_ký tờ khai hải_quan các hồ_sơ sau :
    + hồ_sơ hải_quan theo quy_định hiện_hành ;
    + danh_mục hàng_hóa và phiếu theo_dõi trừ lùi đã đăng_ký với cơ_quan hải_quan ( bản giao người khai hải_quan ) để cơ_quan hải_quan làm thủ_tục thực_hiện...
    trường_hợp tôi làm mất danh_mục và phiếu theo_dõi trừ lùi hàng_hóa_nhập_khẩu dung_môi n - hexan dùng trong sản_xuất khô_dầu đậu_tương và dầu thực_vật , cám gạo trích ly và dầu cám thì cần làm những thủ_tục gì ?
    thẩm_quyền cấp giấy chứng_nhận cơ_sở đủ điều_kiện đăng_kiểm tàu cá là : tổng_cục thủy_sản . thẩm_quyền cấp giấy chứng_nhận cơ_sở đủ điều_kiện đăng_kiểm tàu cá ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 1,134 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 4 tokens
    • mean: 224.45 tokens
    • max: 512 tokens
    • min: 7 tokens
    • mean: 45.85 tokens
    • max: 512 tokens
  • Samples:
    positive anchor
    việc thực_hiện thủ_tục tặng_thưởng bằng khen cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương về thành_tích đột_xuất được tiến_hành như sau :
    bước 1 . vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương tiếp_nhận đề_nghị khen_thưởng của các đơn_vị thực thuộc .
    bước 2 . thẩm_định hồ_sơ , xin ý_kiến các cơ_quan liên_quan , báo_cáo hội_đồng thi_đua khen_thưởng cùng cấp , tổng_hợp trình bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố quyết_định khen_thưởng .
    bước 3 . khi có quyết_định của bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố trực_thuộc trung_ương ; vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương thông_báo quyết_định , viết bằng , đóng_dấu và cấp_phát cho đơn_vị trình khen .
    bước 4 . các trường_hợp không được khen_thưởng ( không đúng đối_tượng , không đủ tiêu_chuẩn , không đủ ...
    đề_nghị cho biết trình_tự thực_hiện thủ_tục tặng_thưởng bằng khen cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương về thành_tích đột_xuất
    bông_thủy_tinh chống cháy là vật_liệu chống cháy , thuộc danh_mục phương_tiện pccc quy_định phụ_lục v nghị_định số 79 / 2014 / nđ - cp ngày 31 / 7 / 2014 quy_định chi_tiết thi_hành một_số điều của luật phòng cháy và chữa_cháy và luật sửa_đổi , bổ_sung một_số điều của luật phòng cháy và chữa_cháy . do đó , nếu đưa vào sử_dụng trong hạng_mục pccc của công_trình thì phải kiểm_định về pccc. tuy_nhiên , đối_với vật_liệu bông thủy_tinh cách_nhiệt chống cháy được các cơ_quan , tổ_chức , cá_nhân cần xem_xét tùy vào yêu_cầu cụ_thể của công_trình để đăng_ký kiểm_định “ tính nguy_hiểm cháy ” đối_với vật_liệu đó hoặc “ giới_hạn chịu_lửa ” của kết_cấu sử_dụng vật_liệu đó . thành_phần hồ_sơ đề_nghị kiểm_định được quy_định tại điểm a khoản 4 điều 18 thông_tư 66 / 2014 / tt - bca ngày 16 / 12 / 2014 quy_định chi_tiết thi_hành một_số điều của nghị_định số 79 / 2014 / nđ - cp ngày 31 / 7 / 2014 quy_định chi_tiết thi_hành một_số điều của luật phòng cháy và chữa_cháy và luật sửa_đổi , bổ_sung một_số điều ... bông_thủy_tinh cách_nhiệt chống cháy có phải kiểm_định không ? thành_phần hồ_sơ đề_nghị kiểm_định như thế_nào ?
    thẻ thường_trú không có thời_hạn nhưng định_kỳ 10 năm một lần , người nước_ngoài thường_trú phải đến nộp hồ_sơ tại phòng quản_lý xuất , nhập_cảnh công_an tỉnh , thành_phố trực_thuộc trung_ương để đề_nghị cấp đổi thẻ thường_trú . thẻ thường_trú có thời_hạn không ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 2
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10
0 0 - - 0.5367 0.5326
0.0039 10 0.0009 - - -
0.0078 20 0.0 - - -
0.0118 30 0.0 - - -
0.0157 40 0.0 - - -
0.0196 50 0.0 - - -
0.0235 60 0.0 - - -
0.0275 70 0.0 - - -
0.0314 80 0.0 - - -
0.0353 90 0.0 - - -
0.0392 100 0.0001 - - -
0.0431 110 0.0001 - - -
0.0471 120 0.0 - - -
0.0510 130 0.0 - - -
0.0549 140 0.0001 - - -
0.0588 150 0.0 - - -
0.0627 160 0.0 - - -
0.0667 170 0.0 - - -
0.0706 180 0.0 - - -
0.0745 190 0.0 - - -
0.0784 200 0.0 - - -
0.0824 210 0.0 - - -
0.0863 220 0.0 - - -
0.0902 230 0.0 - - -
0.0941 240 0.0 - - -
0.0980 250 0.0 - - -
0.1020 260 0.0 - - -
0.1059 270 0.0 - - -
0.1098 280 0.0 - - -
0.1137 290 0.0 - - -
0.1176 300 0.0001 - - -
0.1216 310 0.0001 - - -
0.1255 320 0.0002 - - -
0.1294 330 0.0002 - - -
0.1333 340 0.0001 - - -
0.1373 350 0.0002 - - -
0.1412 360 0.0001 - - -
0.1451 370 0.1093 - - -
0.1490 380 0.0007 - - -
0.1529 390 0.0004 - - -
0.1569 400 0.0021 - - -
0.1608 410 0.0013 - - -
0.1647 420 0.0018 - - -
0.1686 430 0.0038 - - -
0.1725 440 0.0003 - - -
0.1765 450 0.0022 - - -
0.1804 460 0.0097 - - -
0.1843 470 0.0012 - - -
0.1882 480 0.0085 - - -
0.1922 490 0.0057 - - -
0.1961 500 0.0002 - - -
0.2 510 0.003 - - -
0.2039 520 0.0003 - - -
0.2078 530 0.0004 - - -
0.2118 540 0.0008 - - -
0.2157 550 0.0012 - - -
0.2196 560 0.0036 - - -
0.2235 570 0.0004 - - -
0.2275 580 0.0007 - - -
0.2314 590 0.0172 - - -
0.2353 600 0.0215 - - -
0.2392 610 0.0025 - - -
0.2431 620 0.0002 - - -
0.2471 630 0.0017 - - -
0.2510 640 0.0116 - - -
0.2549 650 0.0002 - - -
0.2588 660 0.0003 - - -
0.2627 670 0.0001 - - -
0.2667 680 0.0002 - - -
0.2706 690 0.0007 - - -
0.2745 700 0.0006 - - -
0.2784 710 0.0005 - - -
0.2824 720 0.0051 - - -
0.2863 730 0.0002 - - -
0.2902 740 0.0009 - - -
0.2941 750 0.0003 - - -
0.2980 760 0.0091 - - -
0.3020 770 0.0004 - - -
0.3059 780 0.0012 - - -
0.3098 790 0.0012 - - -
0.3137 800 0.003 - - -
0.3176 810 0.0015 - - -
0.3216 820 0.0035 - - -
0.3255 830 0.0156 - - -
0.3294 840 0.0038 - - -
0.3333 850 0.0138 - - -
0.3373 860 0.0008 - - -
0.3412 870 0.0019 - - -
0.3451 880 0.0028 - - -
0.3490 890 0.0138 - - -
0.3529 900 0.0013 - - -
0.3569 910 0.0006 - - -
0.3608 920 0.0162 - - -
0.3647 930 0.0097 - - -
0.3686 940 0.0019 - - -
0.3725 950 0.0007 - - -
0.3765 960 0.0045 - - -
0.3804 970 0.0006 - - -
0.3843 980 0.0011 - - -
0.3882 990 0.0005 - - -
0.3922 1000 0.001 - - -
0.3961 1010 0.001 - - -
0.4 1020 0.0012 - - -
0.4039 1030 0.0158 - - -
0.4078 1040 0.0007 - - -
0.4118 1050 0.0216 - - -
0.4157 1060 0.0617 - - -
0.4196 1070 0.0004 - - -
0.4235 1080 0.0405 - - -
0.4275 1090 0.0076 - - -
0.4314 1100 0.0019 - - -
0.4353 1110 0.0008 - - -
0.4392 1120 0.0005 - - -
0.4431 1130 0.0002 - - -
0.4471 1140 0.0178 - - -
0.4510 1150 0.0004 - - -
0.4549 1160 0.0179 - - -
0.4588 1170 0.0036 - - -
0.4627 1180 0.1095 - - -
0.4667 1190 0.0172 - - -
0.4706 1200 0.0022 - - -
0.4745 1210 0.0014 - - -
0.4784 1220 0.0003 - - -
0.4824 1230 0.1045 - - -
0.4863 1240 0.0001 - - -
0.4902 1250 0.0036 - - -
0.4941 1260 0.0007 - - -
0.4980 1270 0.0038 - - -
0.5020 1280 0.0009 - - -
0.5059 1290 0.0011 - - -
0.5098 1300 0.0008 - - -
0.5137 1310 0.0002 - - -
0.5176 1320 0.0084 - - -
0.5216 1330 0.0009 - - -
0.5255 1340 0.0003 - - -
0.5294 1350 0.0025 - - -
0.5333 1360 0.0 - - -
0.5373 1370 0.0005 - - -
0.5412 1380 0.0319 - - -
0.5451 1390 0.0004 - - -
0.5490 1400 0.0004 - - -
0.5529 1410 0.001 - - -
0.5569 1420 0.0004 - - -
0.5608 1430 0.0109 - - -
0.5647 1440 0.0003 - - -
0.5686 1450 0.0004 - - -
0.5725 1460 0.0123 - - -
0.5765 1470 0.0001 - - -
0.5804 1480 0.0008 - - -
0.5843 1490 0.0006 - - -
0.5882 1500 0.0005 - - -
0.5922 1510 0.0015 - - -
0.5961 1520 0.0001 - - -
0.6 1530 0.0001 - - -
0.6039 1540 0.0286 - - -
0.6078 1550 0.0224 - - -
0.6118 1560 0.0008 - - -
0.6157 1570 0.0076 - - -
0.6196 1580 0.0001 - - -
0.6235 1590 0.0001 - - -
0.6275 1600 0.0007 - - -
0.6314 1610 0.0001 - - -
0.6353 1620 0.0008 - - -
0.6392 1630 0.0009 - - -
0.6431 1640 0.0026 - - -
0.6471 1650 0.0003 - - -
0.6510 1660 0.0001 - - -
0.6549 1670 0.0048 - - -
0.6588 1680 0.001 - - -
0.6627 1690 0.0002 - - -
0.6667 1700 0.0708 - - -
0.6706 1710 0.0029 - - -
0.6745 1720 0.0002 - - -
0.6784 1730 0.0702 - - -
0.6824 1740 0.0022 - - -
0.6863 1750 0.0141 - - -
0.6902 1760 0.0035 - - -
0.6941 1770 0.0003 - - -
0.6980 1780 0.0034 - - -
0.7020 1790 0.0018 - - -
0.7059 1800 0.0004 - - -
0.7098 1810 0.0023 - - -
0.7137 1820 0.0014 - - -
0.7176 1830 0.0017 - - -
0.7216 1840 0.0001 - - -
0.7255 1850 0.0013 - - -
0.7294 1860 0.0007 - - -
0.7333 1870 0.0007 - - -
0.7373 1880 0.0057 - - -
0.7412 1890 0.0002 - - -
0.7451 1900 0.0121 - - -
0.7490 1910 0.0005 - - -
0.7529 1920 0.0013 - - -
0.7569 1930 0.0002 - - -
0.7608 1940 0.0041 - - -
0.7647 1950 0.0001 - - -
0.7686 1960 0.0 - - -
0.7725 1970 0.0004 - - -
0.7765 1980 0.0013 - - -
0.7804 1990 0.0002 - - -
0.7843 2000 0.0001 - - -
0.7882 2010 0.0004 - - -
0.7922 2020 0.0007 - - -
0.7961 2030 0.001 - - -
0.8 2040 0.0033 - - -
0.8039 2050 0.0009 - - -
0.8078 2060 0.0018 - - -
0.8118 2070 0.0002 - - -
0.8157 2080 0.0001 - - -
0.8196 2090 0.0019 - - -
0.8235 2100 0.0011 - - -
0.8275 2110 0.0 - - -
0.8314 2120 0.0005 - - -
0.8353 2130 0.0027 - - -
0.8392 2140 0.0011 - - -
0.8431 2150 0.0001 - - -
0.8471 2160 0.0007 - - -
0.8510 2170 0.0001 - - -
0.8549 2180 0.0028 - - -
0.8588 2190 0.0014 - - -
0.8627 2200 0.0003 - - -
0.8667 2210 0.0001 - - -
0.8706 2220 0.0001 - - -
0.8745 2230 0.0001 - - -
0.8784 2240 0.0002 - - -
0.8824 2250 0.0002 - - -
0.8863 2260 0.0 - - -
0.8902 2270 0.0002 - - -
0.8941 2280 0.0001 - - -
0.8980 2290 0.0 - - -
0.9020 2300 0.0003 - - -
0.9059 2310 0.0004 - - -
0.9098 2320 0.0009 - - -
0.9137 2330 0.0036 - - -
0.9176 2340 0.0004 - - -
0.9216 2350 0.0167 - - -
0.9255 2360 0.0236 - - -
0.9294 2370 0.0002 - - -
0.9333 2380 0.0142 - - -
0.9373 2390 0.0059 - - -
0.9412 2400 0.0 - - -
0.9451 2410 0.0 - - -
0.9490 2420 0.0006 - - -
0.9529 2430 0.0104 - - -
0.9569 2440 0.0004 - - -
0.9608 2450 0.0006 - - -
0.9647 2460 0.0002 - - -
0.9686 2470 0.0 - - -
0.9725 2480 0.0005 - - -
0.9765 2490 0.0001 - - -
0.9804 2500 0.0122 - - -
0.9843 2510 0.0014 - - -
0.9882 2520 0.0002 - - -
0.9922 2530 0.0001 - - -
0.9961 2540 0.0053 - - -
1.0 2550 0.0006 0.0614 0.4626 0.4628
1.0039 2560 0.0 - - -
1.0078 2570 0.0018 - - -
1.0118 2580 0.0007 - - -
1.0157 2590 0.0001 - - -
1.0196 2600 0.0014 - - -
1.0235 2610 0.0013 - - -
1.0275 2620 0.0001 - - -
1.0314 2630 0.0209 - - -
1.0353 2640 0.0 - - -
1.0392 2650 0.0 - - -
1.0431 2660 0.0 - - -
1.0471 2670 0.0003 - - -
1.0510 2680 0.0013 - - -
1.0549 2690 0.0021 - - -
1.0588 2700 0.0 - - -
1.0627 2710 0.0013 - - -
1.0667 2720 0.0003 - - -
1.0706 2730 0.0011 - - -
1.0745 2740 0.0 - - -
1.0784 2750 0.3286 - - -
1.0824 2760 0.0002 - - -
1.0863 2770 0.0016 - - -
1.0902 2780 0.0002 - - -
1.0941 2790 0.0004 - - -
1.0980 2800 0.0003 - - -
1.1020 2810 0.0 - - -
1.1059 2820 0.0003 - - -
1.1098 2830 0.001 - - -
1.1137 2840 0.0001 - - -
1.1176 2850 0.0001 - - -
1.1216 2860 0.0001 - - -
1.1255 2870 0.0003 - - -
1.1294 2880 0.0 - - -
1.1333 2890 0.0003 - - -
1.1373 2900 0.001 - - -
1.1412 2910 0.0 - - -
1.1451 2920 0.0001 - - -
1.1490 2930 0.0002 - - -
1.1529 2940 0.0 - - -
1.1569 2950 0.0003 - - -
1.1608 2960 0.0 - - -
1.1647 2970 0.1143 - - -
1.1686 2980 0.0 - - -
1.1725 2990 0.0 - - -
1.1765 3000 0.0 - - -
1.1804 3010 0.0 - - -
1.1843 3020 0.0 - - -
1.1882 3030 0.0001 - - -
1.1922 3040 0.0 - - -
1.1961 3050 0.0 - - -
1.2 3060 0.0002 - - -
1.2039 3070 0.0015 - - -
1.2078 3080 0.0 - - -
1.2118 3090 0.0002 - - -
1.2157 3100 0.0045 - - -
1.2196 3110 0.0 - - -
1.2235 3120 0.0 - - -
1.2275 3130 0.0002 - - -
1.2314 3140 0.0 - - -
1.2353 3150 0.0001 - - -
1.2392 3160 0.0023 - - -
1.2431 3170 0.0029 - - -
1.2471 3180 0.0002 - - -
1.2510 3190 0.0004 - - -
1.2549 3200 0.0003 - - -
1.2588 3210 0.0002 - - -
1.2627 3220 0.0 - - -
1.2667 3230 0.0007 - - -
1.2706 3240 0.0001 - - -
1.2745 3250 0.0003 - - -
1.2784 3260 0.0004 - - -
1.2824 3270 0.0003 - - -
1.2863 3280 0.0 - - -
1.2902 3290 0.0011 - - -
1.2941 3300 0.0011 - - -
1.2980 3310 0.0 - - -
1.3020 3320 0.0 - - -
1.3059 3330 0.0 - - -
1.3098 3340 0.0001 - - -
1.3137 3350 0.0 - - -
1.3176 3360 0.0037 - - -
1.3216 3370 0.0 - - -
1.3255 3380 0.0001 - - -
1.3294 3390 0.0001 - - -
1.3333 3400 0.0 - - -
1.3373 3410 0.0001 - - -
1.3412 3420 0.0004 - - -
1.3451 3430 0.0002 - - -
1.3490 3440 0.0001 - - -
1.3529 3450 0.0002 - - -
1.3569 3460 0.0001 - - -
1.3608 3470 0.0 - - -
1.3647 3480 0.0 - - -
1.3686 3490 0.0001 - - -
1.3725 3500 0.0002 - - -
1.3765 3510 0.0 - - -
1.3804 3520 0.0 - - -
1.3843 3530 0.0004 - - -
1.3882 3540 0.0001 - - -
1.3922 3550 0.0 - - -
1.3961 3560 0.0 - - -
1.4 3570 0.0001 - - -
1.4039 3580 0.0 - - -
1.4078 3590 0.0 - - -
1.4118 3600 0.0002 - - -
1.4157 3610 0.0002 - - -
1.4196 3620 0.0 - - -
1.4235 3630 0.0 - - -
1.4275 3640 0.0001 - - -
1.4314 3650 0.0002 - - -
1.4353 3660 0.0005 - - -
1.4392 3670 0.0 - - -
1.4431 3680 0.0001 - - -
1.4471 3690 0.001 - - -
1.4510 3700 0.0001 - - -
1.4549 3710 0.0001 - - -
1.4588 3720 0.0 - - -
1.4627 3730 0.0016 - - -
1.4667 3740 0.0 - - -
1.4706 3750 0.0001 - - -
1.4745 3760 0.0006 - - -
1.4784 3770 0.0 - - -
1.4824 3780 0.0003 - - -
1.4863 3790 0.0029 - - -
1.4902 3800 0.0 - - -
1.4941 3810 0.0007 - - -
1.4980 3820 0.0001 - - -
1.5020 3830 0.0 - - -
1.5059 3840 0.0 - - -
1.5098 3850 0.0001 - - -
1.5137 3860 0.0 - - -
1.5176 3870 0.0001 - - -
1.5216 3880 0.0005 - - -
1.5255 3890 0.0 - - -
1.5294 3900 0.0 - - -
1.5333 3910 0.0001 - - -
1.5373 3920 0.0001 - - -
1.5412 3930 0.0 - - -
1.5451 3940 0.0003 - - -
1.5490 3950 0.0 - - -
1.5529 3960 0.0 - - -
1.5569 3970 0.0001 - - -
1.5608 3980 0.0001 - - -
1.5647 3990 0.0 - - -
1.5686 4000 0.0001 - - -
1.5725 4010 0.0 - - -
1.5765 4020 0.001 - - -
1.5804 4030 0.0002 - - -
1.5843 4040 0.0 - - -
1.5882 4050 0.0 - - -
1.5922 4060 0.0 - - -
1.5961 4070 0.0003 - - -
1.6 4080 0.0 - - -
1.6039 4090 0.0001 - - -
1.6078 4100 0.0613 - - -
1.6118 4110 0.0001 - - -
1.6157 4120 0.0 - - -
1.6196 4130 0.0 - - -
1.6235 4140 0.0 - - -
1.6275 4150 0.0 - - -
1.6314 4160 0.0 - - -
1.6353 4170 0.0 - - -
1.6392 4180 0.0001 - - -
1.6431 4190 0.0 - - -
1.6471 4200 0.0003 - - -
1.6510 4210 0.0 - - -
1.6549 4220 0.0 - - -
1.6588 4230 0.0002 - - -
1.6627 4240 0.0 - - -
1.6667 4250 0.0001 - - -
1.6706 4260 0.0001 - - -
1.6745 4270 0.0 - - -
1.6784 4280 0.0 - - -
1.6824 4290 0.0002 - - -
1.6863 4300 0.0003 - - -
1.6902 4310 0.0 - - -
1.6941 4320 0.0004 - - -
1.6980 4330 0.0003 - - -
1.7020 4340 0.0 - - -
1.7059 4350 0.0002 - - -
1.7098 4360 0.0 - - -
1.7137 4370 0.0001 - - -
1.7176 4380 0.0 - - -
1.7216 4390 0.0001 - - -
1.7255 4400 0.0 - - -
1.7294 4410 0.0002 - - -
1.7333 4420 0.0 - - -
1.7373 4430 0.0 - - -
1.7412 4440 0.0 - - -
1.7451 4450 0.0 - - -
1.7490 4460 0.0 - - -
1.7529 4470 0.0001 - - -
1.7569 4480 0.0001 - - -
1.7608 4490 0.0 - - -
1.7647 4500 0.003 - - -
1.7686 4510 0.0 - - -
1.7725 4520 0.0003 - - -
1.7765 4530 0.0001 - - -
1.7804 4540 0.0001 - - -
1.7843 4550 0.0 - - -
1.7882 4560 0.0 - - -
1.7922 4570 0.0 - - -
1.7961 4580 0.0006 - - -
1.8 4590 0.0694 - - -
1.8039 4600 0.0 - - -
1.8078 4610 0.0029 - - -
1.8118 4620 0.0001 - - -
1.8157 4630 0.0001 - - -
1.8196 4640 0.0 - - -
1.8235 4650 0.0002 - - -
1.8275 4660 0.0 - - -
1.8314 4670 0.0002 - - -
1.8353 4680 0.0 - - -
1.8392 4690 0.0007 - - -
1.8431 4700 0.0 - - -
1.8471 4710 0.0 - - -
1.8510 4720 0.0 - - -
1.8549 4730 0.0007 - - -
1.8588 4740 0.0 - - -
1.8627 4750 0.0 - - -
1.8667 4760 0.0 - - -
1.8706 4770 0.0001 - - -
1.8745 4780 0.0001 - - -
1.8784 4790 0.0 - - -
1.8824 4800 0.0 - - -
1.8863 4810 0.0 - - -
1.8902 4820 0.0 - - -
1.8941 4830 0.0001 - - -
1.8980 4840 0.0001 - - -
1.9020 4850 0.0001 - - -
1.9059 4860 0.0003 - - -
1.9098 4870 0.0 - - -
1.9137 4880 0.0 - - -
1.9176 4890 0.0 - - -
1.9216 4900 0.0107 - - -
1.9255 4910 0.0003 - - -
1.9294 4920 0.0001 - - -
1.9333 4930 0.0007 - - -
1.9373 4940 0.0111 - - -
1.9412 4950 0.0001 - - -
1.9451 4960 0.0001 - - -
1.9490 4970 0.0 - - -
1.9529 4980 0.0 - - -
1.9569 4990 0.0001 - - -
1.9608 5000 0.0001 - - -
1.9647 5010 0.0 - - -
1.9686 5020 0.0001 - - -
1.9725 5030 0.0 - - -
1.9765 5040 0.0001 - - -
1.9804 5050 0.0 - - -
1.9843 5060 0.0 - - -
1.9882 5070 0.0 - - -
1.9922 5080 0.0 - - -
1.9961 5090 0.0001 - - -
2.0 5100 0.0 0.0546 0.5145 0.51
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.1
  • Transformers: 4.41.2
  • PyTorch: 2.1.2+cu121
  • Accelerate: 0.29.3
  • Datasets: 2.19.1
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}