anhtuansh's picture
Add new SentenceTransformer model
f75f4e8 verified
metadata
base_model: Alibaba-NLP/gte-multilingual-base
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:8259
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: >-
      theo quy_định tại điều 35 nghị_định số 201 / 2013 / nđ - cp thì thời_hạn
      giải_quyết thủ_tục hành_chính về cấp giấy_phép thăm_dò , khai_thác nước
      dưới đất như sau : 1 . tiếp_nhận và kiểm_tra hồ_sơ : trong thời_hạn mười (
      10 ) ngày làm_việc , kể từ ngày nhận hồ_sơ , cơ_quan tiếp_nhận hồ_sơ có
      trách_nhiệm xem_xét , kiểm_tra hồ_sơ . trường_hợp hồ_sơ không hợp_lệ ,
      cơ_quan tiếp_nhận hồ_sơ thông_báo cho tổ_chức , cá_nhân đề_nghị cấp phép
      để bổ_sung , hoàn_thiện hồ_sơ theo quy_định . trường_hợp hồ_sơ sau khi đã
      bổ_sung mà vẫn không đáp_ứng yêu_cầu theo quy_định thì cơ_quan tiếp_nhận
      hồ_sơ trả lại hồ_sơ và thông_báo rõ lý_do cho tổ_chức , cá_nhân đề_nghị
      cấp phép . 2 . thẩm_định_đề_án , báo_cáo thăm_dò , khai_thác , sử_dụng
      tài_nguyên nước , xả nước_thải vào nguồn nước trong hồ_sơ đề_nghị cấp phép
      ( sau đây gọi chung là đề_án , báo_cáo ) : a ) trong thời_hạn ba_mươi ( 30
      ) ngày làm_việc , kể từ ngày nhận đủ hồ_sơ hợp_lệ theo quy_định tại khoản
      1 điều này , cơ_quan tiếp_nhận hồ_sơ có trách_nhiệm thẩm_định_đề_án ,
      báo_cáo ; nếu cần_thiết thì kiểm_tra thực_tế hiện_trường , lập hội_đồng
      thẩm_định_đề_án , báo_cáo . trường_hợp đủ điều_kiện cấp phép , cơ_quan
      tiếp_nhận hồ_sơ trình cơ_quan có thẩm_quyền cấp giấy_phép ; trường_hợp
      không đủ điều_kiện để cấp phép thì trả lại hồ_sơ cho tổ_chức , cá_nhân
      đề_nghị cấp phép và thông_báo lý_do không cấp phép ; b ) trường_hợp phải
      bổ_sung , chỉnh_sửa để hoàn_thiện đề_án , báo_cáo thì cơ_quan tiếp_nhận
      hồ_sơ gửi văn_bản thông_báo cho tổ_chức , cá_nhân đề_nghị cấp phép nêu rõ
      những nội_dung cần bổ_sung , hoàn_thiện đề_án , báo_cáo . thời_gian
      bổ_sung , hoàn_thiện hoặc lập lại đề_án , báo_cáo không tính vào thời_gian
      thẩm_định_đề_án , báo_cáo . thời_gian thẩm_định sau khi đề_án , báo_cáo
      được bổ_sung hoàn_chỉnh là hai mươi ( 20 ) ngày làm_việc ; c ) trường_hợp
      phải lập lại đề_án , báo_cáo , cơ_quan tiếp_nhận hồ_sơ gửi văn_bản
      thông_báo cho tổ_chức , cá_nhân đề_nghị cấp phép nêu rõ những nội_dung
      đề_án , báo_cáo chưa đạt yêu_cầu , phải làm lại và trả lại hồ_sơ đề_nghị
      cấp phép . 3 . trả kết_quả giải_quyết hồ_sơ_cấp phéptrong thời_hạn năm (
      05 ) ngày làm_việc , kể từ ngày nhận được giấy_phép của cơ_quan có
      thẩm_quyền , cơ_quan tiếp_nhận hồ_sơ thông_báo cho tổ_chức , cá_nhân
      đề_nghị cấp phép để thực_hiện nghĩa_vụ tài_chính và nhận giấy_phép .
    sentences:
      - >-
        ai có thẩm_quyền giải_quyết tố_cáo hành_vi vi_phạm_pháp_luật trong
        thực_hiện nhiệm_vụ , công_vụ của cán_bộ , công_chức , viên_chức ?
      - >-
        thời_hạn giải_quyết thủ_tục hành_chính về cấp giấy_phép thăm_dò ,
        giấy_phép khai_thác nước dưới đất ?
      - >-
        tôi có_thể đăng_ký ngành , nghề kinh_doanh không có trong hệ_thống ngành
        kinh_tế việt_nam không ?
  - source_sentence: >-
      khoản 2 điều 2 thông_tư 30 quy_định , đoàn khám bệnh , chữa bệnh_nhân_đạo
      là một nhóm nhân_viên y_tế trong nước , nước_ngoài do cá_nhân , tổ_chức
      trong nước , nước_ngoài tổ_chức để khám bệnh , chữa bệnh_nhân_đạo cho
      nhân_dân .
    sentences:
      - tàu_thủy lưu_trú du_lịch  tiêu_chí xếp_hạng bắt_buộc không ?
      - tôi muốn xin cấp lại sổ thuyền_viên thì cần những hồ_sơ  ?
      - đoàn khám bệnh , chữa bệnh_nhân_đạo   ?
  - source_sentence: >-
      thành_phần hồ_sơ thực_hiện tthc sửa_đổi , bổ_sung / cấp lại giấy
      chứng_nhận lưu_hành tự_do ( cfs ) đối_với hàng_hóa xuất_khẩu thuộc phạm_vi
      quản_lý của bộ nông_nghiệp và phát_triển nông_thôn ( quy_định tại
      quyết_định số 1312 / qđ - bnn - qlcl ngày 22 / 4 / 2019 về việc công_bố
      thủ_tục hành_chính được thay_thế , tthc bị bãi_bỏ lĩnh_vực quản_lý
      chất_lượng nông_lâm_sản và thủy_sản thuộc phạm_vi chức_năng quản_lý của bộ
      nông_nghiệp và phát_triển nông_thôn ) : - văn_bản đề_nghị sửa_đổi ,
      bổ_sung / cấp lại cfs của thương_nhân : 01 bản_chính . - các giấy_tờ
      liên_quan đến việc sửa_đổi , bổ_sung / cấp lại cfs.
    sentences:
      - >-
        kính gửi cục quản_lý chất_lượng nông_lâm_sản và thuỷ_sản , công_ty tôi
        đã được quý cục cấp giấy chứng_nhận lưu_hành tự_do cfs , nay tôi muốn
        sửa_đổi một_số thông_tin trên giấy cfs , vậy hồ_sơ đề_nghị sửa_đổi cần
        những gì ?
      - >-
        thời_gian để được cấp quyết_định chỉ_định tổ_chức đánh_giá sự phù_hợp
        lĩnh_vực sản_phẩm , hàng_hóa_vật_liệu xây_dựng đối_với trường_hợp
        thay_đổi , bổ_sung phạm_vi , lĩnh_vực được chỉ_định
      - hồ_sơ đăng_ký dự_tuyển lao_động của người lao_động gồm những  ?
  - source_sentence: >-
      hồ_sơ đề_nghị gia_hạn giấy_phép cung_cấp dịch_vụ trò_chơi điện_tử g1 trên
      mạng bao_gồm : - đơn đề_nghị gia_hạn giấy_phép bao_gồm : tên , địa_chỉ của
      doanh_nghiệp ; số , nơi cấp , ngày cấp giấy chứng_nhận đăng_ký
      doanh_nghiệp ; số , ngày cấp , ngày hiệu_lực của giấy_phép đã được cấp ;
      lý_do đề_nghị gia_hạn giấy_phép ; cam_kết của doanh_nghiệp về các nội_dung
      kê_khai trong đơn đề_nghị .
    sentences:
      - thành_phần hồ_sơ
      - >-
        nhà đầu_tư phải nộp bao_nhiêu bộ hồ_sơ đề_nghị thủ_tướng chính_phủ cho
        phép đầu_tư gián_tiếp ra nước_ngoài đối_với các trường_hợp đầu_tư khác
        quy_định tại điều 9 nghị_định 135 / 2015 / nđ - cp ?
      - >-
        phần vốn của thành_viên chưa góp vốn trong thời_hạn 90 ngày , kể từ ngày
        được cấp giấy chứng_nhận đăng_ký doanh_nghiệp trong công_ty tnhh hai
        thành_viên trở lên được xử_lý như thế_nào ? trường_hợp có người nhận mua
        lại phần vốn chưa góp này thì công_ty có phải đăng_ký thay_đổi
        thành_viên với cơ_quan đăng_ký kinh_doanh không ? hồ_sơ , thủ_tục được
        quy_định như thế_nào ?
  - source_sentence: >-
      quản_lý nhập_khẩu hàng_hóa bị điều_tra , phục_vụ công_tác điều_tra ,
      áp_dụng biện_pháp phòng_vệ thương_mại .
    sentences:
      - mục_đích của thủ_tục khai_báo   ?
      - >-
        đơn_vị chúng_tôi đã được cấp chứng_chỉ năng_lực hoạt_động xây_dựng nhưng
        hiện_nay chúng_tôi thay_đổi người đại_diện pháp_luật của đơn_vị . vậy
        chúng_tôi có phải làm thủ_tục nào để thay_đổi người đại_diện theo
        pháp_luật của chúng_tôi trên chứng_chỉ ?
      - >-
        trường_hợp nào thì được cấp lại giấy xác_nhận đăng_ký công_cụ hỗ_trợ ,
        thủ_tục cấp lại giấy xác_nhận đăng_ký công_cụ hỗ_trợ như thế_nào ?
model-index:
  - name: SentenceTransformer based on Alibaba-NLP/gte-multilingual-base
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 768
          type: dim_768
        metrics:
          - type: cosine_accuracy@1
            value: 0.593681917211329
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7570806100217865
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7995642701525054
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8529411764705882
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.593681917211329
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.25236020334059545
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1599128540305011
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.0852941176470588
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.593681917211329
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.7570806100217865
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7995642701525054
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8529411764705882
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.7258373460833151
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6849426807760143
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6892239051806721
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 512
          type: dim_512
        metrics:
          - type: cosine_accuracy@1
            value: 0.5816993464052288
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7549019607843137
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.8017429193899782
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8518518518518519
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5816993464052288
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.25163398692810457
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.16034858387799564
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08518518518518517
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5816993464052288
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.7549019607843137
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.8017429193899782
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8518518518518519
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.7211047590028883
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6788346820209566
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6831173045820442
            name: Cosine Map@100

SentenceTransformer based on Alibaba-NLP/gte-multilingual-base

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Alibaba-NLP/gte-multilingual-base
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("anhtuansh/gte-multilingual-base-Matryoshka-1e-9k")
# Run inference
sentences = [
    'quản_lý nhập_khẩu hàng_hóa bị điều_tra , phục_vụ công_tác điều_tra , áp_dụng biện_pháp phòng_vệ thương_mại .',
    'mục_đích của thủ_tục khai_báo là gì ?',
    'đơn_vị chúng_tôi đã được cấp chứng_chỉ năng_lực hoạt_động xây_dựng nhưng hiện_nay chúng_tôi thay_đổi người đại_diện pháp_luật của đơn_vị . vậy chúng_tôi có phải làm thủ_tục nào để thay_đổi người đại_diện theo pháp_luật của chúng_tôi trên chứng_chỉ ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512
cosine_accuracy@1 0.5937 0.5817
cosine_accuracy@3 0.7571 0.7549
cosine_accuracy@5 0.7996 0.8017
cosine_accuracy@10 0.8529 0.8519
cosine_precision@1 0.5937 0.5817
cosine_precision@3 0.2524 0.2516
cosine_precision@5 0.1599 0.1603
cosine_precision@10 0.0853 0.0852
cosine_recall@1 0.5937 0.5817
cosine_recall@3 0.7571 0.7549
cosine_recall@5 0.7996 0.8017
cosine_recall@10 0.8529 0.8519
cosine_ndcg@10 0.7258 0.7211
cosine_mrr@10 0.6849 0.6788
cosine_map@100 0.6892 0.6831

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 8,259 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 5 tokens
    • mean: 303.9 tokens
    • max: 3209 tokens
    • min: 7 tokens
    • mean: 56.17 tokens
    • max: 578 tokens
  • Samples:
    positive anchor
    điểm a , mục 2 phần ii thông_tư số 04 / 1999 / tt - bca ( c13 ) ngày 29 / 4 / 1999 của bộ công_an hướng_dẫn một_số quy_định của nghị_định số 05 / 1999 / nđ - cp ngày 03 / 01 / 1999 của chính_phủ về chứng_minh nhân_dân quy_định các trường_hợp phải đổi cmnd như sau : - quá thời_hạn sử_dụng 15 năm kể từ ngày cấp ; - cmnd rách , nát , không rõ ảnh hoặc một trong các thông_tin đã ghi trên cmnd ; - thay_đổi họ , tên , chữ đệm , ngày , tháng , năm sinh . những thay_đổi này phải có quyết_định của cơ_quan có thẩm_quyền ; - những người đã được cấp giấy cmnd nhưng chuyển nơi đăng_ký hộ_khẩu thường_trú ngoài phạm_vi tỉnh , thành_phố trực_thuộc trung_ương . trường_hợp chuyển nơi thường_trú trong phạm_vi tỉnh , thành_phố mà công_dân có yêu_cầu thì được đổi lại cmnd ; - thay_đổi đặc_điểm nhận_dạng là những trường_hợp đã qua phẫu_thuật thẩm_mỹ , chỉnh_hình hoặc vì lý_do khác đã làm thay_đổi hình_ảnh hoặc đặc_điểm nhận_dạng của họ . công_dân phải làm thủ_tục đổi chứng_minh nhân_dân khi nào ?
    việc thực_hiện thủ_tục tặng cờ thi_đua cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương theo đợt hoặc chuyên_đề được tiến_hành như sau :
    bước 1 . vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương tiếp_nhận đề_nghị khen_thưởng của các đơn_vị thực thuộc .
    bước 2 . thẩm_định hồ_sơ , xin ý_kiến các cơ_quan liên_quan , báo_cáo hội_đồng thi_đua khen_thưởng cùng cấp , tổng_hợp trình bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố quyết_định khen_thưởng .
    bước 3 . khi có quyết_định của bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố trực_thuộc trung_ương ; vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương thông_báo quyết_định , viết bằng , đóng_dấu và cấp_phát cho đơn_vị trình khen .
    bước 4 . các trường_hợp không được khen_thưởng ( không đúng đối_tượng , không đủ tiêu_chuẩn , không đủ hồ_sơ...
    đề_nghị cho biết trình_tự thực_hiện thủ_tục tặng cờ thi_đua cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương theo đợt hoặc chuyên_đề
    thời_gian phục_vụ tại_ngũ của hạ_sĩ_quan binh_sĩ được quy_định tại điều 21 luật nvqs năm 2015 , cụ_thể như sau : “ điều 21 . thời_hạn phục_vụ tại_ngũ của hạ_sĩ_quan , binh sĩ1 . thời_hạn phục_vụ tại_ngũ trong thời_bình của hạ_sĩ_quan , binh_sĩ là 24 tháng . 2 . bộ_trưởng bộ quốc_phòng được quyết_định kéo_dài thời_hạn phục_vụ tại_ngũ của hạ_sĩ_quan , binh_sĩ nhưng không quá 06 tháng trong trường_hợp sau đây : a ) để bảo_đảm_nhiệm_vụ sẵn_sàng chiến_đấu ; b ) đang thực_hiện nhiệm_vụ phòng , chống thiên_tai , dịch_bệnh , cứu_hộ , cứu nạn . 3 . thời_hạn phục_vụ của hạ_sĩ_quan , binh_sĩ trong tình_trạng chiến_tranh hoặc tình_trạng khẩn_cấp về quốc_phòng được thực_hiện theo lệnh tổng_động_viên hoặc động_viên cục_bộ . ” quy_định thời_gian phục_vụ tại_ngũ của hạ_sĩ_quan binh_sĩ như thế_nào ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 918 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 918 samples:
    positive anchor
    type string string
    details
    • min: 5 tokens
    • mean: 307.44 tokens
    • max: 3463 tokens
    • min: 11 tokens
    • mean: 55.94 tokens
    • max: 383 tokens
  • Samples:
    positive anchor
    theo quy_định tại khoản 9 điều 1 nghị_định số 161 / 2018 / nđ - cpngày 29 / 11 / 2018 của chính_phủ sửa_đổi , bổ_sung một_số quy_định về tuyển_dụng công_chức , viên_chức , nâng ngạch công_chức , thăng_hạng viên_chức và thực_hiện chế_độ hợp_đồng một_số loại công_việc trong cơ_quan hành_chính nhà_nước , đơn_vị sự_nghiệp công_lập thì đối_tượng và điểm ưu_tiên trong thi_tuyển hoặc xét tuyển công_chức :
    + anh_hùng lực_lượng vũ_trang , anh_hùng lao_động , thương_binh , người hưởng chính_sách như thương_binh , thương_binh loại b : được cộng 7,5 điểm vào kết_quả điểm thi tại vòng 2 ;
    + người dân_tộc_thiểu_số , sĩ_quan quân_đội , sĩ_quan công_an , quân_nhân chuyên_nghiệp , người làm công_tác cơ_yếu chuyển ngành , con liệt_sĩ , con thương_binh , con bệnh_binh , con của người hưởng chính_sách như thương_binh , con của thương_binh loại b , con của người hoạt_động cách_mạng trước tổng_khởi_nghĩa ( từ ngày 19 / 8 / 1945 trở về trước ) , con_đẻ của người hoạt_động kháng_chiến bị nhiễm chất_độc_hó...
    đề_nghị cho tôi được biết đối_tượng được hưởng ưu_tiên trong tuyển_dụng công_chức ?
    1 . khi phát_hiện tổ_chức , cá_nhân kê_khai hồ_sơ , thông_báo không_trung_thực hoặc vi_phạm_quy_định tại điều 8 nghị_định số 23 / 2019 / nđ - cp , cơ_quan tiếp_nhận thông_báo yêu_cầu tạm dừng hoạt_động triển_lãm bằng văn_bản ( mẫu_số 03 tại phụ_lục ban_hành kèm theo nghị_định số 23 / 2019 / nđ - cp ) . 2 . tổ_chức , cá_nhân phải dừng hoạt_động triển_lãm ngay khi nhận được văn_bản của cơ_quan có thẩm_quyền ; kịp_thời_khắc_phục hậu_quả , đề_xuất phương_án tiếp_tục tổ_chức triển_lãm gửi cơ_quan có thẩm_quyền xem_xét , quyết_định . 3 . kết_quả xem_xét , quyết_định của cơ_quan có thẩm_quyền phải được thể_hiện bằng văn_bản và gửi cho tổ_chức , cá_nhân biết để thực_hiện . thời_hạn gửi văn_bản cho tổ_chức , cá_nhân là 03 ngày , kể từ ngày cơ_quan có thẩm_quyền nhận được văn_bản đề_xuất phương_án tiếp_tục tổ_chức triển_lãm của tổ_chức , cá_nhân . những lý_do nào khiến hoạt_động triển_lãm bị tạm dừng ?
    theo quy_định tại khoản 1 điều 33 luật quản_lý , sử_dụng vũ_khí , vật_liệu nổ và công_cụ hỗ_trợ và điểm a khoản 4 điều 3 thông_tư số 16 / 2018 / tt - bca ngày 15 / 5 / 2018 của bộ công_an quy_định chi_tiết thi_hành một_số điều của luật quản_lý , sử_dụng vũ_khí , vật_liệu nổ và công_cụ hỗ_trợ thì thủ_tục đề_nghị cấp giấy_phép vận_chuyển vũ_khí quân_dụng đối_với cơ_quan , tổ_chức ở trung_ương không thuộc phạm_vi quản_lý của bộ quốc_phòng được thực_hiện như sau : a ) hồ_sơ đề_nghị bao_gồm : văn_bản đề_nghị nêu rõ số_lượng , chủng_loại , nguồn_gốc xuất_xứ của vũ_khí cần vận_chuyển ; nơi đi , nơi đến , thời_gian và tuyến đường vận_chuyển ; họ và tên , địa_chỉ của người chịu trách_nhiệm vận_chuyển , người điều_khiển phương_tiện ; biển kiểm_soát của phương_tiện ; giấy giới_thiệu kèm theo bản_sao thẻ căn_cước công_dân , chứng_minh nhân_dân , hộ_chiếu hoặc chứng_minh công_an nhân_dân của người đến liên_hệ ; b ) hồ_sơ lập thành 01 bộ và nộp tại cục cảnh_sát qlhc về ttxh ; c ) trong thời_hạn 05 n... thủ_tục cấp giấy_phép vận_chuyển vũ_khí quân_dụng đối_với cơ_quan , tổ_chức ở trung_ương không thuộc phạm_vi quản_lý của bộ quốc_phòng thực_hiện như thế_nào ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10
0 0 - - 0.5887 0.5836
0.0048 10 0.1623 - - -
0.0097 20 0.1729 - - -
0.0145 30 0.2747 - - -
0.0194 40 0.2127 - - -
0.0242 50 0.1473 - - -
0.0291 60 0.4109 - - -
0.0339 70 0.2261 - - -
0.0387 80 0.0818 - - -
0.0436 90 0.089 - - -
0.0484 100 0.0978 - - -
0.0533 110 0.0086 - - -
0.0581 120 0.1008 - - -
0.0630 130 0.2521 - - -
0.0678 140 0.0351 - - -
0.0726 150 0.0749 - - -
0.0775 160 0.1351 - - -
0.0823 170 0.0856 - - -
0.0872 180 0.0394 - - -
0.0920 190 0.2015 - - -
0.0969 200 0.026 - - -
0.1017 210 0.0287 - - -
0.1065 220 0.2549 - - -
0.1114 230 0.1615 - - -
0.1162 240 0.0181 - - -
0.1211 250 0.0582 - - -
0.1259 260 0.0537 - - -
0.1308 270 0.0404 - - -
0.1356 280 0.0307 - - -
0.1404 290 0.0316 - - -
0.1453 300 0.1625 - - -
0.1501 310 0.0104 - - -
0.1550 320 0.1477 - - -
0.1598 330 0.3662 - - -
0.1646 340 0.0763 - - -
0.1695 350 0.0291 - - -
0.1743 360 0.0858 - - -
0.1792 370 0.0131 - - -
0.1840 380 0.0255 - - -
0.1889 390 0.0596 - - -
0.1937 400 0.0939 - - -
0.1985 410 0.0197 - - -
0.2034 420 0.0289 - - -
0.2082 430 0.0709 - - -
0.2131 440 0.0148 - - -
0.2179 450 0.0281 - - -
0.2228 460 0.0657 - - -
0.2276 470 0.2965 - - -
0.2324 480 0.0691 - - -
0.2373 490 0.0017 - - -
0.2421 500 0.0045 - - -
0.2470 510 0.0076 - - -
0.2518 520 0.0996 - - -
0.2567 530 0.1027 - - -
0.2615 540 0.0192 - - -
0.2663 550 0.0048 - - -
0.2712 560 0.1203 - - -
0.2760 570 0.0541 - - -
0.2809 580 0.0596 - - -
0.2857 590 0.027 - - -
0.2906 600 0.2358 - - -
0.2954 610 0.001 - - -
0.3002 620 0.0138 - - -
0.3051 630 0.0355 - - -
0.3099 640 0.1318 - - -
0.3148 650 0.0056 - - -
0.3196 660 0.0677 - - -
0.3245 670 0.0425 - - -
0.3293 680 0.003 - - -
0.3341 690 0.0608 - - -
0.3390 700 0.0024 - - -
0.3438 710 0.0327 - - -
0.3487 720 0.0021 - - -
0.3535 730 0.0504 - - -
0.3584 740 0.0012 - - -
0.3632 750 0.0383 - - -
0.3680 760 0.0127 - - -
0.3729 770 0.0073 - - -
0.3777 780 0.0223 - - -
0.3826 790 0.2714 - - -
0.3874 800 0.1781 - - -
0.3923 810 0.1457 - - -
0.3971 820 0.0428 - - -
0.4019 830 0.0663 - - -
0.4068 840 0.0746 - - -
0.4116 850 0.048 - - -
0.4165 860 0.0052 - - -
0.4213 870 0.0063 - - -
0.4262 880 0.0183 - - -
0.4310 890 0.0075 - - -
0.4358 900 0.0085 - - -
0.4407 910 0.0006 - - -
0.4455 920 0.0112 - - -
0.4504 930 0.0128 - - -
0.4552 940 0.0092 - - -
0.4600 950 0.0187 - - -
0.4649 960 0.0003 - - -
0.4697 970 0.0027 - - -
0.4746 980 0.1156 - - -
0.4794 990 0.0921 - - -
0.4843 1000 0.0676 - - -
0.4891 1010 0.0868 - - -
0.4939 1020 0.3319 - - -
0.4988 1030 0.0227 - - -
0.5036 1040 0.0026 - - -
0.5085 1050 0.0033 - - -
0.5133 1060 0.038 - - -
0.5182 1070 0.1247 - - -
0.5230 1080 0.0015 - - -
0.5278 1090 0.0104 - - -
0.5327 1100 0.0118 - - -
0.5375 1110 0.0008 - - -
0.5424 1120 0.0094 - - -
0.5472 1130 0.0324 - - -
0.5521 1140 0.0011 - - -
0.5569 1150 0.0394 - - -
0.5617 1160 0.0096 - - -
0.5666 1170 0.0031 - - -
0.5714 1180 0.0564 - - -
0.5763 1190 0.181 - - -
0.5811 1200 0.0401 - - -
0.5860 1210 0.0163 - - -
0.5908 1220 0.0583 - - -
0.5956 1230 0.1254 - - -
0.6005 1240 0.0027 - - -
0.6053 1250 0.1357 - - -
0.6102 1260 0.0036 - - -
0.6150 1270 0.0015 - - -
0.6199 1280 0.1927 - - -
0.6247 1290 0.098 - - -
0.6295 1300 0.0119 - - -
0.6344 1310 0.0189 - - -
0.6392 1320 0.0792 - - -
0.6441 1330 0.0084 - - -
0.6489 1340 0.0617 - - -
0.6538 1350 0.0818 - - -
0.6586 1360 0.0264 - - -
0.6634 1370 0.0004 - - -
0.6683 1380 0.0472 - - -
0.6731 1390 0.0013 - - -
0.6780 1400 0.0117 - - -
0.6828 1410 0.0213 - - -
0.6877 1420 0.1806 - - -
0.6925 1430 0.0278 - - -
0.6973 1440 0.0053 - - -
0.7022 1450 0.1247 - - -
0.7070 1460 0.002 - - -
0.7119 1470 0.0235 - - -
0.7167 1480 0.0044 - - -
0.7215 1490 0.029 - - -
0.7264 1500 0.004 - - -
0.7312 1510 0.001 - - -
0.7361 1520 0.003 - - -
0.7409 1530 0.0004 - - -
0.7458 1540 0.0027 - - -
0.7506 1550 0.0018 - - -
0.7554 1560 0.004 - - -
0.7603 1570 0.0071 - - -
0.7651 1580 0.0358 - - -
0.7700 1590 0.0015 - - -
0.7748 1600 0.0409 - - -
0.7797 1610 0.0561 - - -
0.7845 1620 0.0311 - - -
0.7893 1630 0.0132 - - -
0.7942 1640 0.0026 - - -
0.7990 1650 0.0925 - - -
0.8039 1660 0.0062 - - -
0.8087 1670 0.0041 - - -
0.8136 1680 0.0014 - - -
0.8184 1690 0.0135 - - -
0.8232 1700 0.0033 - - -
0.8281 1710 0.0003 - - -
0.8329 1720 0.0355 - - -
0.8378 1730 0.0035 - - -
0.8426 1740 0.0018 - - -
0.8475 1750 0.0249 - - -
0.8523 1760 0.0217 - - -
0.8571 1770 0.0883 - - -
0.8620 1780 0.0063 - - -
0.8668 1790 0.0067 - - -
0.8717 1800 0.0127 - - -
0.8765 1810 0.0019 - - -
0.8814 1820 0.0023 - - -
0.8862 1830 0.0246 - - -
0.8910 1840 0.0044 - - -
0.8959 1850 0.0086 - - -
0.9007 1860 0.0323 - - -
0.9056 1870 0.013 - - -
0.9104 1880 0.002 - - -
0.9153 1890 0.0053 - - -
0.9201 1900 0.0009 - - -
0.9249 1910 0.0082 - - -
0.9298 1920 0.0008 - - -
0.9346 1930 0.0079 - - -
0.9395 1940 0.0031 - - -
0.9443 1950 0.0039 - - -
0.9492 1960 0.0261 - - -
0.9540 1970 0.0006 - - -
0.9588 1980 0.0063 - - -
0.9637 1990 0.0132 - - -
0.9685 2000 0.0061 - - -
0.9734 2010 0.0008 - - -
0.9782 2020 0.0341 - - -
0.9831 2030 0.0054 - - -
0.9879 2040 0.0001 - - -
0.9927 2050 0.0367 - - -
0.9976 2060 0.0046 - - -
1.0 2065 - 0.0276 0.7258 0.7211
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.1
  • Transformers: 4.41.2
  • PyTorch: 2.4.0
  • Accelerate: 0.29.3
  • Datasets: 2.19.1
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}