initial commit

Browse files

Files changed (11) hide show

.gitattributes +35 -0
1_Pooling/config.json +7 -0
2_Normalize/.gitkeep +0 -0
README.md +1273 -0
config.json +28 -0
modules.json +20 -0
pytorch_model.bin +3 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +15 -0
tokenizer.json +0 -0
tokenizer_config.json +15 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "word_embedding_dimension": 768,
+  "pooling_mode_cls_token": true,
+  "pooling_mode_mean_tokens": false,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false
+}

2_Normalize/.gitkeep ADDED Viewed

File without changes

README.md ADDED Viewed

	@@ -0,0 +1,1273 @@

+---
+tags:
+  - sentence-transformers
+  - feature-extraction
+  - sentence-similarity
+  - transformers
+  - mteb
+license: lgpl
+language:
+- pl
+pipeline_tag: sentence-similarity
+model-index:
+- name: st-polish-kartonberta-base-alpha-v1
+  results:
+  - task:
+      type: Clustering
+    dataset:
+      type: PL-MTEB/8tags-clustering
+      name: MTEB 8TagsClustering
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: v_measure
+      value: 32.85180358455615
+  - task:
+      type: Classification
+    dataset:
+      type: PL-MTEB/allegro-reviews
+      name: MTEB AllegroReviews
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: accuracy
+      value: 40.188866799204774
+    - type: f1
+      value: 34.71127012684797
+  - task:
+      type: Retrieval
+    dataset:
+      type: arguana-pl
+      name: MTEB ArguAna-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 30.939
+    - type: map_at_10
+      value: 47.467999999999996
+    - type: map_at_100
+      value: 48.303000000000004
+    - type: map_at_1000
+      value: 48.308
+    - type: map_at_3
+      value: 43.22
+    - type: map_at_5
+      value: 45.616
+    - type: mrr_at_1
+      value: 31.863000000000003
+    - type: mrr_at_10
+      value: 47.829
+    - type: mrr_at_100
+      value: 48.664
+    - type: mrr_at_1000
+      value: 48.67
+    - type: mrr_at_3
+      value: 43.492
+    - type: mrr_at_5
+      value: 46.006
+    - type: ndcg_at_1
+      value: 30.939
+    - type: ndcg_at_10
+      value: 56.058
+    - type: ndcg_at_100
+      value: 59.562000000000005
+    - type: ndcg_at_1000
+      value: 59.69799999999999
+    - type: ndcg_at_3
+      value: 47.260000000000005
+    - type: ndcg_at_5
+      value: 51.587
+    - type: precision_at_1
+      value: 30.939
+    - type: precision_at_10
+      value: 8.329
+    - type: precision_at_100
+      value: 0.984
+    - type: precision_at_1000
+      value: 0.1
+    - type: precision_at_3
+      value: 19.654
+    - type: precision_at_5
+      value: 13.898
+    - type: recall_at_1
+      value: 30.939
+    - type: recall_at_10
+      value: 83.286
+    - type: recall_at_100
+      value: 98.43499999999999
+    - type: recall_at_1000
+      value: 99.502
+    - type: recall_at_3
+      value: 58.962
+    - type: recall_at_5
+      value: 69.488
+  - task:
+      type: Classification
+    dataset:
+      type: PL-MTEB/cbd
+      name: MTEB CBD
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: accuracy
+      value: 67.69000000000001
+    - type: ap
+      value: 21.078799692467182
+    - type: f1
+      value: 56.80107173953953
+  - task:
+      type: PairClassification
+    dataset:
+      type: PL-MTEB/cdsce-pairclassification
+      name: MTEB CDSC-E
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: cos_sim_accuracy
+      value: 89.2
+    - type: cos_sim_ap
+      value: 79.11674608786898
+    - type: cos_sim_f1
+      value: 68.83468834688347
+    - type: cos_sim_precision
+      value: 70.94972067039106
+    - type: cos_sim_recall
+      value: 66.84210526315789
+    - type: dot_accuracy
+      value: 89.2
+    - type: dot_ap
+      value: 79.11674608786898
+    - type: dot_f1
+      value: 68.83468834688347
+    - type: dot_precision
+      value: 70.94972067039106
+    - type: dot_recall
+      value: 66.84210526315789
+    - type: euclidean_accuracy
+      value: 89.2
+    - type: euclidean_ap
+      value: 79.11674608786898
+    - type: euclidean_f1
+      value: 68.83468834688347
+    - type: euclidean_precision
+      value: 70.94972067039106
+    - type: euclidean_recall
+      value: 66.84210526315789
+    - type: manhattan_accuracy
+      value: 89.1
+    - type: manhattan_ap
+      value: 79.1220443374692
+    - type: manhattan_f1
+      value: 69.02173913043478
+    - type: manhattan_precision
+      value: 71.34831460674157
+    - type: manhattan_recall
+      value: 66.84210526315789
+    - type: max_accuracy
+      value: 89.2
+    - type: max_ap
+      value: 79.1220443374692
+    - type: max_f1
+      value: 69.02173913043478
+  - task:
+      type: STS
+    dataset:
+      type: PL-MTEB/cdscr-sts
+      name: MTEB CDSC-R
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: cos_sim_pearson
+      value: 91.41534744278998
+    - type: cos_sim_spearman
+      value: 92.12681551821147
+    - type: euclidean_pearson
+      value: 91.74369794485992
+    - type: euclidean_spearman
+      value: 92.12685848456046
+    - type: manhattan_pearson
+      value: 91.66651938751657
+    - type: manhattan_spearman
+      value: 92.057603126734
+  - task:
+      type: Retrieval
+    dataset:
+      type: dbpedia-pl
+      name: MTEB DBPedia-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 5.8709999999999996
+    - type: map_at_10
+      value: 12.486
+    - type: map_at_100
+      value: 16.897000000000002
+    - type: map_at_1000
+      value: 18.056
+    - type: map_at_3
+      value: 8.958
+    - type: map_at_5
+      value: 10.57
+    - type: mrr_at_1
+      value: 44.0
+    - type: mrr_at_10
+      value: 53.830999999999996
+    - type: mrr_at_100
+      value: 54.54
+    - type: mrr_at_1000
+      value: 54.568000000000005
+    - type: mrr_at_3
+      value: 51.87500000000001
+    - type: mrr_at_5
+      value: 53.113
+    - type: ndcg_at_1
+      value: 34.625
+    - type: ndcg_at_10
+      value: 26.996
+    - type: ndcg_at_100
+      value: 31.052999999999997
+    - type: ndcg_at_1000
+      value: 38.208
+    - type: ndcg_at_3
+      value: 29.471000000000004
+    - type: ndcg_at_5
+      value: 28.364
+    - type: precision_at_1
+      value: 44.0
+    - type: precision_at_10
+      value: 21.45
+    - type: precision_at_100
+      value: 6.837
+    - type: precision_at_1000
+      value: 1.6019999999999999
+    - type: precision_at_3
+      value: 32.333
+    - type: precision_at_5
+      value: 27.800000000000004
+    - type: recall_at_1
+      value: 5.8709999999999996
+    - type: recall_at_10
+      value: 17.318
+    - type: recall_at_100
+      value: 36.854
+    - type: recall_at_1000
+      value: 60.468999999999994
+    - type: recall_at_3
+      value: 10.213999999999999
+    - type: recall_at_5
+      value: 13.364
+  - task:
+      type: Retrieval
+    dataset:
+      type: fiqa-pl
+      name: MTEB FiQA-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 10.289
+    - type: map_at_10
+      value: 18.285999999999998
+    - type: map_at_100
+      value: 19.743
+    - type: map_at_1000
+      value: 19.964000000000002
+    - type: map_at_3
+      value: 15.193000000000001
+    - type: map_at_5
+      value: 16.962
+    - type: mrr_at_1
+      value: 21.914
+    - type: mrr_at_10
+      value: 30.653999999999996
+    - type: mrr_at_100
+      value: 31.623
+    - type: mrr_at_1000
+      value: 31.701
+    - type: mrr_at_3
+      value: 27.855
+    - type: mrr_at_5
+      value: 29.514000000000003
+    - type: ndcg_at_1
+      value: 21.914
+    - type: ndcg_at_10
+      value: 24.733
+    - type: ndcg_at_100
+      value: 31.253999999999998
+    - type: ndcg_at_1000
+      value: 35.617
+    - type: ndcg_at_3
+      value: 20.962
+    - type: ndcg_at_5
+      value: 22.553
+    - type: precision_at_1
+      value: 21.914
+    - type: precision_at_10
+      value: 7.346
+    - type: precision_at_100
+      value: 1.389
+    - type: precision_at_1000
+      value: 0.214
+    - type: precision_at_3
+      value: 14.352
+    - type: precision_at_5
+      value: 11.42
+    - type: recall_at_1
+      value: 10.289
+    - type: recall_at_10
+      value: 31.459
+    - type: recall_at_100
+      value: 56.854000000000006
+    - type: recall_at_1000
+      value: 83.722
+    - type: recall_at_3
+      value: 19.457
+    - type: recall_at_5
+      value: 24.767
+  - task:
+      type: Retrieval
+    dataset:
+      type: hotpotqa-pl
+      name: MTEB HotpotQA-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 29.669
+    - type: map_at_10
+      value: 41.615
+    - type: map_at_100
+      value: 42.571999999999996
+    - type: map_at_1000
+      value: 42.662
+    - type: map_at_3
+      value: 38.938
+    - type: map_at_5
+      value: 40.541
+    - type: mrr_at_1
+      value: 59.338
+    - type: mrr_at_10
+      value: 66.93900000000001
+    - type: mrr_at_100
+      value: 67.361
+    - type: mrr_at_1000
+      value: 67.38499999999999
+    - type: mrr_at_3
+      value: 65.384
+    - type: mrr_at_5
+      value: 66.345
+    - type: ndcg_at_1
+      value: 59.338
+    - type: ndcg_at_10
+      value: 50.607
+    - type: ndcg_at_100
+      value: 54.342999999999996
+    - type: ndcg_at_1000
+      value: 56.286
+    - type: ndcg_at_3
+      value: 46.289
+    - type: ndcg_at_5
+      value: 48.581
+    - type: precision_at_1
+      value: 59.338
+    - type: precision_at_10
+      value: 10.585
+    - type: precision_at_100
+      value: 1.353
+    - type: precision_at_1000
+      value: 0.161
+    - type: precision_at_3
+      value: 28.877000000000002
+    - type: precision_at_5
+      value: 19.133
+    - type: recall_at_1
+      value: 29.669
+    - type: recall_at_10
+      value: 52.92400000000001
+    - type: recall_at_100
+      value: 67.657
+    - type: recall_at_1000
+      value: 80.628
+    - type: recall_at_3
+      value: 43.315
+    - type: recall_at_5
+      value: 47.833
+  - task:
+      type: Retrieval
+    dataset:
+      type: msmarco-pl
+      name: MTEB MSMARCO-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 0.997
+    - type: map_at_10
+      value: 7.481999999999999
+    - type: map_at_100
+      value: 20.208000000000002
+    - type: map_at_1000
+      value: 25.601000000000003
+    - type: map_at_3
+      value: 3.055
+    - type: map_at_5
+      value: 4.853
+    - type: mrr_at_1
+      value: 55.814
+    - type: mrr_at_10
+      value: 64.651
+    - type: mrr_at_100
+      value: 65.003
+    - type: mrr_at_1000
+      value: 65.05199999999999
+    - type: mrr_at_3
+      value: 62.403
+    - type: mrr_at_5
+      value: 64.031
+    - type: ndcg_at_1
+      value: 44.186
+    - type: ndcg_at_10
+      value: 43.25
+    - type: ndcg_at_100
+      value: 40.515
+    - type: ndcg_at_1000
+      value: 48.345
+    - type: ndcg_at_3
+      value: 45.829
+    - type: ndcg_at_5
+      value: 46.477000000000004
+    - type: precision_at_1
+      value: 55.814
+    - type: precision_at_10
+      value: 50.465
+    - type: precision_at_100
+      value: 25.419000000000004
+    - type: precision_at_1000
+      value: 5.0840000000000005
+    - type: precision_at_3
+      value: 58.14
+    - type: precision_at_5
+      value: 57.67400000000001
+    - type: recall_at_1
+      value: 0.997
+    - type: recall_at_10
+      value: 8.985999999999999
+    - type: recall_at_100
+      value: 33.221000000000004
+    - type: recall_at_1000
+      value: 58.836999999999996
+    - type: recall_at_3
+      value: 3.472
+    - type: recall_at_5
+      value: 5.545
+  - task:
+      type: Classification
+    dataset:
+      type: mteb/amazon_massive_intent
+      name: MTEB MassiveIntentClassification (pl)
+      config: pl
+      split: test
+      revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
+    metrics:
+    - type: accuracy
+      value: 68.19771351714861
+    - type: f1
+      value: 64.75039989217822
+  - task:
+      type: Classification
+    dataset:
+      type: mteb/amazon_massive_scenario
+      name: MTEB MassiveScenarioClassification (pl)
+      config: pl
+      split: test
+      revision: 7d571f92784cd94a019292a1f45445077d0ef634
+    metrics:
+    - type: accuracy
+      value: 73.9677202420982
+    - type: f1
+      value: 73.72287107577753
+  - task:
+      type: Retrieval
+    dataset:
+      type: nfcorpus-pl
+      name: MTEB NFCorpus-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 5.167
+    - type: map_at_10
+      value: 10.791
+    - type: map_at_100
+      value: 14.072999999999999
+    - type: map_at_1000
+      value: 15.568000000000001
+    - type: map_at_3
+      value: 7.847999999999999
+    - type: map_at_5
+      value: 9.112
+    - type: mrr_at_1
+      value: 42.105
+    - type: mrr_at_10
+      value: 49.933
+    - type: mrr_at_100
+      value: 50.659
+    - type: mrr_at_1000
+      value: 50.705
+    - type: mrr_at_3
+      value: 47.988
+    - type: mrr_at_5
+      value: 49.056
+    - type: ndcg_at_1
+      value: 39.938
+    - type: ndcg_at_10
+      value: 31.147000000000002
+    - type: ndcg_at_100
+      value: 29.336000000000002
+    - type: ndcg_at_1000
+      value: 38.147
+    - type: ndcg_at_3
+      value: 35.607
+    - type: ndcg_at_5
+      value: 33.725
+    - type: precision_at_1
+      value: 41.486000000000004
+    - type: precision_at_10
+      value: 23.901
+    - type: precision_at_100
+      value: 7.960000000000001
+    - type: precision_at_1000
+      value: 2.086
+    - type: precision_at_3
+      value: 33.437
+    - type: precision_at_5
+      value: 29.598000000000003
+    - type: recall_at_1
+      value: 5.167
+    - type: recall_at_10
+      value: 14.244000000000002
+    - type: recall_at_100
+      value: 31.192999999999998
+    - type: recall_at_1000
+      value: 62.41799999999999
+    - type: recall_at_3
+      value: 8.697000000000001
+    - type: recall_at_5
+      value: 10.911
+  - task:
+      type: Retrieval
+    dataset:
+      type: nq-pl
+      name: MTEB NQ-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 14.417
+    - type: map_at_10
+      value: 23.330000000000002
+    - type: map_at_100
+      value: 24.521
+    - type: map_at_1000
+      value: 24.604
+    - type: map_at_3
+      value: 20.076
+    - type: map_at_5
+      value: 21.854000000000003
+    - type: mrr_at_1
+      value: 16.454
+    - type: mrr_at_10
+      value: 25.402
+    - type: mrr_at_100
+      value: 26.411
+    - type: mrr_at_1000
+      value: 26.479000000000003
+    - type: mrr_at_3
+      value: 22.369
+    - type: mrr_at_5
+      value: 24.047
+    - type: ndcg_at_1
+      value: 16.454
+    - type: ndcg_at_10
+      value: 28.886
+    - type: ndcg_at_100
+      value: 34.489999999999995
+    - type: ndcg_at_1000
+      value: 36.687999999999995
+    - type: ndcg_at_3
+      value: 22.421
+    - type: ndcg_at_5
+      value: 25.505
+    - type: precision_at_1
+      value: 16.454
+    - type: precision_at_10
+      value: 5.252
+    - type: precision_at_100
+      value: 0.8410000000000001
+    - type: precision_at_1000
+      value: 0.105
+    - type: precision_at_3
+      value: 10.428999999999998
+    - type: precision_at_5
+      value: 8.019
+    - type: recall_at_1
+      value: 14.417
+    - type: recall_at_10
+      value: 44.025
+    - type: recall_at_100
+      value: 69.404
+    - type: recall_at_1000
+      value: 86.18900000000001
+    - type: recall_at_3
+      value: 26.972
+    - type: recall_at_5
+      value: 34.132
+  - task:
+      type: Classification
+    dataset:
+      type: laugustyniak/abusive-clauses-pl
+      name: MTEB PAC
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: accuracy
+      value: 66.55082536924412
+    - type: ap
+      value: 76.44962281293184
+    - type: f1
+      value: 63.899803692180434
+  - task:
+      type: PairClassification
+    dataset:
+      type: PL-MTEB/ppc-pairclassification
+      name: MTEB PPC
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: cos_sim_accuracy
+      value: 86.5
+    - type: cos_sim_ap
+      value: 92.65086645409387
+    - type: cos_sim_f1
+      value: 89.39157566302653
+    - type: cos_sim_precision
+      value: 84.51327433628319
+    - type: cos_sim_recall
+      value: 94.86754966887418
+    - type: dot_accuracy
+      value: 86.5
+    - type: dot_ap
+      value: 92.65086645409387
+    - type: dot_f1
+      value: 89.39157566302653
+    - type: dot_precision
+      value: 84.51327433628319
+    - type: dot_recall
+      value: 94.86754966887418
+    - type: euclidean_accuracy
+      value: 86.5
+    - type: euclidean_ap
+      value: 92.65086645409387
+    - type: euclidean_f1
+      value: 89.39157566302653
+    - type: euclidean_precision
+      value: 84.51327433628319
+    - type: euclidean_recall
+      value: 94.86754966887418
+    - type: manhattan_accuracy
+      value: 86.5
+    - type: manhattan_ap
+      value: 92.64975544736456
+    - type: manhattan_f1
+      value: 89.33852140077822
+    - type: manhattan_precision
+      value: 84.28781204111601
+    - type: manhattan_recall
+      value: 95.03311258278146
+    - type: max_accuracy
+      value: 86.5
+    - type: max_ap
+      value: 92.65086645409387
+    - type: max_f1
+      value: 89.39157566302653
+  - task:
+      type: PairClassification
+    dataset:
+      type: PL-MTEB/psc-pairclassification
+      name: MTEB PSC
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: cos_sim_accuracy
+      value: 95.64007421150278
+    - type: cos_sim_ap
+      value: 98.42114841894346
+    - type: cos_sim_f1
+      value: 92.8895612708018
+    - type: cos_sim_precision
+      value: 92.1921921921922
+    - type: cos_sim_recall
+      value: 93.59756097560977
+    - type: dot_accuracy
+      value: 95.64007421150278
+    - type: dot_ap
+      value: 98.42114841894346
+    - type: dot_f1
+      value: 92.8895612708018
+    - type: dot_precision
+      value: 92.1921921921922
+    - type: dot_recall
+      value: 93.59756097560977
+    - type: euclidean_accuracy
+      value: 95.64007421150278
+    - type: euclidean_ap
+      value: 98.42114841894346
+    - type: euclidean_f1
+      value: 92.8895612708018
+    - type: euclidean_precision
+      value: 92.1921921921922
+    - type: euclidean_recall
+      value: 93.59756097560977
+    - type: manhattan_accuracy
+      value: 95.82560296846012
+    - type: manhattan_ap
+      value: 98.38712415914046
+    - type: manhattan_f1
+      value: 93.19213313161876
+    - type: manhattan_precision
+      value: 92.49249249249249
+    - type: manhattan_recall
+      value: 93.90243902439023
+    - type: max_accuracy
+      value: 95.82560296846012
+    - type: max_ap
+      value: 98.42114841894346
+    - type: max_f1
+      value: 93.19213313161876
+  - task:
+      type: Classification
+    dataset:
+      type: PL-MTEB/polemo2_in
+      name: MTEB PolEmo2.0-IN
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: accuracy
+      value: 68.40720221606648
+    - type: f1
+      value: 67.09084289613526
+  - task:
+      type: Classification
+    dataset:
+      type: PL-MTEB/polemo2_out
+      name: MTEB PolEmo2.0-OUT
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: accuracy
+      value: 38.056680161943326
+    - type: f1
+      value: 32.87731504372395
+  - task:
+      type: Retrieval
+    dataset:
+      type: quora-pl
+      name: MTEB Quora-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 65.422
+    - type: map_at_10
+      value: 79.259
+    - type: map_at_100
+      value: 80.0
+    - type: map_at_1000
+      value: 80.021
+    - type: map_at_3
+      value: 76.16199999999999
+    - type: map_at_5
+      value: 78.03999999999999
+    - type: mrr_at_1
+      value: 75.26
+    - type: mrr_at_10
+      value: 82.39699999999999
+    - type: mrr_at_100
+      value: 82.589
+    - type: mrr_at_1000
+      value: 82.593
+    - type: mrr_at_3
+      value: 81.08999999999999
+    - type: mrr_at_5
+      value: 81.952
+    - type: ndcg_at_1
+      value: 75.3
+    - type: ndcg_at_10
+      value: 83.588
+    - type: ndcg_at_100
+      value: 85.312
+    - type: ndcg_at_1000
+      value: 85.536
+    - type: ndcg_at_3
+      value: 80.128
+    - type: ndcg_at_5
+      value: 81.962
+    - type: precision_at_1
+      value: 75.3
+    - type: precision_at_10
+      value: 12.856000000000002
+    - type: precision_at_100
+      value: 1.508
+    - type: precision_at_1000
+      value: 0.156
+    - type: precision_at_3
+      value: 35.207
+    - type: precision_at_5
+      value: 23.316
+    - type: recall_at_1
+      value: 65.422
+    - type: recall_at_10
+      value: 92.381
+    - type: recall_at_100
+      value: 98.575
+    - type: recall_at_1000
+      value: 99.85300000000001
+    - type: recall_at_3
+      value: 82.59100000000001
+    - type: recall_at_5
+      value: 87.629
+  - task:
+      type: Retrieval
+    dataset:
+      type: scidocs-pl
+      name: MTEB SCIDOCS-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 2.52
+    - type: map_at_10
+      value: 6.814000000000001
+    - type: map_at_100
+      value: 8.267
+    - type: map_at_1000
+      value: 8.565000000000001
+    - type: map_at_3
+      value: 4.736
+    - type: map_at_5
+      value: 5.653
+    - type: mrr_at_1
+      value: 12.5
+    - type: mrr_at_10
+      value: 20.794999999999998
+    - type: mrr_at_100
+      value: 22.014
+    - type: mrr_at_1000
+      value: 22.109
+    - type: mrr_at_3
+      value: 17.8
+    - type: mrr_at_5
+      value: 19.42
+    - type: ndcg_at_1
+      value: 12.5
+    - type: ndcg_at_10
+      value: 12.209
+    - type: ndcg_at_100
+      value: 18.812
+    - type: ndcg_at_1000
+      value: 24.766
+    - type: ndcg_at_3
+      value: 10.847
+    - type: ndcg_at_5
+      value: 9.632
+    - type: precision_at_1
+      value: 12.5
+    - type: precision_at_10
+      value: 6.660000000000001
+    - type: precision_at_100
+      value: 1.6340000000000001
+    - type: precision_at_1000
+      value: 0.307
+    - type: precision_at_3
+      value: 10.299999999999999
+    - type: precision_at_5
+      value: 8.66
+    - type: recall_at_1
+      value: 2.52
+    - type: recall_at_10
+      value: 13.495
+    - type: recall_at_100
+      value: 33.188
+    - type: recall_at_1000
+      value: 62.34499999999999
+    - type: recall_at_3
+      value: 6.245
+    - type: recall_at_5
+      value: 8.76
+  - task:
+      type: PairClassification
+    dataset:
+      type: PL-MTEB/sicke-pl-pairclassification
+      name: MTEB SICK-E-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: cos_sim_accuracy
+      value: 86.13942111699959
+    - type: cos_sim_ap
+      value: 81.47480017120256
+    - type: cos_sim_f1
+      value: 74.79794268919912
+    - type: cos_sim_precision
+      value: 77.2382397572079
+    - type: cos_sim_recall
+      value: 72.50712250712252
+    - type: dot_accuracy
+      value: 86.13942111699959
+    - type: dot_ap
+      value: 81.47478531367476
+    - type: dot_f1
+      value: 74.79794268919912
+    - type: dot_precision
+      value: 77.2382397572079
+    - type: dot_recall
+      value: 72.50712250712252
+    - type: euclidean_accuracy
+      value: 86.13942111699959
+    - type: euclidean_ap
+      value: 81.47478531367476
+    - type: euclidean_f1
+      value: 74.79794268919912
+    - type: euclidean_precision
+      value: 77.2382397572079
+    - type: euclidean_recall
+      value: 72.50712250712252
+    - type: manhattan_accuracy
+      value: 86.15980432123929
+    - type: manhattan_ap
+      value: 81.40798042612397
+    - type: manhattan_f1
+      value: 74.86116253239543
+    - type: manhattan_precision
+      value: 77.9491133384734
+    - type: manhattan_recall
+      value: 72.00854700854701
+    - type: max_accuracy
+      value: 86.15980432123929
+    - type: max_ap
+      value: 81.47480017120256
+    - type: max_f1
+      value: 74.86116253239543
+  - task:
+      type: STS
+    dataset:
+      type: PL-MTEB/sickr-pl-sts
+      name: MTEB SICK-R-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: cos_sim_pearson
+      value: 84.27525342551935
+    - type: cos_sim_spearman
+      value: 79.50631730805885
+    - type: euclidean_pearson
+      value: 82.07169123942028
+    - type: euclidean_spearman
+      value: 79.50631887406465
+    - type: manhattan_pearson
+      value: 81.98288826317463
+    - type: manhattan_spearman
+      value: 79.4244081650332
+  - task:
+      type: STS
+    dataset:
+      type: mteb/sts22-crosslingual-sts
+      name: MTEB STS22 (pl)
+      config: pl
+      split: test
+      revision: 6d1ba47164174a496b7fa5d3569dae26a6813b80
+    metrics:
+    - type: cos_sim_pearson
+      value: 35.59400236598834
+    - type: cos_sim_spearman
+      value: 36.782560207852846
+    - type: euclidean_pearson
+      value: 28.546177668542942
+    - type: euclidean_spearman
+      value: 36.68394223635756
+    - type: manhattan_pearson
+      value: 28.45606963909248
+    - type: manhattan_spearman
+      value: 36.475975118547524
+  - task:
+      type: Retrieval
+    dataset:
+      type: scifact-pl
+      name: MTEB SciFact-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 41.028
+    - type: map_at_10
+      value: 52.23799999999999
+    - type: map_at_100
+      value: 52.905
+    - type: map_at_1000
+      value: 52.945
+    - type: map_at_3
+      value: 49.102000000000004
+    - type: map_at_5
+      value: 50.992000000000004
+    - type: mrr_at_1
+      value: 43.333
+    - type: mrr_at_10
+      value: 53.551
+    - type: mrr_at_100
+      value: 54.138
+    - type: mrr_at_1000
+      value: 54.175
+    - type: mrr_at_3
+      value: 51.056000000000004
+    - type: mrr_at_5
+      value: 52.705999999999996
+    - type: ndcg_at_1
+      value: 43.333
+    - type: ndcg_at_10
+      value: 57.731
+    - type: ndcg_at_100
+      value: 61.18599999999999
+    - type: ndcg_at_1000
+      value: 62.261
+    - type: ndcg_at_3
+      value: 52.276999999999994
+    - type: ndcg_at_5
+      value: 55.245999999999995
+    - type: precision_at_1
+      value: 43.333
+    - type: precision_at_10
+      value: 8.267
+    - type: precision_at_100
+      value: 1.02
+    - type: precision_at_1000
+      value: 0.11100000000000002
+    - type: precision_at_3
+      value: 21.444
+    - type: precision_at_5
+      value: 14.533
+    - type: recall_at_1
+      value: 41.028
+    - type: recall_at_10
+      value: 73.111
+    - type: recall_at_100
+      value: 89.533
+    - type: recall_at_1000
+      value: 98.0
+    - type: recall_at_3
+      value: 58.744
+    - type: recall_at_5
+      value: 66.106
+  - task:
+      type: Retrieval
+    dataset:
+      type: trec-covid-pl
+      name: MTEB TRECCOVID-PL
+      config: default
+      split: test
+      revision: None
+    metrics:
+    - type: map_at_1
+      value: 0.146
+    - type: map_at_10
+      value: 1.09
+    - type: map_at_100
+      value: 6.002
+    - type: map_at_1000
+      value: 15.479999999999999
+    - type: map_at_3
+      value: 0.41000000000000003
+    - type: map_at_5
+      value: 0.596
+    - type: mrr_at_1
+      value: 54.0
+    - type: mrr_at_10
+      value: 72.367
+    - type: mrr_at_100
+      value: 72.367
+    - type: mrr_at_1000
+      value: 72.367
+    - type: mrr_at_3
+      value: 70.333
+    - type: mrr_at_5
+      value: 72.033
+    - type: ndcg_at_1
+      value: 48.0
+    - type: ndcg_at_10
+      value: 48.827
+    - type: ndcg_at_100
+      value: 38.513999999999996
+    - type: ndcg_at_1000
+      value: 37.958
+    - type: ndcg_at_3
+      value: 52.614000000000004
+    - type: ndcg_at_5
+      value: 51.013
+    - type: precision_at_1
+      value: 54.0
+    - type: precision_at_10
+      value: 53.6
+    - type: precision_at_100
+      value: 40.300000000000004
+    - type: precision_at_1000
+      value: 17.276
+    - type: precision_at_3
+      value: 57.333
+    - type: precision_at_5
+      value: 55.60000000000001
+    - type: recall_at_1
+      value: 0.146
+    - type: recall_at_10
+      value: 1.438
+    - type: recall_at_100
+      value: 9.673
+    - type: recall_at_1000
+      value: 36.870999999999995
+    - type: recall_at_3
+      value: 0.47400000000000003
+    - type: recall_at_5
+      value: 0.721
+---
+# Model Card for st-polish-kartonberta-base-alpha-v1
+This sentence transformer model is designed to convert text content into a 768-float vector space, ensuring an effective representation. It aims to be proficient in tasks involving sentence / document similarity.
+The model has been released in its alpha version. Numerous potential enhancements could boost its performance, such as adjusting training hyperparameters or extending the training duration (currently limited to only one epoch). The main reason is limited GPU.
+## Model Description
+- **Developed by:** Bartłomiej Orlik (orlik.bartlomiej@gmail.com)
+- **Model type:** RoBERTa Sentence Transformer
+- **Language:** Polish
+- **License:** LGPL-3.0
+- **Trained from model:** sdadas/polish-roberta-base-v2: https://huggingface.co/sdadas/polish-roberta-base-v2
+## How to Get Started with the Model
+Use the code below to get started with the model.
+### Using Sentence-Transformers
+You can use the model with [sentence-transformers](https://www.SBERT.net):
+```
+pip install -U sentence-transformers
+```
+```python
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer('FajnyKarton/st-polish-kartonberta-base-alpha-v1')
+text_1 = 'Jestem wielkim fanem opakowań tekturowych'
+text_2 = 'Bardzo podobają mi się kartony'
+embeddings_1 = model.encode(text_1, normalize_embeddings=True)
+embeddings_2 = model.encode(text_2, normalize_embeddings=True)
+similarity = embeddings_1 @ embeddings_2.T
+print(similarity)
+```
+### Using HuggingFace Transformers
+```python
+from transformers import AutoTokenizer, AutoModel
+import torch
+import numpy as np
+def encode_text(text):
+    encoded_input = tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=512)
+    with torch.no_grad():
+        model_output = model(**encoded_input)
+        sentence_embeddings = model_output[0][:, 0]
+        sentence_embeddings = torch.nn.functional.normalize(sentence_embeddings, p=2, dim=1)
+    return  sentence_embeddings.squeeze().numpy()
+cosine_similarity = lambda a, b: np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
+tokenizer = AutoTokenizer.from_pretrained('FajnyKarton/st-polish-kartonberta-base-alpha-v1')
+model = AutoModel.from_pretrained('FajnyKarton/st-polish-kartonberta-base-alpha-v1')
+model.eval()
+text_1 = 'Jestem wielkim fanem opakowań tekturowych'
+text_2 = 'Bardzo podobają mi się kartony'
+embeddings_1 = encode_text(text_1)
+embeddings_2 = encode_text(text_2)
+print(cosine_similarity(embeddings_1, embeddings_2))
+```
+*Note: You can use the encode_text function for demonstration purposes. For the best experience, it's recommended to process text in batches.
+## Evaluation
+#### [MTEB for Polish Language](https://huggingface.co/spaces/mteb/leaderboard)
+|   Rank | Model                                   |   Model Size (GB) |   Embedding Dimensions |   Sequence Length |   Average (26 datasets) |   Classification Average (7 datasets) | Clustering Average (1 datasets) | Pair Classification Average (4 datasets) |   Retrieval Average (11 datasets) | STS Average (3 datasets) |
+|-------:|:----------------------------------------|------------------:|-----------------------:|------------------:|------------------------:|--------------------------------------:|--------------------------------:|-----------------------------------------:|----------------------------------:|-------------------------:|
+|      1 | multilingual-e5-large                   |              2.24 |                   1024 |               514 |                   58.25 |                                 60.51 |                           24.06 |                                    84.58 |                             47.82 |                    67.52 |
+|      2 | **st-polish-kartonberta-base-alpha-v1** |              0.5  |                    768 |               514 |                   56.92 |                                 60.44 |                       **32.85** |                                **87.92** |                             42.19 |                **69.47** |
+|      3 | multilingual-e5-base                    |              1.11 |                    768 |               514 |                   54.18 |                                 57.01 |                           18.62 |                                    82.08 |                             42.5  |                    65.07 |
+|      4 | multilingual-e5-small                   |              0.47 |                    384 |               512 |                   53.15 |                                 54.35 |                           19.64 |                                    81.67 |                             41.52 |                    66.08 |
+|      5 | st-polish-paraphrase-from-mpnet         |              0.5  |                    768 |               514 |                   53.06 |                                 57.49 |                           25.09 |                                    87.04 |                             36.53 |                    67.39 |
+|      6 | st-polish-paraphrase-from-distilroberta |              0.5  |                    768 |               514 |                   52.65 |                                 58.55 |                           31.11 |                                       87 |                             33.96 |                    68.78 |
+## More Information
+I developed this model as a personal scientific initiative.
+I plan to start the development on a new ST model. However, due to limited computational resources, I suspended further work to create a larger or enhanced version of current model.

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "st-polish-kartonberta-base-alpha-v1",
+  "architectures": [
+    "RobertaModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.30.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50001
+}

modules.json ADDED Viewed

	@@ -0,0 +1,20 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  },
+  {
+    "idx": 2,
+    "name": "2",
+    "path": "2_Normalize",
+    "type": "sentence_transformers.models.Normalize"
+  }
+]

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a20d0ce46850300c03679076fd597e0204fbbe94dcf1fee096353e62ac63eca4
+size 497842733

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}