keremp
/

opus-em-deberta-3-large-v2

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/deberta-v3-large](https://huggingface.co/microsoft/deberta-v3-large) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3445
-- F1: 0.0
 ## Model description
@@ -37,37 +37,26 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
-- train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
-- total_train_batch_size: 16
 - total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
-- lr_scheduler_warmup_steps: 100
-- num_epochs: 10.0
 ### Training results
-| Training Loss | Epoch | Step | F1     | Validation Loss |
-|:-------------:|:-----:|:----:|:------:|:---------------:|
-| 1.2929        | 1.0   | 179  | 0.1942 | 13.4522         |
-| 0.1541        | 2.0   | 359  | 0.1942 | 8.4684          |
-| 0.1257        | 3.0   | 538  | 0.1942 | 7.6370          |
-| 0.1684        | 4.0   | 718  | 0.6376 | 0.7054          |
-| 0.0911        | 5.0   | 897  | 0.1942 | 5.1195          |
-| 0.145         | 6.0   | 1077 | 0.7984 | 0.2694          |
-| 0.1191        | 7.0   | 1256 | 0.2027 | 2.9415          |
-| 0.1008        | 8.0   | 1436 | 0.9023 | 0.1785          |
-| 0.3698        | 5.0   | 1795 | 0.3514 | 0.0             |
-| 0.299         | 6.0   | 2154 | 0.3469 | 0.0             |
-| 0.3531        | 7.0   | 2513 | 0.3420 | 0.0             |
-| 0.3892        | 8.0   | 2872 | 0.3428 | 0.0             |
-| 0.3706        | 9.0   | 3231 | 0.3421 | 0.0             |
-| 0.3863        | 10.0  | 3590 | 0.3445 | 0.0             |
 ### Framework versions

 This model is a fine-tuned version of [microsoft/deberta-v3-large](https://huggingface.co/microsoft/deberta-v3-large) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 5.8616
+- F1: 0.1955
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 8e-06
+- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
+- total_train_batch_size: 32
 - total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3.0
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | F1     |
+|:-------------:|:-----:|:----:|:---------------:|:------:|
+| 1.5514        | 1.0   | 180  | 15.0807         | 0.1942 |
+| 0.309         | 2.0   | 360  | 13.0905         | 0.1942 |
+| 0.1401        | 3.0   | 540  | 5.8616          | 0.1955 |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8300e34cd418949bbede5ce5dc2de7d8ceacc20f52e391796659fcf0f61bcaa2
 size 1740304440

 version https://git-lfs.github.com/spec/v1
+oid sha256:95707a2b068574535efca1be7e70b303e875dfb5e583fbff5a4d1ac4e9272e8a
 size 1740304440