End of training

Files changed (5) hide show

README.md +5 -0
all_results.json +9 -9
eval_results.json +5 -5
train_results.json +5 -5
trainer_state.json +391 -13

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ license: mit
 base_model: microsoft/deberta-v3-large
 tags:
 - generated_from_trainer
 model-index:
 - name: opus-em-deberta-3-large-v2
   results: []
@@ -14,6 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # opus-em-deberta-3-large-v2
 This model is a fine-tuned version of [microsoft/deberta-v3-large](https://huggingface.co/microsoft/deberta-v3-large) on an unknown dataset.
 ## Model description

 base_model: microsoft/deberta-v3-large
 tags:
 - generated_from_trainer
+metrics:
+- f1
 model-index:
 - name: opus-em-deberta-3-large-v2
   results: []
 # opus-em-deberta-3-large-v2
 This model is a fine-tuned version of [microsoft/deberta-v3-large](https://huggingface.co/microsoft/deberta-v3-large) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 10.0020
+- F1: 0.1942
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 2.99,
     "eval_f1": 0.1941564561734213,
-    "eval_loss": 19.555837631225586,
-    "eval_runtime": 23.5491,
     "eval_samples": 1916,
-    "eval_samples_per_second": 81.362,
-    "eval_steps_per_second": 1.274,
-    "train_loss": 6.7171177713120676,
-    "train_runtime": 1535.649,
     "train_samples": 5743,
-    "train_samples_per_second": 11.219,
-    "train_steps_per_second": 0.35
 }

 {
+    "epoch": 9.98,
     "eval_f1": 0.1941564561734213,
+    "eval_loss": 10.002016067504883,
+    "eval_runtime": 23.7905,
     "eval_samples": 1916,
+    "eval_samples_per_second": 80.536,
+    "eval_steps_per_second": 1.261,
+    "train_loss": 0.6437026796394221,
+    "train_runtime": 3731.8169,
     "train_samples": 5743,
+    "train_samples_per_second": 15.389,
+    "train_steps_per_second": 0.48
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.99,
     "eval_f1": 0.1941564561734213,
-    "eval_loss": 19.555837631225586,
-    "eval_runtime": 23.5491,
     "eval_samples": 1916,
-    "eval_samples_per_second": 81.362,
-    "eval_steps_per_second": 1.274
 }

 {
+    "epoch": 9.98,
     "eval_f1": 0.1941564561734213,
+    "eval_loss": 10.002016067504883,
+    "eval_runtime": 23.7905,
     "eval_samples": 1916,
+    "eval_samples_per_second": 80.536,
+    "eval_steps_per_second": 1.261
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.99,
-    "train_loss": 6.7171177713120676,
-    "train_runtime": 1535.649,
     "train_samples": 5743,
-    "train_samples_per_second": 11.219,
-    "train_steps_per_second": 0.35
 }

 {
+    "epoch": 9.98,
+    "train_loss": 0.6437026796394221,
+    "train_runtime": 3731.8169,
     "train_samples": 5743,
+    "train_samples_per_second": 15.389,
+    "train_steps_per_second": 0.48
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9916434540389973,
   "eval_steps": 500,
-  "global_step": 537,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -161,25 +161,403 @@
     {
       "epoch": 2.9,
       "learning_rate": 2e-05,
-      "loss": 0.8271,
       "step": 520
     },
     {
-      "epoch": 2.99,
-      "step": 537,
-      "total_flos": 1345715322224640.0,
-      "train_loss": 6.7171177713120676,
-      "train_runtime": 1535.649,
-      "train_samples_per_second": 11.219,
-      "train_steps_per_second": 0.35
     }
   ],
   "logging_steps": 20,
-  "max_steps": 537,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 1345715322224640.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.977715877437326,
   "eval_steps": 500,
+  "global_step": 1790,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 2.9,
       "learning_rate": 2e-05,
+      "loss": 0.8562,
       "step": 520
     },
     {
+      "epoch": 3.01,
+      "learning_rate": 2e-05,
+      "loss": 1.1248,
+      "step": 540
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 2e-05,
+      "loss": 0.5689,
+      "step": 560
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 2e-05,
+      "loss": 0.7794,
+      "step": 580
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 2e-05,
+      "loss": 0.9319,
+      "step": 600
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 2e-05,
+      "loss": 1.0026,
+      "step": 620
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 2e-05,
+      "loss": 0.5143,
+      "step": 640
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 2e-05,
+      "loss": 0.8727,
+      "step": 660
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 2e-05,
+      "loss": 0.7792,
+      "step": 680
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 2e-05,
+      "loss": 0.7502,
+      "step": 700
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7851,
+      "step": 720
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 2e-05,
+      "loss": 1.3474,
+      "step": 740
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 2e-05,
+      "loss": 1.5022,
+      "step": 760
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 2e-05,
+      "loss": 0.9111,
+      "step": 780
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 2e-05,
+      "loss": 2.2783,
+      "step": 800
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 2e-05,
+      "loss": 1.1359,
+      "step": 820
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 2e-05,
+      "loss": 1.839,
+      "step": 840
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 2e-05,
+      "loss": 0.7254,
+      "step": 860
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 2e-05,
+      "loss": 1.331,
+      "step": 880
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 2e-05,
+      "loss": 0.6719,
+      "step": 900
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 2e-05,
+      "loss": 0.8933,
+      "step": 920
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 2e-05,
+      "loss": 0.7205,
+      "step": 940
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 2e-05,
+      "loss": 0.7708,
+      "step": 960
+    },
+    {
+      "epoch": 5.47,
+      "learning_rate": 2e-05,
+      "loss": 0.8574,
+      "step": 980
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 2e-05,
+      "loss": 0.7874,
+      "step": 1000
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 2e-05,
+      "loss": 0.7614,
+      "step": 1020
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 2e-05,
+      "loss": 0.788,
+      "step": 1040
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 2e-05,
+      "loss": 0.5983,
+      "step": 1060
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 2e-05,
+      "loss": 0.7172,
+      "step": 1080
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 2e-05,
+      "loss": 0.7758,
+      "step": 1100
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 2e-05,
+      "loss": 0.7793,
+      "step": 1120
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 2e-05,
+      "loss": 0.958,
+      "step": 1140
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 2e-05,
+      "loss": 0.9366,
+      "step": 1160
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 2e-05,
+      "loss": 0.876,
+      "step": 1180
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 2e-05,
+      "loss": 0.9187,
+      "step": 1200
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 2e-05,
+      "loss": 0.6457,
+      "step": 1220
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 2e-05,
+      "loss": 0.6107,
+      "step": 1240
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 2e-05,
+      "loss": 1.2681,
+      "step": 1260
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 2e-05,
+      "loss": 0.824,
+      "step": 1280
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 2e-05,
+      "loss": 0.7997,
+      "step": 1300
+    },
+    {
+      "epoch": 7.36,
+      "learning_rate": 2e-05,
+      "loss": 0.6423,
+      "step": 1320
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 2e-05,
+      "loss": 0.7917,
+      "step": 1340
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 2e-05,
+      "loss": 0.6285,
+      "step": 1360
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 2e-05,
+      "loss": 0.7219,
+      "step": 1380
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 2e-05,
+      "loss": 1.3192,
+      "step": 1400
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 2e-05,
+      "loss": 0.9599,
+      "step": 1420
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 2e-05,
+      "loss": 1.0558,
+      "step": 1440
+    },
+    {
+      "epoch": 8.14,
+      "learning_rate": 2e-05,
+      "loss": 0.829,
+      "step": 1460
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 2e-05,
+      "loss": 0.6611,
+      "step": 1480
+    },
+    {
+      "epoch": 8.36,
+      "learning_rate": 2e-05,
+      "loss": 0.9619,
+      "step": 1500
+    },
+    {
+      "epoch": 8.47,
+      "learning_rate": 2e-05,
+      "loss": 0.838,
+      "step": 1520
+    },
+    {
+      "epoch": 8.58,
+      "learning_rate": 2e-05,
+      "loss": 0.6923,
+      "step": 1540
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 2e-05,
+      "loss": 0.7675,
+      "step": 1560
+    },
+    {
+      "epoch": 8.81,
+      "learning_rate": 2e-05,
+      "loss": 1.038,
+      "step": 1580
+    },
+    {
+      "epoch": 8.92,
+      "learning_rate": 2e-05,
+      "loss": 0.5607,
+      "step": 1600
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 2e-05,
+      "loss": 0.8019,
+      "step": 1620
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 2e-05,
+      "loss": 0.7824,
+      "step": 1640
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 2e-05,
+      "loss": 0.55,
+      "step": 1660
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 2e-05,
+      "loss": 0.625,
+      "step": 1680
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 2e-05,
+      "loss": 0.8339,
+      "step": 1700
+    },
+    {
+      "epoch": 9.59,
+      "learning_rate": 2e-05,
+      "loss": 0.5907,
+      "step": 1720
+    },
+    {
+      "epoch": 9.7,
+      "learning_rate": 2e-05,
+      "loss": 0.9135,
+      "step": 1740
+    },
+    {
+      "epoch": 9.81,
+      "learning_rate": 2e-05,
+      "loss": 1.3289,
+      "step": 1760
+    },
+    {
+      "epoch": 9.92,
+      "learning_rate": 2e-05,
+      "loss": 1.1937,
+      "step": 1780
+    },
+    {
+      "epoch": 9.98,
+      "step": 1790,
+      "total_flos": 4485735925153792.0,
+      "train_loss": 0.6437026796394221,
+      "train_runtime": 3731.8169,
+      "train_samples_per_second": 15.389,
+      "train_steps_per_second": 0.48
     }
   ],
   "logging_steps": 20,
+  "max_steps": 1790,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 4485735925153792.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null