End of training

Files changed (4) hide show

all_results.json +9 -9
eval_results.json +5 -5
train_results.json +5 -5
trainer_state.json +221 -131

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 9.98,
     "eval_f1": 0.1941564561734213,
-    "eval_loss": 10.002016067504883,
-    "eval_runtime": 23.7905,
     "eval_samples": 1916,
-    "eval_samples_per_second": 80.536,
-    "eval_steps_per_second": 1.261,
-    "train_loss": 0.6437026796394221,
-    "train_runtime": 3731.8169,
     "train_samples": 5743,
-    "train_samples_per_second": 15.389,
-    "train_steps_per_second": 0.48
 }

 {
+    "epoch": 9.97,
     "eval_f1": 0.1941564561734213,
+    "eval_loss": 4.426720142364502,
+    "eval_runtime": 22.9552,
     "eval_samples": 1916,
+    "eval_samples_per_second": 83.467,
+    "eval_steps_per_second": 1.307,
+    "train_loss": 1.9846372914412187,
+    "train_runtime": 5392.4255,
     "train_samples": 5743,
+    "train_samples_per_second": 10.65,
+    "train_steps_per_second": 0.332
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 9.98,
     "eval_f1": 0.1941564561734213,
-    "eval_loss": 10.002016067504883,
-    "eval_runtime": 23.7905,
     "eval_samples": 1916,
-    "eval_samples_per_second": 80.536,
-    "eval_steps_per_second": 1.261
 }

 {
+    "epoch": 9.97,
     "eval_f1": 0.1941564561734213,
+    "eval_loss": 4.426720142364502,
+    "eval_runtime": 22.9552,
     "eval_samples": 1916,
+    "eval_samples_per_second": 83.467,
+    "eval_steps_per_second": 1.307
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 9.98,
-    "train_loss": 0.6437026796394221,
-    "train_runtime": 3731.8169,
     "train_samples": 5743,
-    "train_samples_per_second": 15.389,
-    "train_steps_per_second": 0.48
 }

 {
+    "epoch": 9.97,
+    "train_loss": 1.9846372914412187,
+    "train_runtime": 5392.4255,
     "train_samples": 5743,
+    "train_samples_per_second": 10.65,
+    "train_steps_per_second": 0.332
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.977715877437326,
   "eval_steps": 500,
   "global_step": 1790,
   "is_hyper_param_search": false,
@@ -11,545 +11,635 @@
     {
       "epoch": 0.11,
       "learning_rate": 2e-05,
-      "loss": 95.476,
       "step": 20
     },
     {
       "epoch": 0.22,
       "learning_rate": 2e-05,
-      "loss": 48.4218,
       "step": 40
     },
     {
       "epoch": 0.33,
       "learning_rate": 2e-05,
-      "loss": 13.7763,
       "step": 60
     },
     {
       "epoch": 0.45,
       "learning_rate": 2e-05,
-      "loss": 1.648,
       "step": 80
     },
     {
       "epoch": 0.56,
       "learning_rate": 2e-05,
-      "loss": 1.4463,
       "step": 100
     },
     {
       "epoch": 0.67,
       "learning_rate": 2e-05,
-      "loss": 0.9103,
       "step": 120
     },
     {
       "epoch": 0.78,
       "learning_rate": 2e-05,
-      "loss": 0.6693,
       "step": 140
     },
     {
       "epoch": 0.89,
       "learning_rate": 2e-05,
-      "loss": 0.8188,
       "step": 160
     },
     {
       "epoch": 1.0,
       "learning_rate": 2e-05,
-      "loss": 0.7446,
       "step": 180
     },
     {
       "epoch": 1.11,
       "learning_rate": 2e-05,
-      "loss": 0.6158,
       "step": 200
     },
     {
       "epoch": 1.23,
       "learning_rate": 2e-05,
-      "loss": 0.9035,
       "step": 220
     },
     {
       "epoch": 1.34,
       "learning_rate": 2e-05,
-      "loss": 0.9486,
       "step": 240
     },
     {
       "epoch": 1.45,
       "learning_rate": 2e-05,
-      "loss": 0.7198,
       "step": 260
     },
     {
       "epoch": 1.56,
       "learning_rate": 2e-05,
-      "loss": 1.5337,
       "step": 280
     },
     {
       "epoch": 1.67,
       "learning_rate": 2e-05,
-      "loss": 1.3312,
       "step": 300
     },
     {
       "epoch": 1.78,
       "learning_rate": 2e-05,
-      "loss": 0.8632,
       "step": 320
     },
     {
       "epoch": 1.89,
       "learning_rate": 2e-05,
-      "loss": 0.8279,
       "step": 340
     },
     {
       "epoch": 2.01,
       "learning_rate": 2e-05,
-      "loss": 0.9823,
       "step": 360
     },
     {
       "epoch": 2.12,
       "learning_rate": 2e-05,
-      "loss": 0.7963,
       "step": 380
     },
     {
       "epoch": 2.23,
       "learning_rate": 2e-05,
-      "loss": 0.7861,
       "step": 400
     },
     {
       "epoch": 2.34,
       "learning_rate": 2e-05,
-      "loss": 0.9859,
       "step": 420
     },
     {
       "epoch": 2.45,
       "learning_rate": 2e-05,
-      "loss": 1.0639,
       "step": 440
     },
     {
       "epoch": 2.56,
       "learning_rate": 2e-05,
-      "loss": 0.7174,
       "step": 460
     },
     {
       "epoch": 2.67,
       "learning_rate": 2e-05,
-      "loss": 0.7996,
       "step": 480
     },
     {
       "epoch": 2.79,
       "learning_rate": 2e-05,
-      "loss": 0.7602,
       "step": 500
     },
     {
       "epoch": 2.9,
       "learning_rate": 2e-05,
-      "loss": 0.8562,
       "step": 520
     },
     {
       "epoch": 3.01,
       "learning_rate": 2e-05,
-      "loss": 1.1248,
       "step": 540
     },
     {
-      "epoch": 3.13,
       "learning_rate": 2e-05,
-      "loss": 0.5689,
       "step": 560
     },
     {
-      "epoch": 3.24,
       "learning_rate": 2e-05,
-      "loss": 0.7794,
       "step": 580
     },
     {
-      "epoch": 3.35,
       "learning_rate": 2e-05,
-      "loss": 0.9319,
       "step": 600
     },
     {
-      "epoch": 3.46,
       "learning_rate": 2e-05,
-      "loss": 1.0026,
       "step": 620
     },
     {
       "epoch": 3.57,
       "learning_rate": 2e-05,
-      "loss": 0.5143,
       "step": 640
     },
     {
       "epoch": 3.68,
       "learning_rate": 2e-05,
-      "loss": 0.8727,
       "step": 660
     },
     {
       "epoch": 3.79,
       "learning_rate": 2e-05,
-      "loss": 0.7792,
       "step": 680
     },
     {
-      "epoch": 3.91,
       "learning_rate": 2e-05,
-      "loss": 0.7502,
       "step": 700
     },
     {
-      "epoch": 4.02,
       "learning_rate": 2e-05,
-      "loss": 0.7851,
       "step": 720
     },
     {
-      "epoch": 4.13,
       "learning_rate": 2e-05,
-      "loss": 1.3474,
       "step": 740
     },
     {
-      "epoch": 4.24,
       "learning_rate": 2e-05,
-      "loss": 1.5022,
       "step": 760
     },
     {
       "epoch": 4.35,
       "learning_rate": 2e-05,
-      "loss": 0.9111,
       "step": 780
     },
     {
       "epoch": 4.46,
       "learning_rate": 2e-05,
-      "loss": 2.2783,
       "step": 800
     },
     {
       "epoch": 4.57,
       "learning_rate": 2e-05,
-      "loss": 1.1359,
       "step": 820
     },
     {
-      "epoch": 4.69,
       "learning_rate": 2e-05,
-      "loss": 1.839,
       "step": 840
     },
     {
-      "epoch": 4.8,
       "learning_rate": 2e-05,
-      "loss": 0.7254,
       "step": 860
     },
     {
-      "epoch": 4.91,
       "learning_rate": 2e-05,
-      "loss": 1.331,
       "step": 880
     },
     {
-      "epoch": 5.02,
       "learning_rate": 2e-05,
-      "loss": 0.6719,
       "step": 900
     },
     {
       "epoch": 5.13,
       "learning_rate": 2e-05,
-      "loss": 0.8933,
       "step": 920
     },
     {
       "epoch": 5.24,
       "learning_rate": 2e-05,
-      "loss": 0.7205,
       "step": 940
     },
     {
       "epoch": 5.35,
       "learning_rate": 2e-05,
-      "loss": 0.7708,
       "step": 960
     },
     {
-      "epoch": 5.47,
       "learning_rate": 2e-05,
-      "loss": 0.8574,
       "step": 980
     },
     {
-      "epoch": 5.58,
       "learning_rate": 2e-05,
-      "loss": 0.7874,
       "step": 1000
     },
     {
-      "epoch": 5.69,
       "learning_rate": 2e-05,
-      "loss": 0.7614,
       "step": 1020
     },
     {
-      "epoch": 5.8,
       "learning_rate": 2e-05,
-      "loss": 0.788,
       "step": 1040
     },
     {
       "epoch": 5.91,
       "learning_rate": 2e-05,
-      "loss": 0.5983,
       "step": 1060
     },
     {
       "epoch": 6.02,
       "learning_rate": 2e-05,
-      "loss": 0.7172,
       "step": 1080
     },
     {
       "epoch": 6.13,
       "learning_rate": 2e-05,
-      "loss": 0.7758,
       "step": 1100
     },
     {
-      "epoch": 6.25,
       "learning_rate": 2e-05,
-      "loss": 0.7793,
       "step": 1120
     },
     {
-      "epoch": 6.36,
       "learning_rate": 2e-05,
-      "loss": 0.958,
       "step": 1140
     },
     {
-      "epoch": 6.47,
       "learning_rate": 2e-05,
-      "loss": 0.9366,
       "step": 1160
     },
     {
-      "epoch": 6.58,
       "learning_rate": 2e-05,
-      "loss": 0.876,
       "step": 1180
     },
     {
       "epoch": 6.69,
       "learning_rate": 2e-05,
-      "loss": 0.9187,
       "step": 1200
     },
     {
       "epoch": 6.8,
       "learning_rate": 2e-05,
-      "loss": 0.6457,
       "step": 1220
     },
     {
       "epoch": 6.91,
       "learning_rate": 2e-05,
-      "loss": 0.6107,
       "step": 1240
     },
     {
-      "epoch": 7.03,
       "learning_rate": 2e-05,
-      "loss": 1.2681,
       "step": 1260
     },
     {
-      "epoch": 7.14,
       "learning_rate": 2e-05,
-      "loss": 0.824,
       "step": 1280
     },
     {
-      "epoch": 7.25,
       "learning_rate": 2e-05,
-      "loss": 0.7997,
       "step": 1300
     },
     {
-      "epoch": 7.36,
       "learning_rate": 2e-05,
-      "loss": 0.6423,
       "step": 1320
     },
     {
       "epoch": 7.47,
       "learning_rate": 2e-05,
-      "loss": 0.7917,
       "step": 1340
     },
     {
       "epoch": 7.58,
       "learning_rate": 2e-05,
-      "loss": 0.6285,
       "step": 1360
     },
     {
       "epoch": 7.69,
       "learning_rate": 2e-05,
-      "loss": 0.7219,
       "step": 1380
     },
     {
-      "epoch": 7.81,
       "learning_rate": 2e-05,
-      "loss": 1.3192,
       "step": 1400
     },
     {
-      "epoch": 7.92,
       "learning_rate": 2e-05,
-      "loss": 0.9599,
       "step": 1420
     },
     {
-      "epoch": 8.03,
       "learning_rate": 2e-05,
-      "loss": 1.0558,
       "step": 1440
     },
     {
-      "epoch": 8.14,
       "learning_rate": 2e-05,
-      "loss": 0.829,
       "step": 1460
     },
     {
       "epoch": 8.25,
       "learning_rate": 2e-05,
-      "loss": 0.6611,
       "step": 1480
     },
     {
       "epoch": 8.36,
       "learning_rate": 2e-05,
-      "loss": 0.9619,
       "step": 1500
     },
     {
       "epoch": 8.47,
       "learning_rate": 2e-05,
-      "loss": 0.838,
       "step": 1520
     },
     {
       "epoch": 8.58,
       "learning_rate": 2e-05,
-      "loss": 0.6923,
       "step": 1540
     },
     {
-      "epoch": 8.7,
       "learning_rate": 2e-05,
-      "loss": 0.7675,
       "step": 1560
     },
     {
-      "epoch": 8.81,
       "learning_rate": 2e-05,
-      "loss": 1.038,
       "step": 1580
     },
     {
-      "epoch": 8.92,
       "learning_rate": 2e-05,
-      "loss": 0.5607,
       "step": 1600
     },
     {
       "epoch": 9.03,
       "learning_rate": 2e-05,
-      "loss": 0.8019,
       "step": 1620
     },
     {
       "epoch": 9.14,
       "learning_rate": 2e-05,
-      "loss": 0.7824,
       "step": 1640
     },
     {
       "epoch": 9.25,
       "learning_rate": 2e-05,
-      "loss": 0.55,
       "step": 1660
     },
     {
       "epoch": 9.36,
       "learning_rate": 2e-05,
-      "loss": 0.625,
       "step": 1680
     },
     {
-      "epoch": 9.48,
       "learning_rate": 2e-05,
-      "loss": 0.8339,
       "step": 1700
     },
     {
-      "epoch": 9.59,
       "learning_rate": 2e-05,
-      "loss": 0.5907,
       "step": 1720
     },
     {
-      "epoch": 9.7,
       "learning_rate": 2e-05,
-      "loss": 0.9135,
       "step": 1740
     },
     {
       "epoch": 9.81,
       "learning_rate": 2e-05,
-      "loss": 1.3289,
       "step": 1760
     },
     {
       "epoch": 9.92,
       "learning_rate": 2e-05,
-      "loss": 1.1937,
       "step": 1780
     },
     {
-      "epoch": 9.98,
       "step": 1790,
-      "total_flos": 4485735925153792.0,
-      "train_loss": 0.6437026796394221,
-      "train_runtime": 3731.8169,
-      "train_samples_per_second": 15.389,
-      "train_steps_per_second": 0.48
     }
   ],
   "logging_steps": 20,
@@ -557,7 +647,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 4485735925153792.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.972144846796658,
   "eval_steps": 500,
   "global_step": 1790,
   "is_hyper_param_search": false,
     {
       "epoch": 0.11,
       "learning_rate": 2e-05,
+      "loss": 95.2205,
       "step": 20
     },
     {
       "epoch": 0.22,
       "learning_rate": 2e-05,
+      "loss": 48.3233,
       "step": 40
     },
     {
       "epoch": 0.33,
       "learning_rate": 2e-05,
+      "loss": 13.9954,
       "step": 60
     },
     {
       "epoch": 0.45,
       "learning_rate": 2e-05,
+      "loss": 2.0884,
       "step": 80
     },
     {
       "epoch": 0.56,
       "learning_rate": 2e-05,
+      "loss": 1.5549,
       "step": 100
     },
     {
       "epoch": 0.67,
       "learning_rate": 2e-05,
+      "loss": 2.0528,
       "step": 120
     },
     {
       "epoch": 0.78,
       "learning_rate": 2e-05,
+      "loss": 3.102,
       "step": 140
     },
     {
       "epoch": 0.89,
       "learning_rate": 2e-05,
+      "loss": 1.2929,
       "step": 160
     },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.1941564561734213,
+      "eval_loss": 13.452169418334961,
+      "eval_runtime": 23.1921,
+      "eval_samples_per_second": 82.614,
+      "eval_steps_per_second": 1.294,
+      "step": 179
+    },
     {
       "epoch": 1.0,
       "learning_rate": 2e-05,
+      "loss": 0.5906,
       "step": 180
     },
     {
       "epoch": 1.11,
       "learning_rate": 2e-05,
+      "loss": 0.3674,
       "step": 200
     },
     {
       "epoch": 1.23,
       "learning_rate": 2e-05,
+      "loss": 0.5531,
       "step": 220
     },
     {
       "epoch": 1.34,
       "learning_rate": 2e-05,
+      "loss": 0.2448,
       "step": 240
     },
     {
       "epoch": 1.45,
       "learning_rate": 2e-05,
+      "loss": 0.1894,
       "step": 260
     },
     {
       "epoch": 1.56,
       "learning_rate": 2e-05,
+      "loss": 0.2385,
       "step": 280
     },
     {
       "epoch": 1.67,
       "learning_rate": 2e-05,
+      "loss": 0.2773,
       "step": 300
     },
     {
       "epoch": 1.78,
       "learning_rate": 2e-05,
+      "loss": 0.1879,
       "step": 320
     },
     {
       "epoch": 1.89,
       "learning_rate": 2e-05,
+      "loss": 0.1541,
       "step": 340
     },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.1941564561734213,
+      "eval_loss": 8.468379020690918,
+      "eval_runtime": 22.9961,
+      "eval_samples_per_second": 83.318,
+      "eval_steps_per_second": 1.305,
+      "step": 359
+    },
     {
       "epoch": 2.01,
       "learning_rate": 2e-05,
+      "loss": 0.1381,
       "step": 360
     },
     {
       "epoch": 2.12,
       "learning_rate": 2e-05,
+      "loss": 0.1464,
       "step": 380
     },
     {
       "epoch": 2.23,
       "learning_rate": 2e-05,
+      "loss": 0.2856,
       "step": 400
     },
     {
       "epoch": 2.34,
       "learning_rate": 2e-05,
+      "loss": 0.3727,
       "step": 420
     },
     {
       "epoch": 2.45,
       "learning_rate": 2e-05,
+      "loss": 0.2145,
       "step": 440
     },
     {
       "epoch": 2.56,
       "learning_rate": 2e-05,
+      "loss": 0.0867,
       "step": 460
     },
     {
       "epoch": 2.67,
       "learning_rate": 2e-05,
+      "loss": 0.232,
       "step": 480
     },
     {
       "epoch": 2.79,
       "learning_rate": 2e-05,
+      "loss": 0.1407,
       "step": 500
     },
     {
       "epoch": 2.9,
       "learning_rate": 2e-05,
+      "loss": 0.1257,
       "step": 520
     },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.1941564561734213,
+      "eval_loss": 7.637044906616211,
+      "eval_runtime": 22.6323,
+      "eval_samples_per_second": 84.658,
+      "eval_steps_per_second": 1.326,
+      "step": 538
+    },
     {
       "epoch": 3.01,
       "learning_rate": 2e-05,
+      "loss": 0.1963,
       "step": 540
     },
     {
+      "epoch": 3.12,
       "learning_rate": 2e-05,
+      "loss": 0.1485,
       "step": 560
     },
     {
+      "epoch": 3.23,
       "learning_rate": 2e-05,
+      "loss": 0.1373,
       "step": 580
     },
     {
+      "epoch": 3.34,
       "learning_rate": 2e-05,
+      "loss": 0.0971,
       "step": 600
     },
     {
+      "epoch": 3.45,
       "learning_rate": 2e-05,
+      "loss": 0.2036,
       "step": 620
     },
     {
       "epoch": 3.57,
       "learning_rate": 2e-05,
+      "loss": 0.2205,
       "step": 640
     },
     {
       "epoch": 3.68,
       "learning_rate": 2e-05,
+      "loss": 0.0547,
       "step": 660
     },
     {
       "epoch": 3.79,
       "learning_rate": 2e-05,
+      "loss": 0.0957,
       "step": 680
     },
     {
+      "epoch": 3.9,
       "learning_rate": 2e-05,
+      "loss": 0.1684,
       "step": 700
     },
     {
+      "epoch": 4.0,
+      "eval_f1": 0.6376360808709176,
+      "eval_loss": 0.7054294943809509,
+      "eval_runtime": 22.968,
+      "eval_samples_per_second": 83.42,
+      "eval_steps_per_second": 1.306,
+      "step": 718
+    },
+    {
+      "epoch": 4.01,
       "learning_rate": 2e-05,
+      "loss": 0.145,
       "step": 720
     },
     {
+      "epoch": 4.12,
       "learning_rate": 2e-05,
+      "loss": 0.1186,
       "step": 740
     },
     {
+      "epoch": 4.23,
       "learning_rate": 2e-05,
+      "loss": 0.0227,
       "step": 760
     },
     {
       "epoch": 4.35,
       "learning_rate": 2e-05,
+      "loss": 0.0556,
       "step": 780
     },
     {
       "epoch": 4.46,
       "learning_rate": 2e-05,
+      "loss": 0.141,
       "step": 800
     },
     {
       "epoch": 4.57,
       "learning_rate": 2e-05,
+      "loss": 0.1328,
       "step": 820
     },
     {
+      "epoch": 4.68,
       "learning_rate": 2e-05,
+      "loss": 0.0992,
       "step": 840
     },
     {
+      "epoch": 4.79,
       "learning_rate": 2e-05,
+      "loss": 0.1691,
       "step": 860
     },
     {
+      "epoch": 4.9,
       "learning_rate": 2e-05,
+      "loss": 0.0911,
       "step": 880
     },
     {
+      "epoch": 5.0,
+      "eval_f1": 0.1941564561734213,
+      "eval_loss": 5.119464874267578,
+      "eval_runtime": 22.7812,
+      "eval_samples_per_second": 84.104,
+      "eval_steps_per_second": 1.317,
+      "step": 897
+    },
+    {
+      "epoch": 5.01,
       "learning_rate": 2e-05,
+      "loss": 0.0993,
       "step": 900
     },
     {
       "epoch": 5.13,
       "learning_rate": 2e-05,
+      "loss": 0.0972,
       "step": 920
     },
     {
       "epoch": 5.24,
       "learning_rate": 2e-05,
+      "loss": 0.0389,
       "step": 940
     },
     {
       "epoch": 5.35,
       "learning_rate": 2e-05,
+      "loss": 0.1366,
       "step": 960
     },
     {
+      "epoch": 5.46,
       "learning_rate": 2e-05,
+      "loss": 0.0833,
       "step": 980
     },
     {
+      "epoch": 5.57,
       "learning_rate": 2e-05,
+      "loss": 0.1634,
       "step": 1000
     },
     {
+      "epoch": 5.68,
       "learning_rate": 2e-05,
+      "loss": 0.0691,
       "step": 1020
     },
     {
+      "epoch": 5.79,
       "learning_rate": 2e-05,
+      "loss": 0.1487,
       "step": 1040
     },
     {
       "epoch": 5.91,
       "learning_rate": 2e-05,
+      "loss": 0.145,
       "step": 1060
     },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.7984031936127745,
+      "eval_loss": 0.2693595290184021,
+      "eval_runtime": 22.9118,
+      "eval_samples_per_second": 83.625,
+      "eval_steps_per_second": 1.309,
+      "step": 1077
+    },
     {
       "epoch": 6.02,
       "learning_rate": 2e-05,
+      "loss": 0.0373,
       "step": 1080
     },
     {
       "epoch": 6.13,
       "learning_rate": 2e-05,
+      "loss": 0.0409,
       "step": 1100
     },
     {
+      "epoch": 6.24,
       "learning_rate": 2e-05,
+      "loss": 0.0714,
       "step": 1120
     },
     {
+      "epoch": 6.35,
       "learning_rate": 2e-05,
+      "loss": 0.0915,
       "step": 1140
     },
     {
+      "epoch": 6.46,
       "learning_rate": 2e-05,
+      "loss": 0.1359,
       "step": 1160
     },
     {
+      "epoch": 6.57,
       "learning_rate": 2e-05,
+      "loss": 0.1016,
       "step": 1180
     },
     {
       "epoch": 6.69,
       "learning_rate": 2e-05,
+      "loss": 0.0346,
       "step": 1200
     },
     {
       "epoch": 6.8,
       "learning_rate": 2e-05,
+      "loss": 0.0437,
       "step": 1220
     },
     {
       "epoch": 6.91,
       "learning_rate": 2e-05,
+      "loss": 0.1191,
       "step": 1240
     },
     {
+      "epoch": 7.0,
+      "eval_f1": 0.20265617314313825,
+      "eval_loss": 2.941455602645874,
+      "eval_runtime": 22.6391,
+      "eval_samples_per_second": 84.632,
+      "eval_steps_per_second": 1.325,
+      "step": 1256
+    },
+    {
+      "epoch": 7.02,
       "learning_rate": 2e-05,
+      "loss": 0.069,
       "step": 1260
     },
     {
+      "epoch": 7.13,
       "learning_rate": 2e-05,
+      "loss": 0.009,
       "step": 1280
     },
     {
+      "epoch": 7.24,
       "learning_rate": 2e-05,
+      "loss": 0.0485,
       "step": 1300
     },
     {
+      "epoch": 7.35,
       "learning_rate": 2e-05,
+      "loss": 0.0105,
       "step": 1320
     },
     {
       "epoch": 7.47,
       "learning_rate": 2e-05,
+      "loss": 0.0835,
       "step": 1340
     },
     {
       "epoch": 7.58,
       "learning_rate": 2e-05,
+      "loss": 0.1458,
       "step": 1360
     },
     {
       "epoch": 7.69,
       "learning_rate": 2e-05,
+      "loss": 0.0553,
       "step": 1380
     },
     {
+      "epoch": 7.8,
       "learning_rate": 2e-05,
+      "loss": 0.005,
       "step": 1400
     },
     {
+      "epoch": 7.91,
       "learning_rate": 2e-05,
+      "loss": 0.1008,
       "step": 1420
     },
     {
+      "epoch": 8.0,
+      "eval_f1": 0.9023255813953488,
+      "eval_loss": 0.17851048707962036,
+      "eval_runtime": 22.8798,
+      "eval_samples_per_second": 83.742,
+      "eval_steps_per_second": 1.311,
+      "step": 1436
+    },
+    {
+      "epoch": 8.02,
       "learning_rate": 2e-05,
+      "loss": 0.0414,
       "step": 1440
     },
     {
+      "epoch": 8.13,
       "learning_rate": 2e-05,
+      "loss": 0.0351,
       "step": 1460
     },
     {
       "epoch": 8.25,
       "learning_rate": 2e-05,
+      "loss": 0.115,
       "step": 1480
     },
     {
       "epoch": 8.36,
       "learning_rate": 2e-05,
+      "loss": 0.0453,
       "step": 1500
     },
     {
       "epoch": 8.47,
       "learning_rate": 2e-05,
+      "loss": 0.0035,
       "step": 1520
     },
     {
       "epoch": 8.58,
       "learning_rate": 2e-05,
+      "loss": 0.139,
       "step": 1540
     },
     {
+      "epoch": 8.69,
       "learning_rate": 2e-05,
+      "loss": 0.0617,
       "step": 1560
     },
     {
+      "epoch": 8.8,
       "learning_rate": 2e-05,
+      "loss": 0.0684,
       "step": 1580
     },
     {
+      "epoch": 8.91,
       "learning_rate": 2e-05,
+      "loss": 0.0231,
       "step": 1600
     },
+    {
+      "epoch": 9.0,
+      "eval_f1": 0.1941564561734213,
+      "eval_loss": 8.572157859802246,
+      "eval_runtime": 22.7298,
+      "eval_samples_per_second": 84.295,
+      "eval_steps_per_second": 1.32,
+      "step": 1615
+    },
     {
       "epoch": 9.03,
       "learning_rate": 2e-05,
+      "loss": 0.0565,
       "step": 1620
     },
     {
       "epoch": 9.14,
       "learning_rate": 2e-05,
+      "loss": 0.0025,
       "step": 1640
     },
     {
       "epoch": 9.25,
       "learning_rate": 2e-05,
+      "loss": 0.0,
       "step": 1660
     },
     {
       "epoch": 9.36,
       "learning_rate": 2e-05,
+      "loss": 0.1041,
       "step": 1680
     },
     {
+      "epoch": 9.47,
       "learning_rate": 2e-05,
+      "loss": 0.0822,
       "step": 1700
     },
     {
+      "epoch": 9.58,
       "learning_rate": 2e-05,
+      "loss": 0.0923,
       "step": 1720
     },
     {
+      "epoch": 9.69,
       "learning_rate": 2e-05,
+      "loss": 0.0367,
       "step": 1740
     },
     {
       "epoch": 9.81,
       "learning_rate": 2e-05,
+      "loss": 0.0083,
       "step": 1760
     },
     {
       "epoch": 9.92,
       "learning_rate": 2e-05,
+      "loss": 0.0521,
       "step": 1780
     },
     {
+      "epoch": 9.97,
+      "eval_f1": 0.1941564561734213,
+      "eval_loss": 4.426720142364502,
+      "eval_runtime": 22.899,
+      "eval_samples_per_second": 83.672,
+      "eval_steps_per_second": 1.31,
+      "step": 1790
+    },
+    {
+      "epoch": 9.97,
       "step": 1790,
+      "total_flos": 4485749565030400.0,
+      "train_loss": 1.9846372914412187,
+      "train_runtime": 5392.4255,
+      "train_samples_per_second": 10.65,
+      "train_steps_per_second": 0.332
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 4485749565030400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null