End of training

Browse files

Files changed (4) hide show

all_results.json +10 -10
eval_results.json +6 -6
train_results.json +5 -5
trainer_state.json +99 -792

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 20.0,
-    "eval_f1": 0.5832229580573952,
-    "eval_loss": 0.3661610186100006,
-    "eval_runtime": 2.8821,
     "eval_samples": 989,
-    "eval_samples_per_second": 343.154,
-    "eval_steps_per_second": 10.756,
-    "train_loss": 0.14994276651451666,
-    "train_runtime": 1498.2493,
     "train_samples": 7914,
-    "train_samples_per_second": 105.643,
-    "train_steps_per_second": 0.828
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.5464019851116626,
+    "eval_loss": 0.27576151490211487,
+    "eval_runtime": 8.3638,
     "eval_samples": 989,
+    "eval_samples_per_second": 118.248,
+    "eval_steps_per_second": 3.706,
+    "train_loss": 0.2750998620064028,
+    "train_runtime": 948.4301,
     "train_samples": 7914,
+    "train_samples_per_second": 41.722,
+    "train_steps_per_second": 0.327
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 20.0,
-    "eval_f1": 0.5832229580573952,
-    "eval_loss": 0.3661610186100006,
-    "eval_runtime": 2.8821,
     "eval_samples": 989,
-    "eval_samples_per_second": 343.154,
-    "eval_steps_per_second": 10.756
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.5464019851116626,
+    "eval_loss": 0.27576151490211487,
+    "eval_runtime": 8.3638,
     "eval_samples": 989,
+    "eval_samples_per_second": 118.248,
+    "eval_steps_per_second": 3.706
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 20.0,
-    "train_loss": 0.14994276651451666,
-    "train_runtime": 1498.2493,
     "train_samples": 7914,
-    "train_samples_per_second": 105.643,
-    "train_steps_per_second": 0.828
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.2750998620064028,
+    "train_runtime": 948.4301,
     "train_samples": 7914,
+    "train_samples_per_second": 41.722,
+    "train_steps_per_second": 0.327
 }

trainer_state.json CHANGED Viewed

@@ -1,952 +1,259 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 1240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.16,
-      "learning_rate": 5.951612903225807e-05,
-      "loss": 0.4848,
       "step": 10
     },
     {
       "epoch": 0.32,
-      "learning_rate": 5.9032258064516134e-05,
-      "loss": 0.3412,
       "step": 20
     },
     {
       "epoch": 0.48,
-      "learning_rate": 5.854838709677419e-05,
-      "loss": 0.3195,
       "step": 30
     },
     {
       "epoch": 0.65,
-      "learning_rate": 5.806451612903226e-05,
-      "loss": 0.3107,
       "step": 40
     },
     {
       "epoch": 0.81,
-      "learning_rate": 5.7580645161290325e-05,
-      "loss": 0.3062,
       "step": 50
     },
     {
       "epoch": 0.97,
-      "learning_rate": 5.709677419354839e-05,
-      "loss": 0.3047,
       "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_f1": 0.3600605143721634,
-      "eval_loss": 0.28778037428855896,
-      "eval_runtime": 2.9163,
-      "eval_samples_per_second": 339.124,
-      "eval_steps_per_second": 10.63,
       "step": 62
     },
     {
       "epoch": 1.13,
-      "learning_rate": 5.661290322580646e-05,
-      "loss": 0.2971,
       "step": 70
     },
     {
       "epoch": 1.29,
-      "learning_rate": 5.612903225806452e-05,
-      "loss": 0.2923,
       "step": 80
     },
     {
       "epoch": 1.45,
-      "learning_rate": 5.5645161290322576e-05,
-      "loss": 0.2913,
       "step": 90
     },
     {
       "epoch": 1.61,
-      "learning_rate": 5.516129032258064e-05,
-      "loss": 0.2868,
       "step": 100
     },
     {
       "epoch": 1.77,
-      "learning_rate": 5.467741935483871e-05,
-      "loss": 0.2876,
       "step": 110
     },
     {
       "epoch": 1.94,
-      "learning_rate": 5.4193548387096774e-05,
-      "loss": 0.2809,
       "step": 120
     },
     {
       "epoch": 2.0,
-      "eval_f1": 0.4606093878671425,
-      "eval_loss": 0.2768673002719879,
-      "eval_runtime": 2.9476,
-      "eval_samples_per_second": 335.524,
-      "eval_steps_per_second": 10.517,
       "step": 124
     },
     {
       "epoch": 2.1,
-      "learning_rate": 5.370967741935484e-05,
-      "loss": 0.2685,
       "step": 130
     },
     {
       "epoch": 2.26,
-      "learning_rate": 5.3225806451612906e-05,
-      "loss": 0.2658,
       "step": 140
     },
     {
       "epoch": 2.42,
-      "learning_rate": 5.2741935483870966e-05,
-      "loss": 0.2706,
       "step": 150
     },
     {
       "epoch": 2.58,
-      "learning_rate": 5.225806451612903e-05,
-      "loss": 0.2613,
       "step": 160
     },
     {
       "epoch": 2.74,
-      "learning_rate": 5.17741935483871e-05,
-      "loss": 0.2634,
       "step": 170
     },
     {
       "epoch": 2.9,
-      "learning_rate": 5.1290322580645164e-05,
-      "loss": 0.2584,
       "step": 180
     },
     {
       "epoch": 3.0,
-      "eval_f1": 0.48365306673871933,
-      "eval_loss": 0.2766420543193817,
-      "eval_runtime": 2.9111,
-      "eval_samples_per_second": 339.73,
-      "eval_steps_per_second": 10.649,
       "step": 186
     },
     {
       "epoch": 3.06,
-      "learning_rate": 5.080645161290323e-05,
-      "loss": 0.259,
       "step": 190
     },
     {
       "epoch": 3.23,
-      "learning_rate": 5.0322580645161296e-05,
-      "loss": 0.2427,
       "step": 200
     },
     {
       "epoch": 3.39,
-      "learning_rate": 4.9838709677419356e-05,
-      "loss": 0.2389,
       "step": 210
     },
     {
       "epoch": 3.55,
-      "learning_rate": 4.935483870967742e-05,
-      "loss": 0.2441,
       "step": 220
     },
     {
       "epoch": 3.71,
-      "learning_rate": 4.887096774193549e-05,
-      "loss": 0.2416,
       "step": 230
     },
     {
       "epoch": 3.87,
-      "learning_rate": 4.838709677419355e-05,
-      "loss": 0.2382,
       "step": 240
     },
     {
       "epoch": 4.0,
-      "eval_f1": 0.49434656849855374,
-      "eval_loss": 0.28233975172042847,
-      "eval_runtime": 2.9046,
-      "eval_samples_per_second": 340.492,
-      "eval_steps_per_second": 10.673,
       "step": 248
     },
     {
       "epoch": 4.03,
-      "learning_rate": 4.790322580645161e-05,
-      "loss": 0.2327,
       "step": 250
     },
     {
       "epoch": 4.19,
-      "learning_rate": 4.741935483870968e-05,
-      "loss": 0.2168,
       "step": 260
     },
     {
       "epoch": 4.35,
-      "learning_rate": 4.693548387096774e-05,
-      "loss": 0.2198,
       "step": 270
     },
     {
       "epoch": 4.52,
-      "learning_rate": 4.6451612903225805e-05,
-      "loss": 0.221,
       "step": 280
     },
     {
       "epoch": 4.68,
-      "learning_rate": 4.596774193548387e-05,
-      "loss": 0.2191,
       "step": 290
     },
     {
       "epoch": 4.84,
-      "learning_rate": 4.548387096774194e-05,
-      "loss": 0.2126,
       "step": 300
     },
     {
       "epoch": 5.0,
-      "learning_rate": 4.5e-05,
-      "loss": 0.2161,
       "step": 310
     },
     {
       "epoch": 5.0,
-      "eval_f1": 0.5236882322975038,
-      "eval_loss": 0.28145599365234375,
-      "eval_runtime": 2.9136,
-      "eval_samples_per_second": 339.438,
-      "eval_steps_per_second": 10.64,
       "step": 310
     },
     {
-      "epoch": 5.16,
-      "learning_rate": 4.451612903225807e-05,
-      "loss": 0.1952,
-      "step": 320
-    },
-    {
-      "epoch": 5.32,
-      "learning_rate": 4.403225806451613e-05,
-      "loss": 0.1996,
-      "step": 330
-    },
-    {
-      "epoch": 5.48,
-      "learning_rate": 4.3548387096774194e-05,
-      "loss": 0.1921,
-      "step": 340
-    },
-    {
-      "epoch": 5.65,
-      "learning_rate": 4.306451612903226e-05,
-      "loss": 0.1966,
-      "step": 350
-    },
-    {
-      "epoch": 5.81,
-      "learning_rate": 4.2580645161290327e-05,
-      "loss": 0.2023,
-      "step": 360
-    },
-    {
-      "epoch": 5.97,
-      "learning_rate": 4.209677419354839e-05,
-      "loss": 0.1903,
-      "step": 370
-    },
-    {
-      "epoch": 6.0,
-      "eval_f1": 0.5535545023696682,
-      "eval_loss": 0.29538020491600037,
-      "eval_runtime": 2.9433,
-      "eval_samples_per_second": 336.013,
-      "eval_steps_per_second": 10.532,
-      "step": 372
-    },
-    {
-      "epoch": 6.13,
-      "learning_rate": 4.161290322580646e-05,
-      "loss": 0.1854,
-      "step": 380
-    },
-    {
-      "epoch": 6.29,
-      "learning_rate": 4.112903225806451e-05,
-      "loss": 0.1784,
-      "step": 390
-    },
-    {
-      "epoch": 6.45,
-      "learning_rate": 4.064516129032258e-05,
-      "loss": 0.1776,
-      "step": 400
-    },
-    {
-      "epoch": 6.61,
-      "learning_rate": 4.0161290322580643e-05,
-      "loss": 0.1746,
-      "step": 410
-    },
-    {
-      "epoch": 6.77,
-      "learning_rate": 3.967741935483871e-05,
-      "loss": 0.1762,
-      "step": 420
-    },
-    {
-      "epoch": 6.94,
-      "learning_rate": 3.9193548387096776e-05,
-      "loss": 0.172,
-      "step": 430
-    },
-    {
-      "epoch": 7.0,
-      "eval_f1": 0.5482866043613707,
-      "eval_loss": 0.29978421330451965,
-      "eval_runtime": 2.9231,
-      "eval_samples_per_second": 338.34,
-      "eval_steps_per_second": 10.605,
-      "step": 434
-    },
-    {
-      "epoch": 7.1,
-      "learning_rate": 3.870967741935484e-05,
-      "loss": 0.1638,
-      "step": 440
-    },
-    {
-      "epoch": 7.26,
-      "learning_rate": 3.82258064516129e-05,
-      "loss": 0.1628,
-      "step": 450
-    },
-    {
-      "epoch": 7.42,
-      "learning_rate": 3.774193548387097e-05,
-      "loss": 0.1559,
-      "step": 460
-    },
-    {
-      "epoch": 7.58,
-      "learning_rate": 3.725806451612903e-05,
-      "loss": 0.1574,
-      "step": 470
-    },
-    {
-      "epoch": 7.74,
-      "learning_rate": 3.67741935483871e-05,
-      "loss": 0.1614,
-      "step": 480
-    },
-    {
-      "epoch": 7.9,
-      "learning_rate": 3.6290322580645165e-05,
-      "loss": 0.1551,
-      "step": 490
-    },
-    {
-      "epoch": 8.0,
-      "eval_f1": 0.5663555656726611,
-      "eval_loss": 0.3146507441997528,
-      "eval_runtime": 2.9227,
-      "eval_samples_per_second": 338.382,
-      "eval_steps_per_second": 10.607,
-      "step": 496
-    },
-    {
-      "epoch": 8.06,
-      "learning_rate": 3.580645161290323e-05,
-      "loss": 0.1497,
-      "step": 500
-    },
-    {
-      "epoch": 8.23,
-      "learning_rate": 3.532258064516129e-05,
-      "loss": 0.146,
-      "step": 510
-    },
-    {
-      "epoch": 8.39,
-      "learning_rate": 3.483870967741936e-05,
-      "loss": 0.1426,
-      "step": 520
-    },
-    {
-      "epoch": 8.55,
-      "learning_rate": 3.435483870967742e-05,
-      "loss": 0.1494,
-      "step": 530
-    },
-    {
-      "epoch": 8.71,
-      "learning_rate": 3.387096774193549e-05,
-      "loss": 0.1405,
-      "step": 540
-    },
-    {
-      "epoch": 8.87,
-      "learning_rate": 3.338709677419355e-05,
-      "loss": 0.1419,
-      "step": 550
-    },
-    {
-      "epoch": 9.0,
-      "eval_f1": 0.5569386814200094,
-      "eval_loss": 0.3179270029067993,
-      "eval_runtime": 2.8924,
-      "eval_samples_per_second": 341.925,
-      "eval_steps_per_second": 10.718,
-      "step": 558
-    },
-    {
-      "epoch": 9.03,
-      "learning_rate": 3.2903225806451614e-05,
-      "loss": 0.1391,
-      "step": 560
-    },
-    {
-      "epoch": 9.19,
-      "learning_rate": 3.2419354838709674e-05,
-      "loss": 0.1295,
-      "step": 570
-    },
-    {
-      "epoch": 9.35,
-      "learning_rate": 3.193548387096774e-05,
-      "loss": 0.1269,
-      "step": 580
-    },
-    {
-      "epoch": 9.52,
-      "learning_rate": 3.1451612903225806e-05,
-      "loss": 0.1279,
-      "step": 590
-    },
-    {
-      "epoch": 9.68,
-      "learning_rate": 3.096774193548387e-05,
-      "loss": 0.1283,
-      "step": 600
-    },
-    {
-      "epoch": 9.84,
-      "learning_rate": 3.0483870967741935e-05,
-      "loss": 0.1266,
-      "step": 610
-    },
-    {
-      "epoch": 10.0,
-      "learning_rate": 3e-05,
-      "loss": 0.1291,
-      "step": 620
-    },
-    {
-      "epoch": 10.0,
-      "eval_f1": 0.5659516202647192,
-      "eval_loss": 0.32372668385505676,
-      "eval_runtime": 2.9143,
-      "eval_samples_per_second": 339.356,
-      "eval_steps_per_second": 10.637,
-      "step": 620
-    },
-    {
-      "epoch": 10.16,
-      "learning_rate": 2.9516129032258067e-05,
-      "loss": 0.1164,
-      "step": 630
-    },
-    {
-      "epoch": 10.32,
-      "learning_rate": 2.903225806451613e-05,
-      "loss": 0.1206,
-      "step": 640
-    },
-    {
-      "epoch": 10.48,
-      "learning_rate": 2.8548387096774196e-05,
-      "loss": 0.1121,
-      "step": 650
-    },
-    {
-      "epoch": 10.65,
-      "learning_rate": 2.806451612903226e-05,
-      "loss": 0.123,
-      "step": 660
-    },
-    {
-      "epoch": 10.81,
-      "learning_rate": 2.758064516129032e-05,
-      "loss": 0.1148,
-      "step": 670
-    },
-    {
-      "epoch": 10.97,
-      "learning_rate": 2.7096774193548387e-05,
-      "loss": 0.1166,
-      "step": 680
-    },
-    {
-      "epoch": 11.0,
-      "eval_f1": 0.5683084466235793,
-      "eval_loss": 0.3352525234222412,
-      "eval_runtime": 2.8947,
-      "eval_samples_per_second": 341.665,
-      "eval_steps_per_second": 10.709,
-      "step": 682
-    },
-    {
-      "epoch": 11.13,
-      "learning_rate": 2.6612903225806453e-05,
-      "loss": 0.1068,
-      "step": 690
-    },
-    {
-      "epoch": 11.29,
-      "learning_rate": 2.6129032258064516e-05,
-      "loss": 0.1109,
-      "step": 700
-    },
-    {
-      "epoch": 11.45,
-      "learning_rate": 2.5645161290322582e-05,
-      "loss": 0.1049,
-      "step": 710
-    },
-    {
-      "epoch": 11.61,
-      "learning_rate": 2.5161290322580648e-05,
-      "loss": 0.1042,
-      "step": 720
-    },
-    {
-      "epoch": 11.77,
-      "learning_rate": 2.467741935483871e-05,
-      "loss": 0.1111,
-      "step": 730
-    },
-    {
-      "epoch": 11.94,
-      "learning_rate": 2.4193548387096773e-05,
-      "loss": 0.1079,
-      "step": 740
-    },
-    {
-      "epoch": 12.0,
-      "eval_f1": 0.5689615996364462,
-      "eval_loss": 0.33389773964881897,
-      "eval_runtime": 2.9192,
-      "eval_samples_per_second": 338.786,
-      "eval_steps_per_second": 10.619,
-      "step": 744
-    },
-    {
-      "epoch": 12.1,
-      "learning_rate": 2.370967741935484e-05,
-      "loss": 0.0981,
-      "step": 750
-    },
-    {
-      "epoch": 12.26,
-      "learning_rate": 2.3225806451612902e-05,
-      "loss": 0.1,
-      "step": 760
-    },
-    {
-      "epoch": 12.42,
-      "learning_rate": 2.274193548387097e-05,
-      "loss": 0.0947,
-      "step": 770
-    },
-    {
-      "epoch": 12.58,
-      "learning_rate": 2.2258064516129034e-05,
-      "loss": 0.0937,
-      "step": 780
-    },
-    {
-      "epoch": 12.74,
-      "learning_rate": 2.1774193548387097e-05,
-      "loss": 0.0978,
-      "step": 790
-    },
-    {
-      "epoch": 12.9,
-      "learning_rate": 2.1290322580645163e-05,
-      "loss": 0.0988,
-      "step": 800
-    },
-    {
-      "epoch": 13.0,
-      "eval_f1": 0.573460769059791,
-      "eval_loss": 0.34931689500808716,
-      "eval_runtime": 2.9238,
-      "eval_samples_per_second": 338.256,
-      "eval_steps_per_second": 10.603,
-      "step": 806
-    },
-    {
-      "epoch": 13.06,
-      "learning_rate": 2.080645161290323e-05,
-      "loss": 0.0948,
-      "step": 810
-    },
-    {
-      "epoch": 13.23,
-      "learning_rate": 2.032258064516129e-05,
-      "loss": 0.0874,
-      "step": 820
-    },
-    {
-      "epoch": 13.39,
-      "learning_rate": 1.9838709677419355e-05,
-      "loss": 0.0894,
-      "step": 830
-    },
-    {
-      "epoch": 13.55,
-      "learning_rate": 1.935483870967742e-05,
-      "loss": 0.0919,
-      "step": 840
-    },
-    {
-      "epoch": 13.71,
-      "learning_rate": 1.8870967741935484e-05,
-      "loss": 0.0899,
-      "step": 850
-    },
-    {
-      "epoch": 13.87,
-      "learning_rate": 1.838709677419355e-05,
-      "loss": 0.0926,
-      "step": 860
-    },
-    {
-      "epoch": 14.0,
-      "eval_f1": 0.5807734806629834,
-      "eval_loss": 0.35069382190704346,
-      "eval_runtime": 2.9589,
-      "eval_samples_per_second": 334.248,
-      "eval_steps_per_second": 10.477,
-      "step": 868
-    },
-    {
-      "epoch": 14.03,
-      "learning_rate": 1.7903225806451616e-05,
-      "loss": 0.0817,
-      "step": 870
-    },
-    {
-      "epoch": 14.19,
-      "learning_rate": 1.741935483870968e-05,
-      "loss": 0.0826,
-      "step": 880
-    },
-    {
-      "epoch": 14.35,
-      "learning_rate": 1.6935483870967744e-05,
-      "loss": 0.0842,
-      "step": 890
-    },
-    {
-      "epoch": 14.52,
-      "learning_rate": 1.6451612903225807e-05,
-      "loss": 0.0824,
-      "step": 900
-    },
-    {
-      "epoch": 14.68,
-      "learning_rate": 1.596774193548387e-05,
-      "loss": 0.0822,
-      "step": 910
-    },
-    {
-      "epoch": 14.84,
-      "learning_rate": 1.5483870967741936e-05,
-      "loss": 0.0826,
-      "step": 920
-    },
-    {
-      "epoch": 15.0,
-      "learning_rate": 1.5e-05,
-      "loss": 0.0837,
-      "step": 930
-    },
-    {
-      "epoch": 15.0,
-      "eval_f1": 0.5837362637362637,
-      "eval_loss": 0.3567672073841095,
-      "eval_runtime": 2.915,
-      "eval_samples_per_second": 339.279,
-      "eval_steps_per_second": 10.635,
-      "step": 930
-    },
-    {
-      "epoch": 15.16,
-      "learning_rate": 1.4516129032258065e-05,
-      "loss": 0.0781,
-      "step": 940
-    },
-    {
-      "epoch": 15.32,
-      "learning_rate": 1.403225806451613e-05,
-      "loss": 0.0757,
-      "step": 950
-    },
-    {
-      "epoch": 15.48,
-      "learning_rate": 1.3548387096774194e-05,
-      "loss": 0.0766,
-      "step": 960
-    },
-    {
-      "epoch": 15.65,
-      "learning_rate": 1.3064516129032258e-05,
-      "loss": 0.0788,
-      "step": 970
-    },
-    {
-      "epoch": 15.81,
-      "learning_rate": 1.2580645161290324e-05,
-      "loss": 0.0764,
-      "step": 980
-    },
-    {
-      "epoch": 15.97,
-      "learning_rate": 1.2096774193548387e-05,
-      "loss": 0.076,
-      "step": 990
-    },
-    {
-      "epoch": 16.0,
-      "eval_f1": 0.5796391178436178,
-      "eval_loss": 0.3577311336994171,
-      "eval_runtime": 2.8859,
-      "eval_samples_per_second": 342.697,
-      "eval_steps_per_second": 10.742,
-      "step": 992
-    },
-    {
-      "epoch": 16.13,
-      "learning_rate": 1.1612903225806451e-05,
-      "loss": 0.0743,
-      "step": 1000
-    },
-    {
-      "epoch": 16.29,
-      "learning_rate": 1.1129032258064517e-05,
-      "loss": 0.0713,
-      "step": 1010
-    },
-    {
-      "epoch": 16.45,
-      "learning_rate": 1.0645161290322582e-05,
-      "loss": 0.0744,
-      "step": 1020
-    },
-    {
-      "epoch": 16.61,
-      "learning_rate": 1.0161290322580644e-05,
-      "loss": 0.069,
-      "step": 1030
-    },
-    {
-      "epoch": 16.77,
-      "learning_rate": 9.67741935483871e-06,
-      "loss": 0.0742,
-      "step": 1040
-    },
-    {
-      "epoch": 16.94,
-      "learning_rate": 9.193548387096775e-06,
-      "loss": 0.0718,
-      "step": 1050
-    },
-    {
-      "epoch": 17.0,
-      "eval_f1": 0.5815983881799865,
-      "eval_loss": 0.3607926368713379,
-      "eval_runtime": 2.9273,
-      "eval_samples_per_second": 337.857,
-      "eval_steps_per_second": 10.59,
-      "step": 1054
-    },
-    {
-      "epoch": 17.1,
-      "learning_rate": 8.70967741935484e-06,
-      "loss": 0.0704,
-      "step": 1060
-    },
-    {
-      "epoch": 17.26,
-      "learning_rate": 8.225806451612904e-06,
-      "loss": 0.067,
-      "step": 1070
-    },
-    {
-      "epoch": 17.42,
-      "learning_rate": 7.741935483870968e-06,
-      "loss": 0.0709,
-      "step": 1080
-    },
-    {
-      "epoch": 17.58,
-      "learning_rate": 7.258064516129032e-06,
-      "loss": 0.0679,
-      "step": 1090
-    },
-    {
-      "epoch": 17.74,
-      "learning_rate": 6.774193548387097e-06,
-      "loss": 0.071,
-      "step": 1100
-    },
-    {
-      "epoch": 17.9,
-      "learning_rate": 6.290322580645162e-06,
-      "loss": 0.0685,
-      "step": 1110
-    },
-    {
-      "epoch": 18.0,
-      "eval_f1": 0.5815289438798055,
-      "eval_loss": 0.36424893140792847,
-      "eval_runtime": 2.9446,
-      "eval_samples_per_second": 335.873,
-      "eval_steps_per_second": 10.528,
-      "step": 1116
-    },
-    {
-      "epoch": 18.06,
-      "learning_rate": 5.8064516129032256e-06,
-      "loss": 0.0673,
-      "step": 1120
-    },
-    {
-      "epoch": 18.23,
-      "learning_rate": 5.322580645161291e-06,
-      "loss": 0.0666,
-      "step": 1130
-    },
-    {
-      "epoch": 18.39,
-      "learning_rate": 4.838709677419355e-06,
-      "loss": 0.0663,
-      "step": 1140
-    },
-    {
-      "epoch": 18.55,
-      "learning_rate": 4.35483870967742e-06,
-      "loss": 0.0669,
-      "step": 1150
-    },
-    {
-      "epoch": 18.71,
-      "learning_rate": 3.870967741935484e-06,
-      "loss": 0.0677,
-      "step": 1160
-    },
-    {
-      "epoch": 18.87,
-      "learning_rate": 3.3870967741935484e-06,
-      "loss": 0.0665,
-      "step": 1170
-    },
-    {
-      "epoch": 19.0,
-      "eval_f1": 0.5837742504409171,
-      "eval_loss": 0.36555004119873047,
-      "eval_runtime": 2.9275,
-      "eval_samples_per_second": 337.836,
-      "eval_steps_per_second": 10.589,
-      "step": 1178
-    },
-    {
-      "epoch": 19.03,
-      "learning_rate": 2.9032258064516128e-06,
-      "loss": 0.0656,
-      "step": 1180
-    },
-    {
-      "epoch": 19.19,
-      "learning_rate": 2.4193548387096776e-06,
-      "loss": 0.063,
-      "step": 1190
-    },
-    {
-      "epoch": 19.35,
-      "learning_rate": 1.935483870967742e-06,
-      "loss": 0.0628,
-      "step": 1200
-    },
-    {
-      "epoch": 19.52,
-      "learning_rate": 1.4516129032258064e-06,
-      "loss": 0.0651,
-      "step": 1210
-    },
-    {
-      "epoch": 19.68,
-      "learning_rate": 9.67741935483871e-07,
-      "loss": 0.0662,
-      "step": 1220
-    },
-    {
-      "epoch": 19.84,
-      "learning_rate": 4.838709677419355e-07,
-      "loss": 0.0636,
-      "step": 1230
-    },
-    {
-      "epoch": 20.0,
-      "learning_rate": 0.0,
-      "loss": 0.0676,
-      "step": 1240
-    },
-    {
-      "epoch": 20.0,
-      "eval_f1": 0.5832229580573952,
-      "eval_loss": 0.3661610186100006,
-      "eval_runtime": 2.9338,
-      "eval_samples_per_second": 337.105,
-      "eval_steps_per_second": 10.566,
-      "step": 1240
-    },
-    {
-      "epoch": 20.0,
-      "step": 1240,
-      "total_flos": 2.082560024604672e+16,
-      "train_loss": 0.14994276651451666,
-      "train_runtime": 1498.2493,
-      "train_samples_per_second": 105.643,
-      "train_steps_per_second": 0.828
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1240,
-  "num_train_epochs": 20,
   "save_steps": 500,
-  "total_flos": 2.082560024604672e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 310,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.16,
+      "learning_rate": 5.806451612903226e-05,
+      "loss": 0.486,
       "step": 10
     },
     {
       "epoch": 0.32,
+      "learning_rate": 5.612903225806452e-05,
+      "loss": 0.346,
       "step": 20
     },
     {
       "epoch": 0.48,
+      "learning_rate": 5.4193548387096774e-05,
+      "loss": 0.3352,
       "step": 30
     },
     {
       "epoch": 0.65,
+      "learning_rate": 5.225806451612903e-05,
+      "loss": 0.3119,
       "step": 40
     },
     {
       "epoch": 0.81,
+      "learning_rate": 5.0322580645161296e-05,
+      "loss": 0.3066,
       "step": 50
     },
     {
       "epoch": 0.97,
+      "learning_rate": 4.838709677419355e-05,
+      "loss": 0.3096,
       "step": 60
     },
     {
       "epoch": 1.0,
+      "eval_f1": 0.3706818864523881,
+      "eval_loss": 0.28623858094215393,
+      "eval_runtime": 4.0392,
+      "eval_samples_per_second": 244.852,
+      "eval_steps_per_second": 7.675,
       "step": 62
     },
     {
       "epoch": 1.13,
+      "learning_rate": 4.6451612903225805e-05,
+      "loss": 0.3,
       "step": 70
     },
     {
       "epoch": 1.29,
+      "learning_rate": 4.451612903225807e-05,
+      "loss": 0.2951,
       "step": 80
     },
     {
       "epoch": 1.45,
+      "learning_rate": 4.2580645161290327e-05,
+      "loss": 0.2923,
       "step": 90
     },
     {
       "epoch": 1.61,
+      "learning_rate": 4.064516129032258e-05,
+      "loss": 0.2892,
       "step": 100
     },
     {
       "epoch": 1.77,
+      "learning_rate": 3.870967741935484e-05,
+      "loss": 0.2917,
       "step": 110
     },
     {
       "epoch": 1.94,
+      "learning_rate": 3.67741935483871e-05,
+      "loss": 0.2863,
       "step": 120
     },
     {
       "epoch": 2.0,
+      "eval_f1": 0.44221665274296856,
+      "eval_loss": 0.28044137358665466,
+      "eval_runtime": 4.1947,
+      "eval_samples_per_second": 235.772,
+      "eval_steps_per_second": 7.39,
       "step": 124
     },
     {
       "epoch": 2.1,
+      "learning_rate": 3.483870967741936e-05,
+      "loss": 0.2758,
       "step": 130
     },
     {
       "epoch": 2.26,
+      "learning_rate": 3.2903225806451614e-05,
+      "loss": 0.2688,
       "step": 140
     },
     {
       "epoch": 2.42,
+      "learning_rate": 3.096774193548387e-05,
+      "loss": 0.2708,
       "step": 150
     },
     {
       "epoch": 2.58,
+      "learning_rate": 2.903225806451613e-05,
+      "loss": 0.2659,
       "step": 160
     },
     {
       "epoch": 2.74,
+      "learning_rate": 2.7096774193548387e-05,
+      "loss": 0.2668,
       "step": 170
     },
     {
       "epoch": 2.9,
+      "learning_rate": 2.5161290322580648e-05,
+      "loss": 0.2618,
       "step": 180
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.49894403379091873,
+      "eval_loss": 0.277263343334198,
+      "eval_runtime": 8.3935,
+      "eval_samples_per_second": 117.829,
+      "eval_steps_per_second": 3.693,
       "step": 186
     },
     {
       "epoch": 3.06,
+      "learning_rate": 2.3225806451612902e-05,
+      "loss": 0.2612,
       "step": 190
     },
     {
       "epoch": 3.23,
+      "learning_rate": 2.1290322580645163e-05,
+      "loss": 0.2461,
       "step": 200
     },
     {
       "epoch": 3.39,
+      "learning_rate": 1.935483870967742e-05,
+      "loss": 0.2419,
       "step": 210
     },
     {
       "epoch": 3.55,
+      "learning_rate": 1.741935483870968e-05,
+      "loss": 0.2504,
       "step": 220
     },
     {
       "epoch": 3.71,
+      "learning_rate": 1.5483870967741936e-05,
+      "loss": 0.2432,
       "step": 230
     },
     {
       "epoch": 3.87,
+      "learning_rate": 1.3548387096774194e-05,
+      "loss": 0.2432,
       "step": 240
     },
     {
       "epoch": 4.0,
+      "eval_f1": 0.5223157357816883,
+      "eval_loss": 0.27642112970352173,
+      "eval_runtime": 3.9495,
+      "eval_samples_per_second": 250.414,
+      "eval_steps_per_second": 7.849,
       "step": 248
     },
     {
       "epoch": 4.03,
+      "learning_rate": 1.1612903225806451e-05,
+      "loss": 0.2335,
       "step": 250
     },
     {
       "epoch": 4.19,
+      "learning_rate": 9.67741935483871e-06,
+      "loss": 0.2243,
       "step": 260
     },
     {
       "epoch": 4.35,
+      "learning_rate": 7.741935483870968e-06,
+      "loss": 0.2245,
       "step": 270
     },
     {
       "epoch": 4.52,
+      "learning_rate": 5.8064516129032256e-06,
+      "loss": 0.2259,
       "step": 280
     },
     {
       "epoch": 4.68,
+      "learning_rate": 3.870967741935484e-06,
+      "loss": 0.2251,
       "step": 290
     },
     {
       "epoch": 4.84,
+      "learning_rate": 1.935483870967742e-06,
+      "loss": 0.2249,
       "step": 300
     },
     {
       "epoch": 5.0,
+      "learning_rate": 0.0,
+      "loss": 0.2241,
       "step": 310
     },
     {
       "epoch": 5.0,
+      "eval_f1": 0.5464019851116626,
+      "eval_loss": 0.27576151490211487,
+      "eval_runtime": 7.713,
+      "eval_samples_per_second": 128.225,
+      "eval_steps_per_second": 4.019,
       "step": 310
     },
     {
+      "epoch": 5.0,
+      "step": 310,
+      "total_flos": 1.843925880757248e+16,
+      "train_loss": 0.2750998620064028,
+      "train_runtime": 948.4301,
+      "train_samples_per_second": 41.722,
+      "train_steps_per_second": 0.327
     }
   ],
   "logging_steps": 10,
+  "max_steps": 310,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 1.843925880757248e+16,
   "trial_name": null,
   "trial_params": null
 }