End of training

Browse files

Files changed (4) hide show

all_results.json +10 -10
eval_results.json +6 -6
train_results.json +5 -5
trainer_state.json +223 -268

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 4.97,
-    "eval_f1": 0.7095034823635139,
-    "eval_loss": 0.20497334003448486,
-    "eval_runtime": 16.7618,
     "eval_samples": 989,
-    "eval_samples_per_second": 59.003,
-    "eval_steps_per_second": 3.699,
-    "train_loss": 0.20427038223762822,
-    "train_runtime": 2213.5462,
     "train_samples": 7914,
-    "train_samples_per_second": 17.876,
-    "train_steps_per_second": 0.278
 }

 {
+    "epoch": 8.0,
+    "eval_f1": 0.5107802874743327,
+    "eval_loss": 0.283179372549057,
+    "eval_runtime": 3.5813,
     "eval_samples": 989,
+    "eval_samples_per_second": 276.158,
+    "eval_steps_per_second": 8.656,
+    "train_loss": 0.2570930659290283,
+    "train_runtime": 822.741,
     "train_samples": 7914,
+    "train_samples_per_second": 76.953,
+    "train_steps_per_second": 0.603
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 4.97,
-    "eval_f1": 0.7095034823635139,
-    "eval_loss": 0.20497334003448486,
-    "eval_runtime": 16.7618,
     "eval_samples": 989,
-    "eval_samples_per_second": 59.003,
-    "eval_steps_per_second": 3.699
 }

 {
+    "epoch": 8.0,
+    "eval_f1": 0.5107802874743327,
+    "eval_loss": 0.283179372549057,
+    "eval_runtime": 3.5813,
     "eval_samples": 989,
+    "eval_samples_per_second": 276.158,
+    "eval_steps_per_second": 8.656
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.97,
-    "train_loss": 0.20427038223762822,
-    "train_runtime": 2213.5462,
     "train_samples": 7914,
-    "train_samples_per_second": 17.876,
-    "train_steps_per_second": 0.278
 }

 {
+    "epoch": 8.0,
+    "train_loss": 0.2570930659290283,
+    "train_runtime": 822.741,
     "train_samples": 7914,
+    "train_samples_per_second": 76.953,
+    "train_steps_per_second": 0.603
 }

trainer_state.json CHANGED Viewed

@@ -1,439 +1,394 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.96969696969697,
   "eval_steps": 500,
-  "global_step": 615,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.08,
-      "learning_rate": 1.9674796747967483e-05,
-      "loss": 0.5781,
       "step": 10
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 1.934959349593496e-05,
-      "loss": 0.4087,
       "step": 20
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 1.902439024390244e-05,
-      "loss": 0.3448,
       "step": 30
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 1.869918699186992e-05,
-      "loss": 0.322,
       "step": 40
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 1.83739837398374e-05,
-      "loss": 0.3095,
       "step": 50
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 1.804878048780488e-05,
-      "loss": 0.3056,
       "step": 60
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 1.772357723577236e-05,
-      "loss": 0.2888,
       "step": 70
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 1.739837398373984e-05,
-      "loss": 0.2753,
       "step": 80
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 1.7073170731707317e-05,
-      "loss": 0.2737,
       "step": 90
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 1.6747967479674798e-05,
-      "loss": 0.2633,
       "step": 100
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 1.642276422764228e-05,
-      "loss": 0.2583,
       "step": 110
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 1.6097560975609757e-05,
-      "loss": 0.2518,
       "step": 120
     },
     {
-      "epoch": 0.99,
-      "eval_f1": 0.5708365708365708,
-      "eval_loss": 0.23673325777053833,
-      "eval_runtime": 17.0069,
-      "eval_samples_per_second": 58.153,
-      "eval_steps_per_second": 3.646,
-      "step": 123
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 1.5772357723577235e-05,
-      "loss": 0.2427,
       "step": 130
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 1.5447154471544717e-05,
-      "loss": 0.2416,
       "step": 140
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 1.5121951219512196e-05,
-      "loss": 0.2285,
       "step": 150
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 1.4796747967479676e-05,
-      "loss": 0.2263,
       "step": 160
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 1.4471544715447157e-05,
-      "loss": 0.2241,
       "step": 170
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 1.4146341463414635e-05,
-      "loss": 0.2254,
       "step": 180
     },
     {
-      "epoch": 1.54,
-      "learning_rate": 1.3821138211382115e-05,
-      "loss": 0.2213,
       "step": 190
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 1.3495934959349594e-05,
-      "loss": 0.2155,
       "step": 200
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 1.3170731707317076e-05,
-      "loss": 0.2201,
       "step": 210
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 1.2845528455284555e-05,
-      "loss": 0.2167,
       "step": 220
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 1.2520325203252033e-05,
-      "loss": 0.215,
       "step": 230
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 1.2195121951219513e-05,
-      "loss": 0.2111,
       "step": 240
     },
     {
-      "epoch": 2.0,
-      "eval_f1": 0.6588750913075239,
-      "eval_loss": 0.2085004448890686,
-      "eval_runtime": 17.0139,
-      "eval_samples_per_second": 58.129,
-      "eval_steps_per_second": 3.644,
-      "step": 247
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 1.1869918699186992e-05,
-      "loss": 0.1933,
       "step": 250
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 1.1544715447154474e-05,
-      "loss": 0.1915,
       "step": 260
     },
     {
-      "epoch": 2.18,
-      "learning_rate": 1.1219512195121953e-05,
-      "loss": 0.187,
       "step": 270
     },
     {
-      "epoch": 2.26,
-      "learning_rate": 1.0894308943089431e-05,
-      "loss": 0.1847,
       "step": 280
     },
     {
-      "epoch": 2.34,
-      "learning_rate": 1.0569105691056911e-05,
-      "loss": 0.1868,
       "step": 290
     },
     {
-      "epoch": 2.42,
-      "learning_rate": 1.024390243902439e-05,
-      "loss": 0.1835,
       "step": 300
     },
     {
-      "epoch": 2.51,
-      "learning_rate": 9.91869918699187e-06,
-      "loss": 0.1813,
       "step": 310
     },
     {
-      "epoch": 2.59,
-      "learning_rate": 9.59349593495935e-06,
-      "loss": 0.1819,
       "step": 320
     },
     {
-      "epoch": 2.67,
-      "learning_rate": 9.268292682926831e-06,
-      "loss": 0.1746,
       "step": 330
     },
     {
-      "epoch": 2.75,
-      "learning_rate": 8.94308943089431e-06,
-      "loss": 0.181,
       "step": 340
     },
     {
-      "epoch": 2.83,
-      "learning_rate": 8.617886178861789e-06,
-      "loss": 0.1844,
       "step": 350
     },
     {
-      "epoch": 2.91,
-      "learning_rate": 8.292682926829268e-06,
-      "loss": 0.169,
       "step": 360
     },
     {
-      "epoch": 2.99,
-      "learning_rate": 7.967479674796748e-06,
-      "loss": 0.1833,
       "step": 370
     },
     {
-      "epoch": 3.0,
-      "eval_f1": 0.6790123456790124,
-      "eval_loss": 0.2064265012741089,
-      "eval_runtime": 16.9971,
-      "eval_samples_per_second": 58.186,
-      "eval_steps_per_second": 3.648,
-      "step": 371
     },
     {
-      "epoch": 3.07,
-      "learning_rate": 7.64227642276423e-06,
-      "loss": 0.1625,
       "step": 380
     },
     {
-      "epoch": 3.15,
-      "learning_rate": 7.317073170731707e-06,
-      "loss": 0.1617,
       "step": 390
     },
     {
-      "epoch": 3.23,
-      "learning_rate": 6.991869918699188e-06,
-      "loss": 0.1582,
       "step": 400
     },
     {
-      "epoch": 3.31,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.1584,
       "step": 410
     },
     {
-      "epoch": 3.39,
-      "learning_rate": 6.341463414634147e-06,
-      "loss": 0.1512,
       "step": 420
     },
     {
-      "epoch": 3.47,
-      "learning_rate": 6.016260162601627e-06,
-      "loss": 0.1574,
       "step": 430
     },
     {
-      "epoch": 3.56,
-      "learning_rate": 5.691056910569106e-06,
-      "loss": 0.1564,
       "step": 440
     },
     {
-      "epoch": 3.64,
-      "learning_rate": 5.365853658536586e-06,
-      "loss": 0.1584,
       "step": 450
     },
     {
-      "epoch": 3.72,
-      "learning_rate": 5.040650406504065e-06,
-      "loss": 0.1495,
       "step": 460
     },
     {
-      "epoch": 3.8,
-      "learning_rate": 4.715447154471545e-06,
-      "loss": 0.1591,
       "step": 470
     },
     {
-      "epoch": 3.88,
-      "learning_rate": 4.390243902439025e-06,
-      "loss": 0.1564,
       "step": 480
     },
     {
-      "epoch": 3.96,
-      "learning_rate": 4.0650406504065046e-06,
-      "loss": 0.1485,
       "step": 490
     },
     {
-      "epoch": 4.0,
-      "eval_f1": 0.7020743104627308,
-      "eval_loss": 0.20207864046096802,
-      "eval_runtime": 17.0075,
-      "eval_samples_per_second": 58.151,
-      "eval_steps_per_second": 3.645,
-      "step": 495
-    },
-    {
-      "epoch": 4.04,
-      "learning_rate": 3.7398373983739838e-06,
-      "loss": 0.1477,
-      "step": 500
-    },
-    {
-      "epoch": 4.12,
-      "learning_rate": 3.414634146341464e-06,
-      "loss": 0.1406,
-      "step": 510
-    },
-    {
-      "epoch": 4.2,
-      "learning_rate": 3.0894308943089435e-06,
-      "loss": 0.1383,
-      "step": 520
-    },
-    {
-      "epoch": 4.28,
-      "learning_rate": 2.764227642276423e-06,
-      "loss": 0.1374,
-      "step": 530
-    },
-    {
-      "epoch": 4.36,
-      "learning_rate": 2.4390243902439027e-06,
-      "loss": 0.1282,
-      "step": 540
-    },
-    {
-      "epoch": 4.44,
-      "learning_rate": 2.1138211382113824e-06,
-      "loss": 0.1338,
-      "step": 550
-    },
-    {
-      "epoch": 4.53,
-      "learning_rate": 1.788617886178862e-06,
-      "loss": 0.1397,
-      "step": 560
-    },
-    {
-      "epoch": 4.61,
-      "learning_rate": 1.4634146341463414e-06,
-      "loss": 0.143,
-      "step": 570
-    },
-    {
-      "epoch": 4.69,
-      "learning_rate": 1.1382113821138213e-06,
-      "loss": 0.1392,
-      "step": 580
-    },
-    {
-      "epoch": 4.77,
-      "learning_rate": 8.130081300813009e-07,
-      "loss": 0.1374,
-      "step": 590
-    },
-    {
-      "epoch": 4.85,
-      "learning_rate": 4.878048780487805e-07,
-      "loss": 0.1401,
-      "step": 600
-    },
-    {
-      "epoch": 4.93,
-      "learning_rate": 1.6260162601626018e-07,
-      "loss": 0.1382,
-      "step": 610
-    },
-    {
-      "epoch": 4.97,
-      "eval_f1": 0.7095034823635139,
-      "eval_loss": 0.20497334003448486,
-      "eval_runtime": 17.0074,
-      "eval_samples_per_second": 58.151,
-      "eval_steps_per_second": 3.645,
-      "step": 615
     },
     {
-      "epoch": 4.97,
-      "step": 615,
-      "total_flos": 3.666068136773222e+16,
-      "train_loss": 0.20427038223762822,
-      "train_runtime": 2213.5462,
-      "train_samples_per_second": 17.876,
-      "train_steps_per_second": 0.278
     }
   ],
   "logging_steps": 10,
-  "max_steps": 615,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 3.666068136773222e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.0,
   "eval_steps": 500,
+  "global_step": 496,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.16,
+      "learning_rate": 1.9596774193548388e-05,
+      "loss": 0.4886,
       "step": 10
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 1.9193548387096777e-05,
+      "loss": 0.3236,
       "step": 20
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 1.8790322580645163e-05,
+      "loss": 0.3137,
       "step": 30
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 1.838709677419355e-05,
+      "loss": 0.3073,
       "step": 40
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 1.7983870967741936e-05,
+      "loss": 0.3068,
       "step": 50
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 1.7580645161290325e-05,
+      "loss": 0.3059,
       "step": 60
     },
     {
+      "epoch": 1.0,
+      "eval_f1": 0.32627646326276466,
+      "eval_loss": 0.2893124222755432,
+      "eval_runtime": 3.6709,
+      "eval_samples_per_second": 269.418,
+      "eval_steps_per_second": 8.445,
+      "step": 62
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1.717741935483871e-05,
+      "loss": 0.3038,
       "step": 70
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 1.6774193548387098e-05,
+      "loss": 0.2959,
       "step": 80
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 1.6370967741935487e-05,
+      "loss": 0.2953,
       "step": 90
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 1.596774193548387e-05,
+      "loss": 0.2908,
       "step": 100
     },
     {
+      "epoch": 1.77,
+      "learning_rate": 1.556451612903226e-05,
+      "loss": 0.2902,
       "step": 110
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 1.5161290322580646e-05,
+      "loss": 0.2879,
       "step": 120
     },
     {
+      "epoch": 2.0,
+      "eval_f1": 0.429018492176387,
+      "eval_loss": 0.2794504165649414,
+      "eval_runtime": 3.6769,
+      "eval_samples_per_second": 268.977,
+      "eval_steps_per_second": 8.431,
+      "step": 124
     },
     {
+      "epoch": 2.1,
+      "learning_rate": 1.4758064516129033e-05,
+      "loss": 0.2774,
       "step": 130
     },
     {
+      "epoch": 2.26,
+      "learning_rate": 1.4354838709677421e-05,
+      "loss": 0.2762,
       "step": 140
     },
     {
+      "epoch": 2.42,
+      "learning_rate": 1.3951612903225809e-05,
+      "loss": 0.2811,
       "step": 150
     },
     {
+      "epoch": 2.58,
+      "learning_rate": 1.3548387096774194e-05,
+      "loss": 0.2734,
       "step": 160
     },
     {
+      "epoch": 2.74,
+      "learning_rate": 1.3145161290322581e-05,
+      "loss": 0.279,
       "step": 170
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 1.274193548387097e-05,
+      "loss": 0.2729,
       "step": 180
     },
     {
+      "epoch": 3.0,
+      "eval_f1": 0.4356266057664859,
+      "eval_loss": 0.27300506830215454,
+      "eval_runtime": 3.6734,
+      "eval_samples_per_second": 269.233,
+      "eval_steps_per_second": 8.439,
+      "step": 186
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 1.2338709677419355e-05,
+      "loss": 0.2722,
       "step": 190
     },
     {
+      "epoch": 3.23,
+      "learning_rate": 1.1935483870967743e-05,
+      "loss": 0.2605,
       "step": 200
     },
     {
+      "epoch": 3.39,
+      "learning_rate": 1.1532258064516131e-05,
+      "loss": 0.2564,
       "step": 210
     },
     {
+      "epoch": 3.55,
+      "learning_rate": 1.1129032258064516e-05,
+      "loss": 0.264,
       "step": 220
     },
     {
+      "epoch": 3.71,
+      "learning_rate": 1.0725806451612903e-05,
+      "loss": 0.2627,
       "step": 230
     },
     {
+      "epoch": 3.87,
+      "learning_rate": 1.0322580645161291e-05,
+      "loss": 0.2606,
       "step": 240
     },
     {
+      "epoch": 4.0,
+      "eval_f1": 0.458980044345898,
+      "eval_loss": 0.272247850894928,
+      "eval_runtime": 3.6724,
+      "eval_samples_per_second": 269.307,
+      "eval_steps_per_second": 8.441,
+      "step": 248
     },
     {
+      "epoch": 4.03,
+      "learning_rate": 9.919354838709679e-06,
+      "loss": 0.2523,
       "step": 250
     },
     {
+      "epoch": 4.19,
+      "learning_rate": 9.516129032258065e-06,
+      "loss": 0.2437,
       "step": 260
     },
     {
+      "epoch": 4.35,
+      "learning_rate": 9.112903225806451e-06,
+      "loss": 0.2451,
       "step": 270
     },
     {
+      "epoch": 4.52,
+      "learning_rate": 8.70967741935484e-06,
+      "loss": 0.2514,
       "step": 280
     },
     {
+      "epoch": 4.68,
+      "learning_rate": 8.306451612903227e-06,
+      "loss": 0.2439,
       "step": 290
     },
     {
+      "epoch": 4.84,
+      "learning_rate": 7.903225806451613e-06,
+      "loss": 0.2378,
       "step": 300
     },
     {
+      "epoch": 5.0,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.2433,
       "step": 310
     },
     {
+      "epoch": 5.0,
+      "eval_f1": 0.4775401069518716,
+      "eval_loss": 0.2747083902359009,
+      "eval_runtime": 3.674,
+      "eval_samples_per_second": 269.186,
+      "eval_steps_per_second": 8.438,
+      "step": 310
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 7.096774193548388e-06,
+      "loss": 0.2302,
       "step": 320
     },
     {
+      "epoch": 5.32,
+      "learning_rate": 6.693548387096774e-06,
+      "loss": 0.2292,
       "step": 330
     },
     {
+      "epoch": 5.48,
+      "learning_rate": 6.290322580645162e-06,
+      "loss": 0.223,
       "step": 340
     },
     {
+      "epoch": 5.65,
+      "learning_rate": 5.887096774193549e-06,
+      "loss": 0.2281,
       "step": 350
     },
     {
+      "epoch": 5.81,
+      "learning_rate": 5.483870967741935e-06,
+      "loss": 0.2301,
       "step": 360
     },
     {
+      "epoch": 5.97,
+      "learning_rate": 5.080645161290323e-06,
+      "loss": 0.227,
       "step": 370
     },
     {
+      "epoch": 6.0,
+      "eval_f1": 0.49764027267960154,
+      "eval_loss": 0.2776886522769928,
+      "eval_runtime": 3.6732,
+      "eval_samples_per_second": 269.25,
+      "eval_steps_per_second": 8.44,
+      "step": 372
     },
     {
+      "epoch": 6.13,
+      "learning_rate": 4.67741935483871e-06,
+      "loss": 0.2188,
       "step": 380
     },
     {
+      "epoch": 6.29,
+      "learning_rate": 4.274193548387097e-06,
+      "loss": 0.2195,
       "step": 390
     },
     {
+      "epoch": 6.45,
+      "learning_rate": 3.870967741935484e-06,
+      "loss": 0.2123,
       "step": 400
     },
     {
+      "epoch": 6.61,
+      "learning_rate": 3.4677419354838714e-06,
+      "loss": 0.2121,
       "step": 410
     },
     {
+      "epoch": 6.77,
+      "learning_rate": 3.0645161290322584e-06,
+      "loss": 0.2136,
       "step": 420
     },
     {
+      "epoch": 6.94,
+      "learning_rate": 2.6612903225806454e-06,
+      "loss": 0.207,
       "step": 430
     },
     {
+      "epoch": 7.0,
+      "eval_f1": 0.5087719298245615,
+      "eval_loss": 0.28140273690223694,
+      "eval_runtime": 3.6742,
+      "eval_samples_per_second": 269.173,
+      "eval_steps_per_second": 8.437,
+      "step": 434
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 2.2580645161290324e-06,
+      "loss": 0.2085,
       "step": 440
     },
     {
+      "epoch": 7.26,
+      "learning_rate": 1.8548387096774196e-06,
+      "loss": 0.2071,
       "step": 450
     },
     {
+      "epoch": 7.42,
+      "learning_rate": 1.4516129032258066e-06,
+      "loss": 0.2027,
       "step": 460
     },
     {
+      "epoch": 7.58,
+      "learning_rate": 1.0483870967741936e-06,
+      "loss": 0.2017,
       "step": 470
     },
     {
+      "epoch": 7.74,
+      "learning_rate": 6.451612903225807e-07,
+      "loss": 0.2017,
       "step": 480
     },
     {
+      "epoch": 7.9,
+      "learning_rate": 2.4193548387096775e-07,
+      "loss": 0.1969,
       "step": 490
     },
     {
+      "epoch": 8.0,
+      "eval_f1": 0.5107802874743327,
+      "eval_loss": 0.283179372549057,
+      "eval_runtime": 3.6742,
+      "eval_samples_per_second": 269.174,
+      "eval_steps_per_second": 8.437,
+      "step": 496
     },
     {
+      "epoch": 8.0,
+      "step": 496,
+      "total_flos": 0.0,
+      "train_loss": 0.2570930659290283,
+      "train_runtime": 822.741,
+      "train_samples_per_second": 76.953,
+      "train_steps_per_second": 0.603
     }
   ],
   "logging_steps": 10,
+  "max_steps": 496,
+  "num_train_epochs": 8,
   "save_steps": 500,
+  "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null
 }