End of training

Files changed (4) hide show

all_results.json +10 -10
eval_results.json +6 -6
train_results.json +5 -5
trainer_state.json +642 -66

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 9.97,
-    "eval_f1": 0.1941564561734213,
-    "eval_loss": 4.426720142364502,
-    "eval_runtime": 22.9552,
     "eval_samples": 1916,
-    "eval_samples_per_second": 83.467,
-    "eval_steps_per_second": 1.307,
-    "train_loss": 1.9846372914412187,
-    "train_runtime": 5392.4255,
     "train_samples": 5743,
-    "train_samples_per_second": 10.65,
-    "train_steps_per_second": 0.332
 }

 {
+    "epoch": 10.0,
+    "eval_f1": 0.0,
+    "eval_loss": 0.34448280930519104,
+    "eval_runtime": 20.531,
     "eval_samples": 1916,
+    "eval_samples_per_second": 93.322,
+    "eval_steps_per_second": 1.461,
+    "train_loss": 0.3510875488058106,
+    "train_runtime": 3949.5247,
     "train_samples": 5743,
+    "train_samples_per_second": 14.541,
+    "train_steps_per_second": 0.909
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 9.97,
-    "eval_f1": 0.1941564561734213,
-    "eval_loss": 4.426720142364502,
-    "eval_runtime": 22.9552,
     "eval_samples": 1916,
-    "eval_samples_per_second": 83.467,
-    "eval_steps_per_second": 1.307
 }

 {
+    "epoch": 10.0,
+    "eval_f1": 0.0,
+    "eval_loss": 0.34448280930519104,
+    "eval_runtime": 20.531,
     "eval_samples": 1916,
+    "eval_samples_per_second": 93.322,
+    "eval_steps_per_second": 1.461
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 9.97,
-    "train_loss": 1.9846372914412187,
-    "train_runtime": 5392.4255,
     "train_samples": 5743,
-    "train_samples_per_second": 10.65,
-    "train_steps_per_second": 0.332
 }

 {
+    "epoch": 10.0,
+    "train_loss": 0.3510875488058106,
+    "train_runtime": 3949.5247,
     "train_samples": 5743,
+    "train_samples_per_second": 14.541,
+    "train_steps_per_second": 0.909
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.972144846796658,
   "eval_steps": 500,
-  "global_step": 1790,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -531,123 +531,699 @@
       "step": 1500
     },
     {
-      "epoch": 8.47,
-      "learning_rate": 2e-05,
-      "loss": 0.0035,
       "step": 1520
     },
     {
-      "epoch": 8.58,
-      "learning_rate": 2e-05,
-      "loss": 0.139,
       "step": 1540
     },
     {
-      "epoch": 8.69,
-      "learning_rate": 2e-05,
-      "loss": 0.0617,
       "step": 1560
     },
     {
-      "epoch": 8.8,
-      "learning_rate": 2e-05,
-      "loss": 0.0684,
       "step": 1580
     },
     {
-      "epoch": 8.91,
-      "learning_rate": 2e-05,
-      "loss": 0.0231,
       "step": 1600
     },
     {
       "epoch": 9.0,
-      "eval_f1": 0.1941564561734213,
-      "eval_loss": 8.572157859802246,
-      "eval_runtime": 22.7298,
-      "eval_samples_per_second": 84.295,
-      "eval_steps_per_second": 1.32,
-      "step": 1615
     },
     {
       "epoch": 9.03,
-      "learning_rate": 2e-05,
-      "loss": 0.0565,
-      "step": 1620
     },
     {
       "epoch": 9.14,
-      "learning_rate": 2e-05,
-      "loss": 0.0025,
-      "step": 1640
     },
     {
       "epoch": 9.25,
-      "learning_rate": 2e-05,
-      "loss": 0.0,
-      "step": 1660
     },
     {
       "epoch": 9.36,
-      "learning_rate": 2e-05,
-      "loss": 0.1041,
-      "step": 1680
     },
     {
       "epoch": 9.47,
-      "learning_rate": 2e-05,
-      "loss": 0.0822,
-      "step": 1700
     },
     {
       "epoch": 9.58,
-      "learning_rate": 2e-05,
-      "loss": 0.0923,
-      "step": 1720
     },
     {
       "epoch": 9.69,
-      "learning_rate": 2e-05,
-      "loss": 0.0367,
-      "step": 1740
     },
     {
       "epoch": 9.81,
-      "learning_rate": 2e-05,
-      "loss": 0.0083,
-      "step": 1760
     },
     {
-      "epoch": 9.92,
-      "learning_rate": 2e-05,
-      "loss": 0.0521,
-      "step": 1780
     },
     {
-      "epoch": 9.97,
-      "eval_f1": 0.1941564561734213,
-      "eval_loss": 4.426720142364502,
-      "eval_runtime": 22.899,
-      "eval_samples_per_second": 83.672,
-      "eval_steps_per_second": 1.31,
-      "step": 1790
     },
     {
       "epoch": 9.97,
-      "step": 1790,
-      "total_flos": 4485749565030400.0,
-      "train_loss": 1.9846372914412187,
-      "train_runtime": 5392.4255,
-      "train_samples_per_second": 10.65,
-      "train_steps_per_second": 0.332
     }
   ],
   "logging_steps": 20,
-  "max_steps": 1790,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 4485749565030400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 3590,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 1500
     },
     {
+      "epoch": 4.23,
+      "learning_rate": 0.001,
+      "loss": 18.7223,
       "step": 1520
     },
     {
+      "epoch": 4.29,
+      "learning_rate": 0.001,
+      "loss": 5.5701,
       "step": 1540
     },
     {
+      "epoch": 4.35,
+      "learning_rate": 0.001,
+      "loss": 1.2935,
       "step": 1560
     },
     {
+      "epoch": 4.4,
+      "learning_rate": 0.001,
+      "loss": 0.6161,
       "step": 1580
     },
     {
+      "epoch": 4.46,
+      "learning_rate": 0.001,
+      "loss": 0.757,
       "step": 1600
     },
+    {
+      "epoch": 4.51,
+      "learning_rate": 0.001,
+      "loss": 0.6241,
+      "step": 1620
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 0.001,
+      "loss": 0.5211,
+      "step": 1640
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 0.001,
+      "loss": 0.4467,
+      "step": 1660
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 0.001,
+      "loss": 0.424,
+      "step": 1680
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 0.001,
+      "loss": 0.3741,
+      "step": 1700
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 0.001,
+      "loss": 0.3276,
+      "step": 1720
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 0.001,
+      "loss": 0.3692,
+      "step": 1740
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 0.001,
+      "loss": 0.3626,
+      "step": 1760
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 0.001,
+      "loss": 0.3698,
+      "step": 1780
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.0,
+      "eval_loss": 0.3513816297054291,
+      "eval_runtime": 20.8512,
+      "eval_samples_per_second": 91.889,
+      "eval_steps_per_second": 1.439,
+      "step": 1795
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 0.001,
+      "loss": 0.3672,
+      "step": 1800
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 0.001,
+      "loss": 0.3879,
+      "step": 1820
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 0.001,
+      "loss": 0.458,
+      "step": 1840
+    },
+    {
+      "epoch": 5.18,
+      "learning_rate": 0.001,
+      "loss": 0.3949,
+      "step": 1860
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 0.001,
+      "loss": 0.372,
+      "step": 1880
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 0.001,
+      "loss": 0.3578,
+      "step": 1900
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 0.001,
+      "loss": 0.3906,
+      "step": 1920
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 0.001,
+      "loss": 0.3888,
+      "step": 1940
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 0.001,
+      "loss": 0.4049,
+      "step": 1960
+    },
+    {
+      "epoch": 5.52,
+      "learning_rate": 0.001,
+      "loss": 0.3692,
+      "step": 1980
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 0.001,
+      "loss": 0.3299,
+      "step": 2000
+    },
+    {
+      "epoch": 5.63,
+      "learning_rate": 0.001,
+      "loss": 0.3714,
+      "step": 2020
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 0.001,
+      "loss": 0.3423,
+      "step": 2040
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 0.001,
+      "loss": 0.3534,
+      "step": 2060
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 0.001,
+      "loss": 0.3426,
+      "step": 2080
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 0.001,
+      "loss": 0.3684,
+      "step": 2100
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 0.001,
+      "loss": 0.3472,
+      "step": 2120
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 0.001,
+      "loss": 0.299,
+      "step": 2140
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.0,
+      "eval_loss": 0.3469391465187073,
+      "eval_runtime": 20.5335,
+      "eval_samples_per_second": 93.311,
+      "eval_steps_per_second": 1.461,
+      "step": 2154
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 0.001,
+      "loss": 0.3336,
+      "step": 2160
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 0.001,
+      "loss": 0.4366,
+      "step": 2180
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 0.001,
+      "loss": 0.3709,
+      "step": 2200
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 0.001,
+      "loss": 0.3357,
+      "step": 2220
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 0.001,
+      "loss": 0.4034,
+      "step": 2240
+    },
+    {
+      "epoch": 6.3,
+      "learning_rate": 0.001,
+      "loss": 0.3868,
+      "step": 2260
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 0.001,
+      "loss": 0.3328,
+      "step": 2280
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 0.001,
+      "loss": 0.3974,
+      "step": 2300
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 0.001,
+      "loss": 0.3707,
+      "step": 2320
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 0.001,
+      "loss": 0.3753,
+      "step": 2340
+    },
+    {
+      "epoch": 6.57,
+      "learning_rate": 0.001,
+      "loss": 0.3255,
+      "step": 2360
+    },
+    {
+      "epoch": 6.63,
+      "learning_rate": 0.001,
+      "loss": 0.4284,
+      "step": 2380
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 0.001,
+      "loss": 0.3699,
+      "step": 2400
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 0.001,
+      "loss": 0.3705,
+      "step": 2420
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 0.001,
+      "loss": 0.2841,
+      "step": 2440
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 0.001,
+      "loss": 0.2687,
+      "step": 2460
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 0.001,
+      "loss": 0.3294,
+      "step": 2480
+    },
+    {
+      "epoch": 6.96,
+      "learning_rate": 0.001,
+      "loss": 0.3531,
+      "step": 2500
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.0,
+      "eval_loss": 0.3420043885707855,
+      "eval_runtime": 20.5195,
+      "eval_samples_per_second": 93.374,
+      "eval_steps_per_second": 1.462,
+      "step": 2513
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 0.001,
+      "loss": 0.3396,
+      "step": 2520
+    },
+    {
+      "epoch": 7.08,
+      "learning_rate": 0.001,
+      "loss": 0.3824,
+      "step": 2540
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 0.001,
+      "loss": 0.2518,
+      "step": 2560
+    },
+    {
+      "epoch": 7.19,
+      "learning_rate": 0.001,
+      "loss": 0.3822,
+      "step": 2580
+    },
+    {
+      "epoch": 7.24,
+      "learning_rate": 0.001,
+      "loss": 0.3969,
+      "step": 2600
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 0.001,
+      "loss": 0.2551,
+      "step": 2620
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 0.001,
+      "loss": 0.3387,
+      "step": 2640
+    },
+    {
+      "epoch": 7.41,
+      "learning_rate": 0.001,
+      "loss": 0.3761,
+      "step": 2660
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 0.001,
+      "loss": 0.3899,
+      "step": 2680
+    },
+    {
+      "epoch": 7.52,
+      "learning_rate": 0.001,
+      "loss": 0.3691,
+      "step": 2700
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 0.001,
+      "loss": 0.3172,
+      "step": 2720
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 0.001,
+      "loss": 0.3358,
+      "step": 2740
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 0.001,
+      "loss": 0.3459,
+      "step": 2760
+    },
+    {
+      "epoch": 7.74,
+      "learning_rate": 0.001,
+      "loss": 0.3347,
+      "step": 2780
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 0.001,
+      "loss": 0.3459,
+      "step": 2800
+    },
+    {
+      "epoch": 7.86,
+      "learning_rate": 0.001,
+      "loss": 0.3797,
+      "step": 2820
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 0.001,
+      "loss": 0.3721,
+      "step": 2840
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 0.001,
+      "loss": 0.3892,
+      "step": 2860
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.0,
+      "eval_loss": 0.34283891320228577,
+      "eval_runtime": 20.5477,
+      "eval_samples_per_second": 93.247,
+      "eval_steps_per_second": 1.46,
+      "step": 2872
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 0.001,
+      "loss": 0.3234,
+      "step": 2880
+    },
+    {
+      "epoch": 8.08,
+      "learning_rate": 0.001,
+      "loss": 0.3979,
+      "step": 2900
+    },
+    {
+      "epoch": 8.13,
+      "learning_rate": 0.001,
+      "loss": 0.4032,
+      "step": 2920
+    },
+    {
+      "epoch": 8.19,
+      "learning_rate": 0.001,
+      "loss": 0.3787,
+      "step": 2940
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 0.001,
+      "loss": 0.3144,
+      "step": 2960
+    },
+    {
+      "epoch": 8.3,
+      "learning_rate": 0.001,
+      "loss": 0.4071,
+      "step": 2980
+    },
+    {
+      "epoch": 8.36,
+      "learning_rate": 0.001,
+      "loss": 0.3192,
+      "step": 3000
+    },
+    {
+      "epoch": 8.41,
+      "learning_rate": 0.001,
+      "loss": 0.3194,
+      "step": 3020
+    },
+    {
+      "epoch": 8.47,
+      "learning_rate": 0.001,
+      "loss": 0.3468,
+      "step": 3040
+    },
+    {
+      "epoch": 8.52,
+      "learning_rate": 0.001,
+      "loss": 0.325,
+      "step": 3060
+    },
+    {
+      "epoch": 8.58,
+      "learning_rate": 0.001,
+      "loss": 0.3631,
+      "step": 3080
+    },
+    {
+      "epoch": 8.64,
+      "learning_rate": 0.001,
+      "loss": 0.3464,
+      "step": 3100
+    },
+    {
+      "epoch": 8.69,
+      "learning_rate": 0.001,
+      "loss": 0.3378,
+      "step": 3120
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 0.001,
+      "loss": 0.3808,
+      "step": 3140
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 0.001,
+      "loss": 0.3668,
+      "step": 3160
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 0.001,
+      "loss": 0.3045,
+      "step": 3180
+    },
+    {
+      "epoch": 8.91,
+      "learning_rate": 0.001,
+      "loss": 0.2805,
+      "step": 3200
+    },
+    {
+      "epoch": 8.97,
+      "learning_rate": 0.001,
+      "loss": 0.3706,
+      "step": 3220
+    },
     {
       "epoch": 9.0,
+      "eval_f1": 0.0,
+      "eval_loss": 0.3420598804950714,
+      "eval_runtime": 20.5266,
+      "eval_samples_per_second": 93.342,
+      "eval_steps_per_second": 1.462,
+      "step": 3231
     },
     {
       "epoch": 9.03,
+      "learning_rate": 0.001,
+      "loss": 0.3502,
+      "step": 3240
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 0.001,
+      "loss": 0.3414,
+      "step": 3260
     },
     {
       "epoch": 9.14,
+      "learning_rate": 0.001,
+      "loss": 0.4037,
+      "step": 3280
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 0.001,
+      "loss": 0.3548,
+      "step": 3300
     },
     {
       "epoch": 9.25,
+      "learning_rate": 0.001,
+      "loss": 0.3426,
+      "step": 3320
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 0.001,
+      "loss": 0.3614,
+      "step": 3340
     },
     {
       "epoch": 9.36,
+      "learning_rate": 0.001,
+      "loss": 0.2505,
+      "step": 3360
+    },
+    {
+      "epoch": 9.42,
+      "learning_rate": 0.001,
+      "loss": 0.402,
+      "step": 3380
     },
     {
       "epoch": 9.47,
+      "learning_rate": 0.001,
+      "loss": 0.3029,
+      "step": 3400
+    },
+    {
+      "epoch": 9.53,
+      "learning_rate": 0.001,
+      "loss": 0.2799,
+      "step": 3420
     },
     {
       "epoch": 9.58,
+      "learning_rate": 0.001,
+      "loss": 0.3046,
+      "step": 3440
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 0.001,
+      "loss": 0.3707,
+      "step": 3460
     },
     {
       "epoch": 9.69,
+      "learning_rate": 0.001,
+      "loss": 0.3417,
+      "step": 3480
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 0.001,
+      "loss": 0.3826,
+      "step": 3500
     },
     {
       "epoch": 9.81,
+      "learning_rate": 0.001,
+      "loss": 0.3658,
+      "step": 3520
     },
     {
+      "epoch": 9.86,
+      "learning_rate": 0.001,
+      "loss": 0.3185,
+      "step": 3540
     },
     {
+      "epoch": 9.92,
+      "learning_rate": 0.001,
+      "loss": 0.3596,
+      "step": 3560
     },
     {
       "epoch": 9.97,
+      "learning_rate": 0.001,
+      "loss": 0.3863,
+      "step": 3580
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1": 0.0,
+      "eval_loss": 0.34448280930519104,
+      "eval_runtime": 20.4875,
+      "eval_samples_per_second": 93.52,
+      "eval_steps_per_second": 1.464,
+      "step": 3590
+    },
+    {
+      "epoch": 10.0,
+      "step": 3590,
+      "total_flos": 3792562624069632.0,
+      "train_loss": 0.3510875488058106,
+      "train_runtime": 3949.5247,
+      "train_samples_per_second": 14.541,
+      "train_steps_per_second": 0.909
     }
   ],
   "logging_steps": 20,
+  "max_steps": 3590,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 3792562624069632.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null