Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f507a9c9592a8a0c2e8ae9eb4ac4dac2e2a38c6c843b094dde0d6a48baca3b16
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea7c5b9ac5a53283544898ab9bf46878321be7391cda61d6ab5aff88e1174e3d
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:970d283530b9a3051cc0b61bfef10c1c7e98a961222ef0a67c7e28337acffb53
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:226365cd61a8e4ebda26796acb62be184f868d16e19c0102b01f30240121ef45
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f8e5ed923d081d691bbd914665583b8046f8946ab3842a1e06975493ff2a92b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:95d4a46c32182b77eb6e0dba383eb0c620d99352cc39371a0c21093a064ee62d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1984126984126984,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.2512,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.966001301435187e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3968253968253968,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.2512,
       "step": 25
+    },
+    {
+      "epoch": 0.20634920634920634,
+      "grad_norm": 0.482608437538147,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.2392,
+      "step": 26
+    },
+    {
+      "epoch": 0.21428571428571427,
+      "grad_norm": 0.35353580117225647,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.232,
+      "step": 27
+    },
+    {
+      "epoch": 0.21428571428571427,
+      "eval_loss": 0.23887650668621063,
+      "eval_runtime": 11.7951,
+      "eval_samples_per_second": 8.987,
+      "eval_steps_per_second": 1.187,
+      "step": 27
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 0.5033824443817139,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.2169,
+      "step": 28
+    },
+    {
+      "epoch": 0.23015873015873015,
+      "grad_norm": 0.4087642431259155,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.2463,
+      "step": 29
+    },
+    {
+      "epoch": 0.23809523809523808,
+      "grad_norm": 0.3605215549468994,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.2425,
+      "step": 30
+    },
+    {
+      "epoch": 0.24603174603174602,
+      "grad_norm": 0.2426234781742096,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.2237,
+      "step": 31
+    },
+    {
+      "epoch": 0.25396825396825395,
+      "grad_norm": 0.4276462197303772,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.263,
+      "step": 32
+    },
+    {
+      "epoch": 0.2619047619047619,
+      "grad_norm": 0.3156845271587372,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.2098,
+      "step": 33
+    },
+    {
+      "epoch": 0.2698412698412698,
+      "grad_norm": 0.22470353543758392,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.1993,
+      "step": 34
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 0.23595388233661652,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.2161,
+      "step": 35
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 0.3054620325565338,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.2123,
+      "step": 36
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "eval_loss": 0.22184596955776215,
+      "eval_runtime": 11.7876,
+      "eval_samples_per_second": 8.993,
+      "eval_steps_per_second": 1.188,
+      "step": 36
+    },
+    {
+      "epoch": 0.29365079365079366,
+      "grad_norm": 0.42485561966896057,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.2481,
+      "step": 37
+    },
+    {
+      "epoch": 0.30158730158730157,
+      "grad_norm": 0.25488778948783875,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.2089,
+      "step": 38
+    },
+    {
+      "epoch": 0.30952380952380953,
+      "grad_norm": 0.22732485830783844,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.2151,
+      "step": 39
+    },
+    {
+      "epoch": 0.31746031746031744,
+      "grad_norm": 0.569657027721405,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.1922,
+      "step": 40
+    },
+    {
+      "epoch": 0.3253968253968254,
+      "grad_norm": 0.27273625135421753,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.2203,
+      "step": 41
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 0.547612726688385,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.2446,
+      "step": 42
+    },
+    {
+      "epoch": 0.3412698412698413,
+      "grad_norm": 0.3911803364753723,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.2097,
+      "step": 43
+    },
+    {
+      "epoch": 0.3492063492063492,
+      "grad_norm": 0.34991058707237244,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.1864,
+      "step": 44
+    },
+    {
+      "epoch": 0.35714285714285715,
+      "grad_norm": 0.41730400919914246,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.2209,
+      "step": 45
+    },
+    {
+      "epoch": 0.35714285714285715,
+      "eval_loss": 0.2063593566417694,
+      "eval_runtime": 11.7486,
+      "eval_samples_per_second": 9.022,
+      "eval_steps_per_second": 1.192,
+      "step": 45
+    },
+    {
+      "epoch": 0.36507936507936506,
+      "grad_norm": 0.48006361722946167,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.2276,
+      "step": 46
+    },
+    {
+      "epoch": 0.373015873015873,
+      "grad_norm": 0.3670620322227478,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.2313,
+      "step": 47
+    },
+    {
+      "epoch": 0.38095238095238093,
+      "grad_norm": 0.29657959938049316,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.2078,
+      "step": 48
+    },
+    {
+      "epoch": 0.3888888888888889,
+      "grad_norm": 0.40728524327278137,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.1976,
+      "step": 49
+    },
+    {
+      "epoch": 0.3968253968253968,
+      "grad_norm": 0.3712082803249359,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.2026,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.894908238692352e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null