Training in progress, step 75, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +187 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aef52bb299e989df98e293355641ff56dc3a3e43a68926d02328af9171900eec
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:927b70515d71d761066d3e8cf3e6ec17dfc6987f270a5cafa7b3b45b31563581
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2929a1f5926125f075599864651f213cb0ffd692b2f4fe9b76cd41ba35562cc
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:079fa1d3573929787a559e6460428d2d087083b3e5bb6422066ad7c05e458209
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f84c0dab2299268ee9a680624db586d3e2841d6716a98e1cfe7418659efd4637
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a344bcc487e7bd2a6ee772796d141be53ba466f96ce15e329f1066a974a95cda
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50be61d909f587455365584b393b87dd8622c8e62afb45a0896539b949481051
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4459f3858249cfc247b449aa6204b52fa84b77dce40d49915bf419abf9709f90
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f62d2d7fbdbcf21a71afc7305b03d21c03157d469d6b4bb2e802fdb1e8bc9fc1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1677ef4dbf92cc272114334b351200ed0ea6680dd1fddbe096e6a000844d7d0
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50358e6ae175bd80bfe3762f58f91387f2ddf0abb474b86adfe6e0bd5fd6b2c6
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:be336d25d45e6355bdf2e2723edb66c6dd1840e12ab5369def73cecc8ec4c63c
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46fa8207e86dee7d50b0ab12f1dd18c4426e8c65d06f97f8b2bd004a747e9cfa
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:212837ccb433e5430b061dc107b19dc09e932e6cfb62a751187d0903b7b0d94e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.015958507879513265,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 36.808,
       "eval_steps_per_second": 4.604,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -395,12 +578,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.984041808658432e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.023937761819269897,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 36.808,
       "eval_steps_per_second": 4.604,
       "step": 50
+    },
+    {
+      "epoch": 0.016277678037103532,
+      "grad_norm": 0.7061015367507935,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0273,
+      "step": 51
+    },
+    {
+      "epoch": 0.016596848194693797,
+      "grad_norm": 1.4263066053390503,
+      "learning_rate": 2.3135019582658802e-05,
+      "loss": 0.0627,
+      "step": 52
+    },
+    {
+      "epoch": 0.01691601835228406,
+      "grad_norm": 3.364551544189453,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 0.0422,
+      "step": 53
+    },
+    {
+      "epoch": 0.017235188509874325,
+      "grad_norm": 0.22881293296813965,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 0.0025,
+      "step": 54
+    },
+    {
+      "epoch": 0.017554358667464593,
+      "grad_norm": 3.359604597091675,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.0986,
+      "step": 55
+    },
+    {
+      "epoch": 0.017873528825054857,
+      "grad_norm": 1.4804641008377075,
+      "learning_rate": 1.622048961921699e-05,
+      "loss": 0.014,
+      "step": 56
+    },
+    {
+      "epoch": 0.01819269898264512,
+      "grad_norm": 0.19417449831962585,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.0026,
+      "step": 57
+    },
+    {
+      "epoch": 0.01851186914023539,
+      "grad_norm": 0.15018554031848907,
+      "learning_rate": 1.3136133159493802e-05,
+      "loss": 0.002,
+      "step": 58
+    },
+    {
+      "epoch": 0.018831039297825654,
+      "grad_norm": 1.6474734544754028,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.0157,
+      "step": 59
+    },
+    {
+      "epoch": 0.019150209455415918,
+      "grad_norm": 1.0258785486221313,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 0.0088,
+      "step": 60
+    },
+    {
+      "epoch": 0.019469379613006182,
+      "grad_norm": 1.42870032787323,
+      "learning_rate": 9.042397785550405e-06,
+      "loss": 0.083,
+      "step": 61
+    },
+    {
+      "epoch": 0.01978854977059645,
+      "grad_norm": 2.3368937969207764,
+      "learning_rate": 7.830427709355725e-06,
+      "loss": 0.0441,
+      "step": 62
+    },
+    {
+      "epoch": 0.020107719928186715,
+      "grad_norm": 2.7078840732574463,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.1096,
+      "step": 63
+    },
+    {
+      "epoch": 0.02042689008577698,
+      "grad_norm": 0.5454818606376648,
+      "learning_rate": 5.649458341088915e-06,
+      "loss": 0.0041,
+      "step": 64
+    },
+    {
+      "epoch": 0.020746060243367247,
+      "grad_norm": 2.5583629608154297,
+      "learning_rate": 4.684610648167503e-06,
+      "loss": 0.0481,
+      "step": 65
+    },
+    {
+      "epoch": 0.02106523040095751,
+      "grad_norm": 1.2198500633239746,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 0.0182,
+      "step": 66
+    },
+    {
+      "epoch": 0.021384400558547775,
+      "grad_norm": 3.154790163040161,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.0193,
+      "step": 67
+    },
+    {
+      "epoch": 0.02170357071613804,
+      "grad_norm": 0.5123023390769958,
+      "learning_rate": 2.314152462588659e-06,
+      "loss": 0.0056,
+      "step": 68
+    },
+    {
+      "epoch": 0.022022740873728307,
+      "grad_norm": 1.2270593643188477,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 0.0547,
+      "step": 69
+    },
+    {
+      "epoch": 0.022341911031318572,
+      "grad_norm": 1.1699939966201782,
+      "learning_rate": 1.1851996440033319e-06,
+      "loss": 0.112,
+      "step": 70
+    },
+    {
+      "epoch": 0.022661081188908836,
+      "grad_norm": 2.3367903232574463,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.0669,
+      "step": 71
+    },
+    {
+      "epoch": 0.022980251346499104,
+      "grad_norm": 0.013470455072820187,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 0.0003,
+      "step": 72
+    },
+    {
+      "epoch": 0.023299421504089368,
+      "grad_norm": 3.0410115718841553,
+      "learning_rate": 1.9026509541272275e-07,
+      "loss": 0.0349,
+      "step": 73
+    },
+    {
+      "epoch": 0.023618591661679633,
+      "grad_norm": 1.0063241720199585,
+      "learning_rate": 4.7588920907110094e-08,
+      "loss": 0.0092,
+      "step": 74
+    },
+    {
+      "epoch": 0.023937761819269897,
+      "grad_norm": 1.7765662670135498,
+      "learning_rate": 0.0,
+      "loss": 0.0721,
+      "step": 75
+    },
+    {
+      "epoch": 0.023937761819269897,
+      "eval_loss": 0.026059947907924652,
+      "eval_runtime": 286.7265,
+      "eval_samples_per_second": 36.809,
+      "eval_steps_per_second": 4.604,
+      "step": 75
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.476062712987648e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null