Training in progress, step 500, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37cf3369fc4b4dddec6b9e317be776ded9712a8b15466e0d98ba0bf3e66afe57
 size 251748704

 version https://git-lfs.github.com/spec/v1
+oid sha256:da7e2146353d9fd2a532755bf7672797e1ed57b0b3e93e08037d7e993489d6d6
 size 251748704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83bd32947a229874ca5ba692cc6fb122702696c30165573bcc776cd8f51d33ec
 size 128585300

 version https://git-lfs.github.com/spec/v1
+oid sha256:18a6179f15e70cb7394c34d0273c738d6d74622f6be61454e60462c3ccb73981
 size 128585300

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ad549467aee21b1d7841355db396e8f80727b2cce0c91d316fca55cfd3f145e
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:57cb7d09666fef2e8e761f6393442ac69abb04449214d7bb5b7350c3a8e5782e
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6aabdae8fa17d1f82073d1f2d4117f3b2c974d593012d8b40bf05683705e1d30
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:fad0704765a7d399647cc820ef5379f92859ca86bec18c0f64043e248a12aa6f
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89849a77ec6561cbbf56f2e2c9c58d90b30d57d1de75d3864248f6cbf0735630
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ead883fd0847181215695597ad4b86ee178fbfd5e61058420e28111eb302c6f
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdb8f124b2e4b7af08f331fbd2f11e354c981be3f4ab87e1dc330486d9d9d31d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9d977c0648dd0b7c55de3e6a8c311c70942568b8992246f8fa43bef1aca958d
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9a75ab01cc15879cd61ff8e586fb370a9b8a51bf7b319e44e27d87274e2e703
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e87d47519e32af310d5ce258e0454d331221391a1b9ee9143859120658f7a9a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.6267605633802817,
   "eval_steps": 42,
-  "global_step": 462,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1181,6 +1181,90 @@
       "eval_samples_per_second": 57.055,
       "eval_steps_per_second": 1.789,
       "step": 462
     }
   ],
   "logging_steps": 3,
@@ -1195,12 +1279,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.874337732541022e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.76056338028169,
   "eval_steps": 42,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.055,
       "eval_steps_per_second": 1.789,
       "step": 462
+    },
+    {
+      "epoch": 1.637323943661972,
+      "grad_norm": 1.6809414625167847,
+      "learning_rate": 6.268021954544096e-07,
+      "loss": 0.4512,
+      "step": 465
+    },
+    {
+      "epoch": 1.647887323943662,
+      "grad_norm": 1.5099436044692993,
+      "learning_rate": 5.243166291926782e-07,
+      "loss": 0.4482,
+      "step": 468
+    },
+    {
+      "epoch": 1.658450704225352,
+      "grad_norm": 1.7300583124160767,
+      "learning_rate": 4.308857100999042e-07,
+      "loss": 0.465,
+      "step": 471
+    },
+    {
+      "epoch": 1.6690140845070423,
+      "grad_norm": 1.4459805488586426,
+      "learning_rate": 3.465440024411265e-07,
+      "loss": 0.4559,
+      "step": 474
+    },
+    {
+      "epoch": 1.6795774647887325,
+      "grad_norm": 1.5714209079742432,
+      "learning_rate": 2.7132270797659563e-07,
+      "loss": 0.4662,
+      "step": 477
+    },
+    {
+      "epoch": 1.6901408450704225,
+      "grad_norm": 1.716829776763916,
+      "learning_rate": 2.052496544188487e-07,
+      "loss": 0.4866,
+      "step": 480
+    },
+    {
+      "epoch": 1.7007042253521125,
+      "grad_norm": 1.6884804964065552,
+      "learning_rate": 1.483492851379914e-07,
+      "loss": 0.4441,
+      "step": 483
+    },
+    {
+      "epoch": 1.711267605633803,
+      "grad_norm": 1.439448356628418,
+      "learning_rate": 1.006426501190233e-07,
+      "loss": 0.4588,
+      "step": 486
+    },
+    {
+      "epoch": 1.721830985915493,
+      "grad_norm": 1.6845688819885254,
+      "learning_rate": 6.214739817448633e-08,
+      "loss": 0.4704,
+      "step": 489
+    },
+    {
+      "epoch": 1.732394366197183,
+      "grad_norm": 2.208343029022217,
+      "learning_rate": 3.287777041539042e-08,
+      "loss": 0.469,
+      "step": 492
+    },
+    {
+      "epoch": 1.7429577464788732,
+      "grad_norm": 1.6495448350906372,
+      "learning_rate": 1.284459498280266e-08,
+      "loss": 0.4331,
+      "step": 495
+    },
+    {
+      "epoch": 1.7535211267605635,
+      "grad_norm": 1.6916940212249756,
+      "learning_rate": 2.055283042018408e-09,
+      "loss": 0.466,
+      "step": 498
     }
   ],
   "logging_steps": 3,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.193006204764553e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null