Training in progress, step 50, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51044ef643b45c12a124ddb0b4da87b527181879a188198310c7df33b2eac78d
 size 148047722

 version https://git-lfs.github.com/spec/v1
+oid sha256:b07e8808d03d4e8bc3f492e2196a2a0dca447fb2d1f3b40a965f150bffba728f
 size 148047722

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ebe26dd334fd07fc5c2a1d7f5a73f9349f885bdc46f0038db5083b751906298
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9237382f1e7c62792b8e071da62ba3d2da03f2a4cf5484898e56f4008445b33
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cef7bf070e527a9b5896b7711e9e6af634052f75dbe8f4acb6da29f40d856bc6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d8615f1aeccd0f9873fc0cf2c0322fde20ac202421c015654a471730a5fa755
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0004232947570711389,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 1.866025403784439e-05,
       "loss": 0.0,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3265672092057600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0008465895141422778,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.866025403784439e-05,
       "loss": 0.0,
       "step": 25
+    },
+    {
+      "epoch": 0.00044022654735398445,
+      "grad_norm": NaN,
+      "learning_rate": 1.848048096156426e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.00045715833763683005,
+      "grad_norm": NaN,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.00045715833763683005,
+      "eval_loss": NaN,
+      "eval_runtime": 1939.2011,
+      "eval_samples_per_second": 25.647,
+      "eval_steps_per_second": 3.206,
+      "step": 27
+    },
+    {
+      "epoch": 0.0004740901279196756,
+      "grad_norm": NaN,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.0004910219182025212,
+      "grad_norm": NaN,
+      "learning_rate": 1.788010753606722e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.0005079537084853667,
+      "grad_norm": NaN,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.0005248854987682123,
+      "grad_norm": NaN,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.0005418172890510578,
+      "grad_norm": NaN,
+      "learning_rate": 1.7193398003386514e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.0005587490793339034,
+      "grad_norm": NaN,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.0005756808696167489,
+      "grad_norm": NaN,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.0005926126598995945,
+      "grad_norm": NaN,
+      "learning_rate": 1.6427876096865394e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.00060954445018244,
+      "grad_norm": NaN,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.00060954445018244,
+      "eval_loss": NaN,
+      "eval_runtime": 1939.6183,
+      "eval_samples_per_second": 25.642,
+      "eval_steps_per_second": 3.205,
+      "step": 36
+    },
+    {
+      "epoch": 0.0006264762404652856,
+      "grad_norm": NaN,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.0006434080307481312,
+      "grad_norm": NaN,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.0006603398210309767,
+      "grad_norm": NaN,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.0006772716113138223,
+      "grad_norm": NaN,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.0006942034015966678,
+      "grad_norm": NaN,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.0007111351918795134,
+      "grad_norm": NaN,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.0007280669821623589,
+      "grad_norm": NaN,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.0007449987724452045,
+      "grad_norm": NaN,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.0007619305627280501,
+      "grad_norm": NaN,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.0007619305627280501,
+      "eval_loss": NaN,
+      "eval_runtime": 1938.6726,
+      "eval_samples_per_second": 25.654,
+      "eval_steps_per_second": 3.207,
+      "step": 45
+    },
+    {
+      "epoch": 0.0007788623530108956,
+      "grad_norm": NaN,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.0007957941432937412,
+      "grad_norm": NaN,
+      "learning_rate": 1.2756373558169992e-05,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.0008127259335765867,
+      "grad_norm": NaN,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.0008296577238594323,
+      "grad_norm": NaN,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.0008465895141422778,
+      "grad_norm": NaN,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.0,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6531344184115200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null