Training in progress, step 50, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab1f3291a5fac553951da3756f930f489e853d9bd454687e767bba7fec2ee217
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:d93ec8d2a1e913cd4e8ec03aac54923626b35716b53a6e34f08ddda55428e14b
 size 671466706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a6bd5790e785828dafcfa0562336ca0b0963f2374bf541e2b20bff540d095f1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:58b14309b3685facd462070072dcbf2c924f69066f5f72ca840eddd0eb325e00
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3f6891a2dad4098258cacbb534eda6cb23344f32c27a937c7da2508a5fd6662
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef593f391c66ba3ea6e8dea3b2aa8e19ae1f574e3c6a18c96ee14293016120aa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09276437847866419,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 9.508,
       "eval_steps_per_second": 4.754,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.76890476232704e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.18552875695732837,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.508,
       "eval_steps_per_second": 4.754,
       "step": 25
+    },
+    {
+      "epoch": 0.09647495361781076,
+      "grad_norm": NaN,
+      "learning_rate": 3.84324902086706e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.10018552875695733,
+      "grad_norm": NaN,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.1038961038961039,
+      "grad_norm": NaN,
+      "learning_rate": 3.654371533087586e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.10760667903525047,
+      "grad_norm": NaN,
+      "learning_rate": 3.556545654351749e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.11131725417439703,
+      "grad_norm": NaN,
+      "learning_rate": 3.456708580912725e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.1150278293135436,
+      "grad_norm": NaN,
+      "learning_rate": 3.355050358314172e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.11873840445269017,
+      "grad_norm": NaN,
+      "learning_rate": 3.251764498760683e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.12244897959183673,
+      "grad_norm": NaN,
+      "learning_rate": 3.147047612756302e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.1261595547309833,
+      "grad_norm": NaN,
+      "learning_rate": 3.0410990348452573e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.12987012987012986,
+      "grad_norm": NaN,
+      "learning_rate": 2.9341204441673266e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.13358070500927643,
+      "grad_norm": NaN,
+      "learning_rate": 2.8263154805501297e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.137291280148423,
+      "grad_norm": NaN,
+      "learning_rate": 2.717889356869146e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.14100185528756956,
+      "grad_norm": NaN,
+      "learning_rate": 2.6090484684133404e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.14471243042671614,
+      "grad_norm": NaN,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.14842300556586271,
+      "grad_norm": NaN,
+      "learning_rate": 2.3909515315866605e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.15213358070500926,
+      "grad_norm": NaN,
+      "learning_rate": 2.2821106431308544e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.15584415584415584,
+      "grad_norm": NaN,
+      "learning_rate": 2.173684519449872e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.15955473098330242,
+      "grad_norm": NaN,
+      "learning_rate": 2.0658795558326743e-05,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "grad_norm": NaN,
+      "learning_rate": 1.958900965154743e-05,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.16697588126159554,
+      "grad_norm": NaN,
+      "learning_rate": 1.852952387243698e-05,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.17068645640074212,
+      "grad_norm": NaN,
+      "learning_rate": 1.7482355012393177e-05,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.17439703153988867,
+      "grad_norm": NaN,
+      "learning_rate": 1.6449496416858284e-05,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.17810760667903525,
+      "grad_norm": NaN,
+      "learning_rate": 1.5432914190872757e-05,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.18181818181818182,
+      "grad_norm": NaN,
+      "learning_rate": 1.443454345648252e-05,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.18552875695732837,
+      "grad_norm": NaN,
+      "learning_rate": 1.3456284669124158e-05,
+      "loss": 0.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.18552875695732837,
+      "eval_loss": NaN,
+      "eval_runtime": 11.9855,
+      "eval_samples_per_second": 9.512,
+      "eval_steps_per_second": 4.756,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.53780952465408e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null