Training in progress, step 50, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +210 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8af0d6b1086a49aef2d31d23ab5780a24495378ae0872c9c98ff57e609c344b2
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6d42efacb6ebae8205c8b5fa635169a9fda0316599b000306d2e790e5ebab7c
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5cce30f5051c71508ef13842ca510544ad5db32f727ed0aacc39148ef96b628
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8dccd2209ce0a00fd7d294f9f7e44828a38fbb2c754d6bb490a588c320684b5f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2780c7a8ea8ca5a008997203cab6c9a49a49740b423ff45de4d7032e0ce20792
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d65e9c686bf7672c60c2e716324e2ec3b9e362aa67293892146275e003a9f911
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9615384615384616,
   "eval_steps": 7,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -214,6 +214,213 @@
       "learning_rate": 8.81342589055191e-05,
       "loss": 0.0,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -233,7 +440,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.70943641780224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9230769230769231,
   "eval_steps": 7,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 8.81342589055191e-05,
       "loss": 0.0,
       "step": 25
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": NaN,
+      "learning_rate": 8.657656676318346e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 1.0384615384615385,
+      "grad_norm": NaN,
+      "learning_rate": 8.493847138894209e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "grad_norm": NaN,
+      "learning_rate": 8.322357367194109e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "eval_loss": NaN,
+      "eval_runtime": 4.8674,
+      "eval_samples_per_second": 4.52,
+      "eval_steps_per_second": 0.616,
+      "step": 28
+    },
+    {
+      "epoch": 1.1153846153846154,
+      "grad_norm": NaN,
+      "learning_rate": 8.143564332954425e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": NaN,
+      "learning_rate": 7.957861062067614e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 1.1923076923076923,
+      "grad_norm": NaN,
+      "learning_rate": 7.765655770625997e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": NaN,
+      "learning_rate": 7.56737096757421e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 1.2692307692307692,
+      "grad_norm": NaN,
+      "learning_rate": 7.363442525942826e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 1.3076923076923077,
+      "grad_norm": NaN,
+      "learning_rate": 7.154318724704853e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 1.3461538461538463,
+      "grad_norm": NaN,
+      "learning_rate": 6.940459263361249e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 1.3461538461538463,
+      "eval_loss": NaN,
+      "eval_runtime": 4.8653,
+      "eval_samples_per_second": 4.522,
+      "eval_steps_per_second": 0.617,
+      "step": 35
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "grad_norm": NaN,
+      "learning_rate": 6.722334251421665e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 1.4230769230769231,
+      "grad_norm": NaN,
+      "learning_rate": 6.500423175001705e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 1.4615384615384617,
+      "grad_norm": NaN,
+      "learning_rate": 6.275213842808383e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": NaN,
+      "learning_rate": 6.0472013138307235e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": NaN,
+      "learning_rate": 5.816886809092651e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 1.5769230769230769,
+      "grad_norm": NaN,
+      "learning_rate": 5.584776609860414e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 1.6153846153846154,
+      "grad_norm": NaN,
+      "learning_rate": 5.351380944726465e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 1.6153846153846154,
+      "eval_loss": NaN,
+      "eval_runtime": 4.8664,
+      "eval_samples_per_second": 4.521,
+      "eval_steps_per_second": 0.616,
+      "step": 42
+    },
+    {
+      "epoch": 1.6538461538461537,
+      "grad_norm": NaN,
+      "learning_rate": 5.117212868016303e-05,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "grad_norm": NaN,
+      "learning_rate": 4.882787131983698e-05,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 1.7307692307692308,
+      "grad_norm": NaN,
+      "learning_rate": 4.648619055273537e-05,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 1.7692307692307692,
+      "grad_norm": NaN,
+      "learning_rate": 4.415223390139588e-05,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 1.8076923076923077,
+      "grad_norm": NaN,
+      "learning_rate": 4.183113190907349e-05,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "grad_norm": NaN,
+      "learning_rate": 3.952798686169279e-05,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 1.8846153846153846,
+      "grad_norm": NaN,
+      "learning_rate": 3.7247861571916185e-05,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 1.8846153846153846,
+      "eval_loss": NaN,
+      "eval_runtime": 4.8653,
+      "eval_samples_per_second": 4.522,
+      "eval_steps_per_second": 0.617,
+      "step": 49
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": NaN,
+      "learning_rate": 3.499576824998298e-05,
+      "loss": 0.0,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.363231289337446e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null