Training in progress, step 110, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +396 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:deaa6651c7c06de681b23dcebce9459a1e830e70b211ad7fd3ed849a360ff938
 size 70667778

 version https://git-lfs.github.com/spec/v1
+oid sha256:66b50de734a57f4149204459b0eefa71c0b46be714bf3a2829837139b5a1c454
 size 70667778

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12f5aa55c8c4dd49cd2ccb618574d192e6bf1a5587c9b47a069fbbdf875c9146
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4985f63a234e94e52ce70f511ff64b319d639bd89932962250d34e37660950a
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf10801a5c3fe95327ebecdc6eec498b723c058feaee6fd0a04e14f6f3ae4d9a
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c561f324290309be40e4f19d025d41391083141eb974d31c9a22d1421f84d13
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b471cb5232df4f036bde3d8d8209d643af43eb7d1db0d73599ff342ee9cddde1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a700d7c88dac270d972078db7e3edfc0fcb4e737d0f2a4361488c55daa58ece
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2491506228765572,
   "eval_steps": 55,
-  "global_step": 55,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -408,6 +408,399 @@
       "eval_samples_per_second": 21.963,
       "eval_steps_per_second": 5.491,
       "step": 55
     }
   ],
   "logging_steps": 1,
@@ -427,7 +820,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7930497309081600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4983012457531144,
   "eval_steps": 55,
+  "global_step": 110,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.963,
       "eval_steps_per_second": 5.491,
       "step": 55
+    },
+    {
+      "epoch": 0.2536806342015855,
+      "grad_norm": NaN,
+      "learning_rate": 9.96929568447637e-05,
+      "loss": 0.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.2582106455266138,
+      "grad_norm": NaN,
+      "learning_rate": 9.958223477553714e-05,
+      "loss": 0.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.2627406568516421,
+      "grad_norm": NaN,
+      "learning_rate": 9.94545804185573e-05,
+      "loss": 0.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.26727066817667045,
+      "grad_norm": NaN,
+      "learning_rate": 9.931003736767013e-05,
+      "loss": 0.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.2718006795016987,
+      "grad_norm": NaN,
+      "learning_rate": 9.91486549841951e-05,
+      "loss": 0.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.27633069082672707,
+      "grad_norm": NaN,
+      "learning_rate": 9.89704883800683e-05,
+      "loss": 0.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.2808607021517554,
+      "grad_norm": NaN,
+      "learning_rate": 9.877559839902184e-05,
+      "loss": 0.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.2853907134767837,
+      "grad_norm": NaN,
+      "learning_rate": 9.85640515958057e-05,
+      "loss": 0.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.289920724801812,
+      "grad_norm": NaN,
+      "learning_rate": 9.833592021345937e-05,
+      "loss": 0.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.2944507361268403,
+      "grad_norm": NaN,
+      "learning_rate": 9.809128215864097e-05,
+      "loss": 0.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.29898074745186864,
+      "grad_norm": NaN,
+      "learning_rate": 9.783022097502204e-05,
+      "loss": 0.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.3035107587768969,
+      "grad_norm": NaN,
+      "learning_rate": 9.755282581475769e-05,
+      "loss": 0.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.30804077010192527,
+      "grad_norm": NaN,
+      "learning_rate": 9.725919140804099e-05,
+      "loss": 0.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.31257078142695355,
+      "grad_norm": NaN,
+      "learning_rate": 9.694941803075283e-05,
+      "loss": 0.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.3171007927519819,
+      "grad_norm": NaN,
+      "learning_rate": 9.662361147021779e-05,
+      "loss": 0.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.32163080407701017,
+      "grad_norm": NaN,
+      "learning_rate": 9.628188298907782e-05,
+      "loss": 0.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.3261608154020385,
+      "grad_norm": NaN,
+      "learning_rate": 9.592434928729616e-05,
+      "loss": 0.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.33069082672706684,
+      "grad_norm": NaN,
+      "learning_rate": 9.555113246230442e-05,
+      "loss": 0.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.3352208380520951,
+      "grad_norm": NaN,
+      "learning_rate": 9.516235996730645e-05,
+      "loss": 0.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.33975084937712347,
+      "grad_norm": NaN,
+      "learning_rate": 9.475816456775313e-05,
+      "loss": 0.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.34428086070215175,
+      "grad_norm": NaN,
+      "learning_rate": 9.43386842960031e-05,
+      "loss": 0.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.3488108720271801,
+      "grad_norm": NaN,
+      "learning_rate": 9.39040624041849e-05,
+      "loss": 0.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.35334088335220837,
+      "grad_norm": NaN,
+      "learning_rate": 9.345444731527642e-05,
+      "loss": 0.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.3578708946772367,
+      "grad_norm": NaN,
+      "learning_rate": 9.298999257241863e-05,
+      "loss": 0.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.362400906002265,
+      "grad_norm": NaN,
+      "learning_rate": 9.251085678648072e-05,
+      "loss": 0.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.3669309173272933,
+      "grad_norm": NaN,
+      "learning_rate": 9.201720358189464e-05,
+      "loss": 0.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.3714609286523216,
+      "grad_norm": NaN,
+      "learning_rate": 9.150920154077754e-05,
+      "loss": 0.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.37599093997734995,
+      "grad_norm": NaN,
+      "learning_rate": 9.098702414536107e-05,
+      "loss": 0.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.38052095130237823,
+      "grad_norm": NaN,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.38505096262740657,
+      "grad_norm": NaN,
+      "learning_rate": 8.9900861364012e-05,
+      "loss": 0.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.3895809739524349,
+      "grad_norm": NaN,
+      "learning_rate": 8.933724690167417e-05,
+      "loss": 0.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.3941109852774632,
+      "grad_norm": NaN,
+      "learning_rate": 8.876019880555649e-05,
+      "loss": 0.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.3986409966024915,
+      "grad_norm": NaN,
+      "learning_rate": 8.816991413705516e-05,
+      "loss": 0.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.4031710079275198,
+      "grad_norm": NaN,
+      "learning_rate": 8.756659447784368e-05,
+      "loss": 0.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.40770101925254815,
+      "grad_norm": NaN,
+      "learning_rate": 8.695044586103296e-05,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.41223103057757643,
+      "grad_norm": NaN,
+      "learning_rate": 8.632167870081121e-05,
+      "loss": 0.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.41676104190260477,
+      "grad_norm": NaN,
+      "learning_rate": 8.568050772058762e-05,
+      "loss": 0.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.42129105322763305,
+      "grad_norm": NaN,
+      "learning_rate": 8.502715187966455e-05,
+      "loss": 0.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.4258210645526614,
+      "grad_norm": NaN,
+      "learning_rate": 8.436183429846313e-05,
+      "loss": 0.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.43035107587768967,
+      "grad_norm": NaN,
+      "learning_rate": 8.368478218232787e-05,
+      "loss": 0.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.434881087202718,
+      "grad_norm": NaN,
+      "learning_rate": 8.299622674393614e-05,
+      "loss": 0.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.43941109852774635,
+      "grad_norm": NaN,
+      "learning_rate": 8.229640312433937e-05,
+      "loss": 0.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.44394110985277463,
+      "grad_norm": NaN,
+      "learning_rate": 8.158555031266254e-05,
+      "loss": 0.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.44847112117780297,
+      "grad_norm": NaN,
+      "learning_rate": 8.086391106448965e-05,
+      "loss": 0.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.45300113250283125,
+      "grad_norm": NaN,
+      "learning_rate": 8.013173181896283e-05,
+      "loss": 0.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.4575311438278596,
+      "grad_norm": NaN,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.46206115515288787,
+      "grad_norm": NaN,
+      "learning_rate": 7.863675700402526e-05,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.4665911664779162,
+      "grad_norm": NaN,
+      "learning_rate": 7.787447196714427e-05,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.4711211778029445,
+      "grad_norm": NaN,
+      "learning_rate": 7.710266782362247e-05,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.47565118912797283,
+      "grad_norm": NaN,
+      "learning_rate": 7.63216081438678e-05,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.4801812004530011,
+      "grad_norm": NaN,
+      "learning_rate": 7.553155965904535e-05,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.48471121177802945,
+      "grad_norm": NaN,
+      "learning_rate": 7.473279216998895e-05,
+      "loss": 0.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.48924122310305773,
+      "grad_norm": NaN,
+      "learning_rate": 7.392557845506432e-05,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.49377123442808607,
+      "grad_norm": NaN,
+      "learning_rate": 7.311019417701566e-05,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.4983012457531144,
+      "grad_norm": NaN,
+      "learning_rate": 7.228691778882693e-05,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.4983012457531144,
+      "eval_loss": NaN,
+      "eval_runtime": 16.8907,
+      "eval_samples_per_second": 22.024,
+      "eval_steps_per_second": 5.506,
+      "step": 110
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.58609946181632e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null