Training in progress, step 10256, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +124 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f7653236f02b691ce82a2a43417c83d3377d27624301a0130d41eb494a00cac
 size 903834408

 version https://git-lfs.github.com/spec/v1
+oid sha256:be8f064d453a57ea7273970350761d964c9807f1c078006d860d03a3b99aecd4
 size 903834408

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a6bd0efd5540f662ed66fd619970292bdab172c0361f8d5b2102b5707a107f7
 size 1807824186

 version https://git-lfs.github.com/spec/v1
+oid sha256:12874bf81eb0524d19891bca2ddcc85a7634979c700dd291ce0217fc58255786
 size 1807824186

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15c770040b9aeae6fdfeacf1de73c2a84a5bb50f203a810f2a9b404ddfe1daa6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed797abbb6e575252328647d2519975ca5213c166e33893bf2b6cbc2d2b0579d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a669e3de694f575fc5fe2b31bd21c056c9b69b5d3d6d1d403d2181bc0a961d8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:075aea1ae34d22fd6b751b1b0ff5783a336ded95b0d65058f0b4391e6f395a77
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.661979797979798,
   "eval_steps": 16,
-  "global_step": 10240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -77447,6 +77447,127 @@
       "eval_samples_per_second": 11.726,
       "eval_steps_per_second": 1.466,
       "step": 10240
     }
   ],
   "logging_steps": 1,
@@ -77466,7 +77587,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.995433215787008e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6630141414141414,
   "eval_steps": 16,
+  "global_step": 10256,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.726,
       "eval_steps_per_second": 1.466,
       "step": 10240
+    },
+    {
+      "epoch": 0.6620444444444444,
+      "grad_norm": 0.049845460802316666,
+      "learning_rate": 0.00017849373338296403,
+      "loss": 0.0913,
+      "step": 10241
+    },
+    {
+      "epoch": 0.6621090909090909,
+      "grad_norm": 0.0473443903028965,
+      "learning_rate": 0.00017848949616165787,
+      "loss": 0.0742,
+      "step": 10242
+    },
+    {
+      "epoch": 0.6621737373737374,
+      "grad_norm": 0.05419163033366203,
+      "learning_rate": 0.0001784852585732823,
+      "loss": 0.0863,
+      "step": 10243
+    },
+    {
+      "epoch": 0.6622383838383838,
+      "grad_norm": 0.06253422796726227,
+      "learning_rate": 0.00017848102061785709,
+      "loss": 0.1065,
+      "step": 10244
+    },
+    {
+      "epoch": 0.6623030303030303,
+      "grad_norm": 0.057101961225271225,
+      "learning_rate": 0.0001784767822954021,
+      "loss": 0.1016,
+      "step": 10245
+    },
+    {
+      "epoch": 0.6623676767676767,
+      "grad_norm": 0.06272678822278976,
+      "learning_rate": 0.00017847254360593717,
+      "loss": 0.0794,
+      "step": 10246
+    },
+    {
+      "epoch": 0.6624323232323233,
+      "grad_norm": 0.051759131252765656,
+      "learning_rate": 0.00017846830454948208,
+      "loss": 0.0738,
+      "step": 10247
+    },
+    {
+      "epoch": 0.6624969696969697,
+      "grad_norm": 0.05439075082540512,
+      "learning_rate": 0.00017846406512605668,
+      "loss": 0.0944,
+      "step": 10248
+    },
+    {
+      "epoch": 0.6625616161616161,
+      "grad_norm": 0.05330037698149681,
+      "learning_rate": 0.00017845982533568075,
+      "loss": 0.088,
+      "step": 10249
+    },
+    {
+      "epoch": 0.6626262626262627,
+      "grad_norm": 0.04516725614666939,
+      "learning_rate": 0.0001784555851783742,
+      "loss": 0.0759,
+      "step": 10250
+    },
+    {
+      "epoch": 0.6626909090909091,
+      "grad_norm": 0.054199665784835815,
+      "learning_rate": 0.0001784513446541568,
+      "loss": 0.0869,
+      "step": 10251
+    },
+    {
+      "epoch": 0.6627555555555555,
+      "grad_norm": 0.05711120367050171,
+      "learning_rate": 0.0001784471037630484,
+      "loss": 0.0828,
+      "step": 10252
+    },
+    {
+      "epoch": 0.662820202020202,
+      "grad_norm": 0.049388039857149124,
+      "learning_rate": 0.00017844286250506884,
+      "loss": 0.0858,
+      "step": 10253
+    },
+    {
+      "epoch": 0.6628848484848485,
+      "grad_norm": 0.04961549863219261,
+      "learning_rate": 0.0001784386208802379,
+      "loss": 0.0852,
+      "step": 10254
+    },
+    {
+      "epoch": 0.662949494949495,
+      "grad_norm": 0.05711861327290535,
+      "learning_rate": 0.0001784343788885755,
+      "loss": 0.0849,
+      "step": 10255
+    },
+    {
+      "epoch": 0.6630141414141414,
+      "grad_norm": 0.06972243636846542,
+      "learning_rate": 0.00017843013653010144,
+      "loss": 0.1039,
+      "step": 10256
+    },
+    {
+      "epoch": 0.6630141414141414,
+      "eval_bleu": 20.086468326664342,
+      "eval_loss": 0.08900181949138641,
+      "eval_runtime": 2.8036,
+      "eval_samples_per_second": 11.414,
+      "eval_steps_per_second": 1.427,
+      "step": 10256
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.9985510801866752e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null