Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd25958b792b9be187b3b97f1c454549bc3e316781fb999d43a7f87847fa389a
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a14e964e8b864305ea78a7fdeafb5078259c7f289105ca5d77633d942f52362
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93a6670b4f9850b4c010672e4a40e36404df95450fc1cee5cce4eadf88a0ed3a
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a9a70b54575abd23d9b4b2b09933073ae02d0d6c76cee2d518e36c614491ec8
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a52cc4d16c843b569d6d5d048b2827f69a8d46354ca0a4d8a8faaf5b0a25a8ff
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a82070ffe55ccbf8a10ae05c44e293986e51c38a62e2b8b84945035270d2adeb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f7e91af1a79d7676619e959cc4b5dde54a9e2ec825d24c1c34fe5387a27894f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d914dc409ae93ac75985631a9974025ebaa397f621307eef226e7d6e1076a1f6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0198373338623289,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 4.978,
       "eval_steps_per_second": 2.489,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.26729100951552e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0396746677246578,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.978,
       "eval_steps_per_second": 2.489,
       "step": 25
+    },
+    {
+      "epoch": 0.020630827216822058,
+      "grad_norm": 3.8264613151550293,
+      "learning_rate": 0.0001537299608346824,
+      "loss": 2.9965,
+      "step": 26
+    },
+    {
+      "epoch": 0.021424320571315214,
+      "grad_norm": 4.253182411193848,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 2.9774,
+      "step": 27
+    },
+    {
+      "epoch": 0.02221781392580837,
+      "grad_norm": 3.146336555480957,
+      "learning_rate": 0.00014617486132350343,
+      "loss": 2.9017,
+      "step": 28
+    },
+    {
+      "epoch": 0.023011307280301527,
+      "grad_norm": 2.462265968322754,
+      "learning_rate": 0.00014226182617406996,
+      "loss": 2.7964,
+      "step": 29
+    },
+    {
+      "epoch": 0.023804800634794683,
+      "grad_norm": 4.6121673583984375,
+      "learning_rate": 0.000138268343236509,
+      "loss": 3.0148,
+      "step": 30
+    },
+    {
+      "epoch": 0.02459829398928784,
+      "grad_norm": 2.4022810459136963,
+      "learning_rate": 0.00013420201433256689,
+      "loss": 2.7315,
+      "step": 31
+    },
+    {
+      "epoch": 0.025391787343780996,
+      "grad_norm": 12.726351737976074,
+      "learning_rate": 0.00013007057995042732,
+      "loss": 3.0036,
+      "step": 32
+    },
+    {
+      "epoch": 0.026185280698274152,
+      "grad_norm": 2.4199745655059814,
+      "learning_rate": 0.00012588190451025207,
+      "loss": 2.7967,
+      "step": 33
+    },
+    {
+      "epoch": 0.02697877405276731,
+      "grad_norm": 4.458526134490967,
+      "learning_rate": 0.00012164396139381029,
+      "loss": 2.9338,
+      "step": 34
+    },
+    {
+      "epoch": 0.027772267407260465,
+      "grad_norm": 4.283806324005127,
+      "learning_rate": 0.00011736481776669306,
+      "loss": 2.8298,
+      "step": 35
+    },
+    {
+      "epoch": 0.02856576076175362,
+      "grad_norm": 25.05265998840332,
+      "learning_rate": 0.00011305261922200519,
+      "loss": 4.3322,
+      "step": 36
+    },
+    {
+      "epoch": 0.029359254116246777,
+      "grad_norm": 9.16774845123291,
+      "learning_rate": 0.00010871557427476583,
+      "loss": 3.1166,
+      "step": 37
+    },
+    {
+      "epoch": 0.030152747470739934,
+      "grad_norm": 9.907901763916016,
+      "learning_rate": 0.00010436193873653361,
+      "loss": 2.8739,
+      "step": 38
+    },
+    {
+      "epoch": 0.03094624082523309,
+      "grad_norm": 5.029708385467529,
+      "learning_rate": 0.0001,
+      "loss": 2.8051,
+      "step": 39
+    },
+    {
+      "epoch": 0.031739734179726246,
+      "grad_norm": 3.865046739578247,
+      "learning_rate": 9.563806126346642e-05,
+      "loss": 2.765,
+      "step": 40
+    },
+    {
+      "epoch": 0.0325332275342194,
+      "grad_norm": 3.3393161296844482,
+      "learning_rate": 9.128442572523417e-05,
+      "loss": 2.8003,
+      "step": 41
+    },
+    {
+      "epoch": 0.03332672088871256,
+      "grad_norm": 2.8670387268066406,
+      "learning_rate": 8.694738077799488e-05,
+      "loss": 2.8394,
+      "step": 42
+    },
+    {
+      "epoch": 0.034120214243205715,
+      "grad_norm": 3.05271053314209,
+      "learning_rate": 8.263518223330697e-05,
+      "loss": 2.762,
+      "step": 43
+    },
+    {
+      "epoch": 0.03491370759769887,
+      "grad_norm": 5.7023024559021,
+      "learning_rate": 7.835603860618972e-05,
+      "loss": 2.8546,
+      "step": 44
+    },
+    {
+      "epoch": 0.03570720095219203,
+      "grad_norm": 6.604750633239746,
+      "learning_rate": 7.411809548974792e-05,
+      "loss": 2.7546,
+      "step": 45
+    },
+    {
+      "epoch": 0.036500694306685184,
+      "grad_norm": 8.486159324645996,
+      "learning_rate": 6.992942004957271e-05,
+      "loss": 3.0494,
+      "step": 46
+    },
+    {
+      "epoch": 0.03729418766117834,
+      "grad_norm": 4.845094203948975,
+      "learning_rate": 6.579798566743314e-05,
+      "loss": 2.9887,
+      "step": 47
+    },
+    {
+      "epoch": 0.0380876810156715,
+      "grad_norm": 4.348211288452148,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 2.9466,
+      "step": 48
+    },
+    {
+      "epoch": 0.038881174370164646,
+      "grad_norm": 4.239773750305176,
+      "learning_rate": 5.773817382593008e-05,
+      "loss": 3.1212,
+      "step": 49
+    },
+    {
+      "epoch": 0.0396746677246578,
+      "grad_norm": 8.90642261505127,
+      "learning_rate": 5.382513867649663e-05,
+      "loss": 2.9847,
+      "step": 50
+    },
+    {
+      "epoch": 0.0396746677246578,
+      "eval_loss": 0.36671048402786255,
+      "eval_runtime": 213.134,
+      "eval_samples_per_second": 4.983,
+      "eval_steps_per_second": 2.491,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.53458201903104e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null