Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4cf68ce1914731bf96616d872334d2cd38592198cb74ce32d05a2e0c9762456
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bb6d26642e41b36ebcab20b6d27deee2bf7acbe453b4b7fa1a231d4fcd883bf
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c5fe18352f8b3e5449e7e26a82e7908777de81afea653e379313e57c9a3eaf8
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:33d87fe03f5e98938d93e08babb25d9fbf091a807e758a930b3e823b13e604a5
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c346df5b4b53ec580b3f72c8716c89357d7cb6ad6e4c4d8d524ee44930414ca
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0d1a1af9eebbad8de3e56c442429cad586fb9a079791f4de0e7491c83d28f99
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.004105258836569646,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.54,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.896456071498957e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0061578882548544685,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.54,
       "step": 50
+    },
+    {
+      "epoch": 0.004187364013301039,
+      "grad_norm": 0.6193185448646545,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 1.6695,
+      "step": 51
+    },
+    {
+      "epoch": 0.004269469190032431,
+      "grad_norm": 0.5835232138633728,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 1.5131,
+      "step": 52
+    },
+    {
+      "epoch": 0.004351574366763825,
+      "grad_norm": 0.4596083462238312,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 1.4117,
+      "step": 53
+    },
+    {
+      "epoch": 0.004433679543495217,
+      "grad_norm": 0.9295161366462708,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 1.4409,
+      "step": 54
+    },
+    {
+      "epoch": 0.004433679543495217,
+      "eval_loss": 1.5125960111618042,
+      "eval_runtime": 1416.4883,
+      "eval_samples_per_second": 7.241,
+      "eval_steps_per_second": 0.906,
+      "step": 54
+    },
+    {
+      "epoch": 0.00451578472022661,
+      "grad_norm": 0.5094868540763855,
+      "learning_rate": 5e-05,
+      "loss": 1.7088,
+      "step": 55
+    },
+    {
+      "epoch": 0.0045978898969580035,
+      "grad_norm": 0.7837563157081604,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 1.25,
+      "step": 56
+    },
+    {
+      "epoch": 0.004679995073689396,
+      "grad_norm": 0.7246440649032593,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 1.4149,
+      "step": 57
+    },
+    {
+      "epoch": 0.004762100250420789,
+      "grad_norm": 0.7790331244468689,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.4097,
+      "step": 58
+    },
+    {
+      "epoch": 0.0048442054271521815,
+      "grad_norm": 0.8052862286567688,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 1.6103,
+      "step": 59
+    },
+    {
+      "epoch": 0.004926310603883575,
+      "grad_norm": 0.5868442058563232,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.6559,
+      "step": 60
+    },
+    {
+      "epoch": 0.005008415780614968,
+      "grad_norm": 0.5471727848052979,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 1.3239,
+      "step": 61
+    },
+    {
+      "epoch": 0.0050905209573463605,
+      "grad_norm": 0.48499777913093567,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 1.6929,
+      "step": 62
+    },
+    {
+      "epoch": 0.005172626134077754,
+      "grad_norm": 0.7574016451835632,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 1.4487,
+      "step": 63
+    },
+    {
+      "epoch": 0.005172626134077754,
+      "eval_loss": 1.5053952932357788,
+      "eval_runtime": 1416.14,
+      "eval_samples_per_second": 7.243,
+      "eval_steps_per_second": 0.906,
+      "step": 63
+    },
+    {
+      "epoch": 0.005254731310809146,
+      "grad_norm": 0.7113258242607117,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.6275,
+      "step": 64
+    },
+    {
+      "epoch": 0.005336836487540539,
+      "grad_norm": 0.5914005637168884,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 1.6337,
+      "step": 65
+    },
+    {
+      "epoch": 0.005418941664271933,
+      "grad_norm": 0.6201595067977905,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 1.6234,
+      "step": 66
+    },
+    {
+      "epoch": 0.005501046841003325,
+      "grad_norm": 0.8037741184234619,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 1.2794,
+      "step": 67
+    },
+    {
+      "epoch": 0.005583152017734718,
+      "grad_norm": 0.5970195531845093,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 1.7876,
+      "step": 68
+    },
+    {
+      "epoch": 0.005665257194466111,
+      "grad_norm": 0.9002119302749634,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 1.466,
+      "step": 69
+    },
+    {
+      "epoch": 0.005747362371197504,
+      "grad_norm": 0.6695420145988464,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.7067,
+      "step": 70
+    },
+    {
+      "epoch": 0.005829467547928897,
+      "grad_norm": 0.9000733494758606,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 1.0297,
+      "step": 71
+    },
+    {
+      "epoch": 0.00591157272466029,
+      "grad_norm": 0.6280279159545898,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 1.0359,
+      "step": 72
+    },
+    {
+      "epoch": 0.00591157272466029,
+      "eval_loss": 1.5000574588775635,
+      "eval_runtime": 1413.6191,
+      "eval_samples_per_second": 7.256,
+      "eval_steps_per_second": 0.908,
+      "step": 72
+    },
+    {
+      "epoch": 0.005993677901391683,
+      "grad_norm": 0.7631202340126038,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.392,
+      "step": 73
+    },
+    {
+      "epoch": 0.006075783078123075,
+      "grad_norm": 0.6028785109519958,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 1.5885,
+      "step": 74
+    },
+    {
+      "epoch": 0.0061578882548544685,
+      "grad_norm": 1.0977727174758911,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 1.629,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.307589743070413e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null