Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d6bbf235aa448a27959ec8732cef150c3d63b8fa3430f623e63cea26eec7ee7
 size 250422888

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dd9718755560c308aecac276c9ee7fb044ae0ee5591d2e97ce7e9594e64a086
 size 250422888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:611722769fef1d4e1c9f9854971e07b96719e974d037e7ba0836da7c19476b48
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:562579292a75da3c16d1f208cfaf0a4b519d23fdbd9b53b4ed5d04e1d8e2d858
 size 501168482

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:399f4300e86eac772c2e46dc0bc520439cb85ab9dbbd73bd0ad5009da807761b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:911058565dc868849673710656c32933e9a5c0c739dc26b6d67dce13bb3e41c3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cef7bf070e527a9b5896b7711e9e6af634052f75dbe8f4acb6da29f40d856bc6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d8615f1aeccd0f9873fc0cf2c0322fde20ac202421c015654a471730a5fa755
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.10040160642570281,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 1.866025403784439e-05,
       "loss": 1.935,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.173894848512e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.20080321285140562,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.866025403784439e-05,
       "loss": 1.935,
       "step": 25
+    },
+    {
+      "epoch": 0.10441767068273092,
+      "grad_norm": 1.0193097591400146,
+      "learning_rate": 1.848048096156426e-05,
+      "loss": 1.6745,
+      "step": 26
+    },
+    {
+      "epoch": 0.10843373493975904,
+      "grad_norm": 1.5117055177688599,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 1.2787,
+      "step": 27
+    },
+    {
+      "epoch": 0.10843373493975904,
+      "eval_loss": 0.8428009152412415,
+      "eval_runtime": 32.6578,
+      "eval_samples_per_second": 6.43,
+      "eval_steps_per_second": 0.827,
+      "step": 27
+    },
+    {
+      "epoch": 0.11244979919678715,
+      "grad_norm": 0.8445839881896973,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 1.6433,
+      "step": 28
+    },
+    {
+      "epoch": 0.11646586345381527,
+      "grad_norm": 1.1348373889923096,
+      "learning_rate": 1.788010753606722e-05,
+      "loss": 1.4937,
+      "step": 29
+    },
+    {
+      "epoch": 0.12048192771084337,
+      "grad_norm": 0.9660128355026245,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 1.2509,
+      "step": 30
+    },
+    {
+      "epoch": 0.12449799196787148,
+      "grad_norm": 1.046816110610962,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 1.6319,
+      "step": 31
+    },
+    {
+      "epoch": 0.1285140562248996,
+      "grad_norm": 1.2746326923370361,
+      "learning_rate": 1.7193398003386514e-05,
+      "loss": 1.7526,
+      "step": 32
+    },
+    {
+      "epoch": 0.13253012048192772,
+      "grad_norm": 1.138624906539917,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 1.5544,
+      "step": 33
+    },
+    {
+      "epoch": 0.13654618473895583,
+      "grad_norm": 1.0225257873535156,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 1.3283,
+      "step": 34
+    },
+    {
+      "epoch": 0.14056224899598393,
+      "grad_norm": 1.3078521490097046,
+      "learning_rate": 1.6427876096865394e-05,
+      "loss": 1.6447,
+      "step": 35
+    },
+    {
+      "epoch": 0.14457831325301204,
+      "grad_norm": 1.1222729682922363,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 1.482,
+      "step": 36
+    },
+    {
+      "epoch": 0.14457831325301204,
+      "eval_loss": 0.758996844291687,
+      "eval_runtime": 32.6194,
+      "eval_samples_per_second": 6.438,
+      "eval_steps_per_second": 0.828,
+      "step": 36
+    },
+    {
+      "epoch": 0.14859437751004015,
+      "grad_norm": 1.4948545694351196,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 1.4995,
+      "step": 37
+    },
+    {
+      "epoch": 0.15261044176706828,
+      "grad_norm": 1.0291143655776978,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 1.2655,
+      "step": 38
+    },
+    {
+      "epoch": 0.1566265060240964,
+      "grad_norm": 1.1123580932617188,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 1.8731,
+      "step": 39
+    },
+    {
+      "epoch": 0.1606425702811245,
+      "grad_norm": 0.7641251087188721,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.7626,
+      "step": 40
+    },
+    {
+      "epoch": 0.1646586345381526,
+      "grad_norm": 1.2452340126037598,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 1.3199,
+      "step": 41
+    },
+    {
+      "epoch": 0.1686746987951807,
+      "grad_norm": 1.4203380346298218,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 1.3807,
+      "step": 42
+    },
+    {
+      "epoch": 0.17269076305220885,
+      "grad_norm": 1.2240241765975952,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 1.3466,
+      "step": 43
+    },
+    {
+      "epoch": 0.17670682730923695,
+      "grad_norm": 1.2436611652374268,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 1.4975,
+      "step": 44
+    },
+    {
+      "epoch": 0.18072289156626506,
+      "grad_norm": 1.1533771753311157,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 1.409,
+      "step": 45
+    },
+    {
+      "epoch": 0.18072289156626506,
+      "eval_loss": 0.7062954902648926,
+      "eval_runtime": 32.6227,
+      "eval_samples_per_second": 6.437,
+      "eval_steps_per_second": 0.828,
+      "step": 45
+    },
+    {
+      "epoch": 0.18473895582329317,
+      "grad_norm": 1.3506983518600464,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 1.1306,
+      "step": 46
+    },
+    {
+      "epoch": 0.18875502008032127,
+      "grad_norm": 1.8663361072540283,
+      "learning_rate": 1.2756373558169992e-05,
+      "loss": 1.3438,
+      "step": 47
+    },
+    {
+      "epoch": 0.1927710843373494,
+      "grad_norm": 1.1213346719741821,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 1.3015,
+      "step": 48
+    },
+    {
+      "epoch": 0.19678714859437751,
+      "grad_norm": 1.3179396390914917,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 1.4581,
+      "step": 49
+    },
+    {
+      "epoch": 0.20080321285140562,
+      "grad_norm": 1.3209939002990723,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 1.3032,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.347789697024e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null