Training in progress, step 126, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f96fe0f77223bf21e72bb8cec824d6e8118b382aeb4fe8d6ab68534e260cbf8d
 size 93608

 version https://git-lfs.github.com/spec/v1
+oid sha256:d06192d758f599c81e887b2a13e19ff974602cb65fdc40c23689ba90f5a0cc51
 size 93608

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9ecd8d4edbc1eb01635b7969b0317e2e2ac7ee4e46b9c2667bf035cf5a6df33
 size 197158

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ef7a8706f17569c6dea0871a2304a6f7d337bb45555726571afc0a2d7edb4eb
 size 197158

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:103b84660003cbb55211ca46c75dea4086b05940b67e924565c8120dfc91f67a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:59a28cc54d01a2cacfb06a120854babf31065aeadae401292bfd08b1b5f75518
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2df224011d0e75c4a97901f6c1b2930bba4bc3a9aa7c877e6c91e796bec6013f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e00328545513b592b6bf311a002e087bb048e374276594cf37ee8782d28887fc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2376237623762376,
   "eval_steps": 42,
-  "global_step": 84,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -227,6 +227,112 @@
       "eval_samples_per_second": 93.097,
       "eval_steps_per_second": 11.715,
       "step": 84
     }
   ],
   "logging_steps": 3,
@@ -246,7 +352,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 503776542720.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3564356435643564,
   "eval_steps": 42,
+  "global_step": 126,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 93.097,
       "eval_steps_per_second": 11.715,
       "step": 84
+    },
+    {
+      "epoch": 0.24611032531824611,
+      "grad_norm": 0.28861185908317566,
+      "learning_rate": 9.40297765928369e-05,
+      "loss": 11.8219,
+      "step": 87
+    },
+    {
+      "epoch": 0.2545968882602546,
+      "grad_norm": 0.13039568066596985,
+      "learning_rate": 9.356593520616948e-05,
+      "loss": 11.8245,
+      "step": 90
+    },
+    {
+      "epoch": 0.26308345120226306,
+      "grad_norm": 0.1711033284664154,
+      "learning_rate": 9.308597683653975e-05,
+      "loss": 11.8246,
+      "step": 93
+    },
+    {
+      "epoch": 0.27157001414427157,
+      "grad_norm": 0.2108013778924942,
+      "learning_rate": 9.259007904196023e-05,
+      "loss": 11.8228,
+      "step": 96
+    },
+    {
+      "epoch": 0.28005657708628007,
+      "grad_norm": 0.1204076036810875,
+      "learning_rate": 9.207842527714767e-05,
+      "loss": 11.82,
+      "step": 99
+    },
+    {
+      "epoch": 0.28854314002828857,
+      "grad_norm": 0.1477670669555664,
+      "learning_rate": 9.155120482565521e-05,
+      "loss": 11.8189,
+      "step": 102
+    },
+    {
+      "epoch": 0.297029702970297,
+      "grad_norm": 0.10705884546041489,
+      "learning_rate": 9.10086127298478e-05,
+      "loss": 11.8169,
+      "step": 105
+    },
+    {
+      "epoch": 0.3055162659123055,
+      "grad_norm": 0.29956066608428955,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 11.8205,
+      "step": 108
+    },
+    {
+      "epoch": 0.314002828854314,
+      "grad_norm": 0.13027921319007874,
+      "learning_rate": 8.987812213377424e-05,
+      "loss": 11.8168,
+      "step": 111
+    },
+    {
+      "epoch": 0.32248939179632247,
+      "grad_norm": 0.13590934872627258,
+      "learning_rate": 8.929064185241213e-05,
+      "loss": 11.819,
+      "step": 114
+    },
+    {
+      "epoch": 0.33097595473833097,
+      "grad_norm": 0.09333682060241699,
+      "learning_rate": 8.868862620982534e-05,
+      "loss": 11.8267,
+      "step": 117
+    },
+    {
+      "epoch": 0.33946251768033947,
+      "grad_norm": 0.12400602549314499,
+      "learning_rate": 8.807229791845673e-05,
+      "loss": 11.818,
+      "step": 120
+    },
+    {
+      "epoch": 0.347949080622348,
+      "grad_norm": 0.12071343511343002,
+      "learning_rate": 8.744188498563641e-05,
+      "loss": 11.8166,
+      "step": 123
+    },
+    {
+      "epoch": 0.3564356435643564,
+      "grad_norm": 0.1693616658449173,
+      "learning_rate": 8.679762062923175e-05,
+      "loss": 11.8183,
+      "step": 126
+    },
+    {
+      "epoch": 0.3564356435643564,
+      "eval_loss": 11.819117546081543,
+      "eval_runtime": 6.7651,
+      "eval_samples_per_second": 88.1,
+      "eval_steps_per_second": 11.086,
+      "step": 126
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 765306470400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null