Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8eeda18d2da11fd92295657c936884b11a1c898d7193fcc12116af4c4ca9fb9
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:78ab5d57fe29db7668151d63a1c0d3ca9373061f30a115360ba85f3f0c8ba930
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8b59e7fd586210f6bebd253fbbf00a65cf412018a66730d3a46a415d6aeb851
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad5159108294a2cbc3b2f9820ff5d79b5960079f18420ec21d1c7a369d49a248
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86d4f1bfae77ffc874d5a250e1a852ec6eb483852d9fbaaef0a47fabf0ca6322
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a4422b3d1f964db21d93a8ffbd30ae226dcced1cd77f55c1377a3731485311e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.003546853940554728,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.1543,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.63364550475776e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.007093707881109456,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.1543,
       "step": 25
+    },
+    {
+      "epoch": 0.003688728098176917,
+      "grad_norm": 9.076546669006348,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 1.3788,
+      "step": 26
+    },
+    {
+      "epoch": 0.003830602255799106,
+      "grad_norm": 12.995061874389648,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 1.2468,
+      "step": 27
+    },
+    {
+      "epoch": 0.003830602255799106,
+      "eval_loss": 0.6279391646385193,
+      "eval_runtime": 541.7801,
+      "eval_samples_per_second": 10.956,
+      "eval_steps_per_second": 1.37,
+      "step": 27
+    },
+    {
+      "epoch": 0.003972476413421295,
+      "grad_norm": 8.741141319274902,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.9294,
+      "step": 28
+    },
+    {
+      "epoch": 0.004114350571043484,
+      "grad_norm": 11.498311996459961,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 1.2281,
+      "step": 29
+    },
+    {
+      "epoch": 0.004256224728665673,
+      "grad_norm": 11.130197525024414,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.5019,
+      "step": 30
+    },
+    {
+      "epoch": 0.004398098886287863,
+      "grad_norm": 7.296480655670166,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.1992,
+      "step": 31
+    },
+    {
+      "epoch": 0.004539973043910052,
+      "grad_norm": 7.6955389976501465,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 1.1805,
+      "step": 32
+    },
+    {
+      "epoch": 0.004681847201532241,
+      "grad_norm": 10.107093811035156,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 1.253,
+      "step": 33
+    },
+    {
+      "epoch": 0.00482372135915443,
+      "grad_norm": 10.577054023742676,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.7774,
+      "step": 34
+    },
+    {
+      "epoch": 0.0049655955167766195,
+      "grad_norm": 7.113376617431641,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.7259,
+      "step": 35
+    },
+    {
+      "epoch": 0.005107469674398808,
+      "grad_norm": 10.733963966369629,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 1.3057,
+      "step": 36
+    },
+    {
+      "epoch": 0.005107469674398808,
+      "eval_loss": 0.4863208532333374,
+      "eval_runtime": 540.8283,
+      "eval_samples_per_second": 10.976,
+      "eval_steps_per_second": 1.372,
+      "step": 36
+    },
+    {
+      "epoch": 0.005249343832020997,
+      "grad_norm": 8.43188762664795,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.2677,
+      "step": 37
+    },
+    {
+      "epoch": 0.005391217989643186,
+      "grad_norm": 6.6493611335754395,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.6093,
+      "step": 38
+    },
+    {
+      "epoch": 0.005533092147265376,
+      "grad_norm": 7.014468193054199,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.7699,
+      "step": 39
+    },
+    {
+      "epoch": 0.005674966304887565,
+      "grad_norm": 6.780705451965332,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.9263,
+      "step": 40
+    },
+    {
+      "epoch": 0.005816840462509754,
+      "grad_norm": 6.085496425628662,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.6976,
+      "step": 41
+    },
+    {
+      "epoch": 0.005958714620131943,
+      "grad_norm": 6.213381767272949,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.9982,
+      "step": 42
+    },
+    {
+      "epoch": 0.0061005887777541325,
+      "grad_norm": 6.507991790771484,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.7347,
+      "step": 43
+    },
+    {
+      "epoch": 0.006242462935376321,
+      "grad_norm": 5.2897748947143555,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.6589,
+      "step": 44
+    },
+    {
+      "epoch": 0.00638433709299851,
+      "grad_norm": 11.325580596923828,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 1.0976,
+      "step": 45
+    },
+    {
+      "epoch": 0.00638433709299851,
+      "eval_loss": 0.4915553629398346,
+      "eval_runtime": 541.0971,
+      "eval_samples_per_second": 10.97,
+      "eval_steps_per_second": 1.371,
+      "step": 45
+    },
+    {
+      "epoch": 0.006526211250620699,
+      "grad_norm": 9.572626113891602,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.924,
+      "step": 46
+    },
+    {
+      "epoch": 0.006668085408242889,
+      "grad_norm": 6.726538181304932,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.6873,
+      "step": 47
+    },
+    {
+      "epoch": 0.006809959565865078,
+      "grad_norm": 6.53619384765625,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.7005,
+      "step": 48
+    },
+    {
+      "epoch": 0.006951833723487267,
+      "grad_norm": 4.928836822509766,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.6345,
+      "step": 49
+    },
+    {
+      "epoch": 0.007093707881109456,
+      "grad_norm": 6.096105098724365,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.8714,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.26729100951552e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null