Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b01c2e57f855e959053b5e845e5021d44b05ae11f309108bbc762453f1db6bd
 size 767856

 version https://git-lfs.github.com/spec/v1
+oid sha256:1aceff003ceff7c33d2bfa4dcfd1416bb0872f1901c140837771e241ac7da645
 size 767856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6eea2c5842535f8b14e682f1a066ef865f9a23be2f09e9817a400c34a99103e6
 size 1601338

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3d52f825e513051c46a9d65369d703b9d44024645ed60c7ae27ae4228b5d48d
 size 1601338

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c094d1572319d02770c0857e98562328dd4f87957c93aaff3edbf40dab2c80e5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:900e1defa08a6f08739125afaad756b6005a8e90f096dd1eb3a52355d3dc390f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0022476961114857273,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.5711,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 13303264837632.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.004495392222971455,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.5711,
       "step": 25
+    },
+    {
+      "epoch": 0.002337603955945156,
+      "grad_norm": 4.229061126708984,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 10.4582,
+      "step": 26
+    },
+    {
+      "epoch": 0.0024275118004045853,
+      "grad_norm": 3.9010009765625,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 10.3399,
+      "step": 27
+    },
+    {
+      "epoch": 0.0024275118004045853,
+      "eval_loss": 10.372447967529297,
+      "eval_runtime": 278.6935,
+      "eval_samples_per_second": 33.61,
+      "eval_steps_per_second": 4.202,
+      "step": 27
+    },
+    {
+      "epoch": 0.0025174196448640145,
+      "grad_norm": 3.8348143100738525,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 10.368,
+      "step": 28
+    },
+    {
+      "epoch": 0.0026073274893234433,
+      "grad_norm": 3.8159286975860596,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 10.3203,
+      "step": 29
+    },
+    {
+      "epoch": 0.0026972353337828725,
+      "grad_norm": 3.768986701965332,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 10.229,
+      "step": 30
+    },
+    {
+      "epoch": 0.0027871431782423017,
+      "grad_norm": 3.285841226577759,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 10.2177,
+      "step": 31
+    },
+    {
+      "epoch": 0.0028770510227017305,
+      "grad_norm": 3.159271717071533,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 10.2111,
+      "step": 32
+    },
+    {
+      "epoch": 0.0029669588671611597,
+      "grad_norm": 3.253580093383789,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 10.1252,
+      "step": 33
+    },
+    {
+      "epoch": 0.003056866711620589,
+      "grad_norm": 2.9121267795562744,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 10.0366,
+      "step": 34
+    },
+    {
+      "epoch": 0.003146774556080018,
+      "grad_norm": 3.051910877227783,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 10.0212,
+      "step": 35
+    },
+    {
+      "epoch": 0.003236682400539447,
+      "grad_norm": 2.968033790588379,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 9.9681,
+      "step": 36
+    },
+    {
+      "epoch": 0.003236682400539447,
+      "eval_loss": 9.952634811401367,
+      "eval_runtime": 277.8158,
+      "eval_samples_per_second": 33.717,
+      "eval_steps_per_second": 4.215,
+      "step": 36
+    },
+    {
+      "epoch": 0.003326590244998876,
+      "grad_norm": 3.547006368637085,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 10.0527,
+      "step": 37
+    },
+    {
+      "epoch": 0.0034164980894583054,
+      "grad_norm": 2.7204442024230957,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 9.9405,
+      "step": 38
+    },
+    {
+      "epoch": 0.003506405933917734,
+      "grad_norm": 2.5418879985809326,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 9.9415,
+      "step": 39
+    },
+    {
+      "epoch": 0.0035963137783771634,
+      "grad_norm": 2.5071489810943604,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 9.8407,
+      "step": 40
+    },
+    {
+      "epoch": 0.0036862216228365926,
+      "grad_norm": 2.51804256439209,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 9.839,
+      "step": 41
+    },
+    {
+      "epoch": 0.003776129467296022,
+      "grad_norm": 2.4780120849609375,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 9.7702,
+      "step": 42
+    },
+    {
+      "epoch": 0.0038660373117554506,
+      "grad_norm": 2.4401473999023438,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 9.7464,
+      "step": 43
+    },
+    {
+      "epoch": 0.003955945156214879,
+      "grad_norm": 2.6967058181762695,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 9.7149,
+      "step": 44
+    },
+    {
+      "epoch": 0.004045853000674309,
+      "grad_norm": 2.307387590408325,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 9.7137,
+      "step": 45
+    },
+    {
+      "epoch": 0.004045853000674309,
+      "eval_loss": 9.660048484802246,
+      "eval_runtime": 277.8194,
+      "eval_samples_per_second": 33.716,
+      "eval_steps_per_second": 4.215,
+      "step": 45
+    },
+    {
+      "epoch": 0.004135760845133738,
+      "grad_norm": 3.0555312633514404,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 9.6815,
+      "step": 46
+    },
+    {
+      "epoch": 0.004225668689593167,
+      "grad_norm": 2.2399892807006836,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 9.5969,
+      "step": 47
+    },
+    {
+      "epoch": 0.004315576534052596,
+      "grad_norm": 2.142436981201172,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 9.6154,
+      "step": 48
+    },
+    {
+      "epoch": 0.004405484378512025,
+      "grad_norm": 2.128260850906372,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 9.5917,
+      "step": 49
+    },
+    {
+      "epoch": 0.004495392222971455,
+      "grad_norm": 2.3412411212921143,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 9.56,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 26606529675264.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null