Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d3b36dcd5760eee587152a6ae87bcad48d4d8d858257fde7b03a6a80704ef9f
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c14e0f7f1581c43792fae127f5dc2aa2db5c7ffc154e7dbcab5002dc205a311
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4eca1016cc04057eed32309d5430bbef9ae3da7a4d1a102af46b099c1cc9af04
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:876c50bdb3058a027b1dcee26ff89f782f3e533f497522d4be3e9d3bb838f3dc
 size 118090

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f806b9d7699355583266f94ec8496d0d295cee03d56d66172e197998cf03a87
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:817c0c920c38e6b732b0d266b0e56dd34ec41f28c179a9e2af0befa47dc64c9c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0005266151285994145,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3755,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1412166057984.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.001053230257198829,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3755,
       "step": 25
+    },
+    {
+      "epoch": 0.0005476797337433909,
+      "grad_norm": 0.05067078769207001,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 10.3736,
+      "step": 26
+    },
+    {
+      "epoch": 0.0005687443388873675,
+      "grad_norm": 0.03656363859772682,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 10.375,
+      "step": 27
+    },
+    {
+      "epoch": 0.0005687443388873675,
+      "eval_loss": 10.375572204589844,
+      "eval_runtime": 325.6996,
+      "eval_samples_per_second": 122.745,
+      "eval_steps_per_second": 15.345,
+      "step": 27
+    },
+    {
+      "epoch": 0.0005898089440313441,
+      "grad_norm": 0.03712327778339386,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 10.3759,
+      "step": 28
+    },
+    {
+      "epoch": 0.0006108735491753207,
+      "grad_norm": 0.04191397503018379,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 10.3776,
+      "step": 29
+    },
+    {
+      "epoch": 0.0006319381543192973,
+      "grad_norm": 0.040405046194791794,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 10.3771,
+      "step": 30
+    },
+    {
+      "epoch": 0.0006530027594632738,
+      "grad_norm": 0.04103453829884529,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 10.3751,
+      "step": 31
+    },
+    {
+      "epoch": 0.0006740673646072504,
+      "grad_norm": 0.043744977563619614,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 10.3738,
+      "step": 32
+    },
+    {
+      "epoch": 0.000695131969751227,
+      "grad_norm": 0.041353847831487656,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 10.3742,
+      "step": 33
+    },
+    {
+      "epoch": 0.0007161965748952036,
+      "grad_norm": 0.041590310633182526,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 10.3747,
+      "step": 34
+    },
+    {
+      "epoch": 0.0007372611800391802,
+      "grad_norm": 0.042141202837228775,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 10.3763,
+      "step": 35
+    },
+    {
+      "epoch": 0.0007583257851831568,
+      "grad_norm": 0.051582399755716324,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 10.3748,
+      "step": 36
+    },
+    {
+      "epoch": 0.0007583257851831568,
+      "eval_loss": 10.374592781066895,
+      "eval_runtime": 326.5386,
+      "eval_samples_per_second": 122.43,
+      "eval_steps_per_second": 15.306,
+      "step": 36
+    },
+    {
+      "epoch": 0.0007793903903271333,
+      "grad_norm": 0.03906949236989021,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 10.3753,
+      "step": 37
+    },
+    {
+      "epoch": 0.0008004549954711099,
+      "grad_norm": 0.04390184208750725,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 10.373,
+      "step": 38
+    },
+    {
+      "epoch": 0.0008215196006150865,
+      "grad_norm": 0.04439748823642731,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 10.3749,
+      "step": 39
+    },
+    {
+      "epoch": 0.0008425842057590631,
+      "grad_norm": 0.05099000036716461,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 10.375,
+      "step": 40
+    },
+    {
+      "epoch": 0.0008636488109030397,
+      "grad_norm": 0.04918903857469559,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 10.3728,
+      "step": 41
+    },
+    {
+      "epoch": 0.0008847134160470161,
+      "grad_norm": 0.05172858387231827,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 10.374,
+      "step": 42
+    },
+    {
+      "epoch": 0.0009057780211909927,
+      "grad_norm": 0.05202887952327728,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 10.3728,
+      "step": 43
+    },
+    {
+      "epoch": 0.0009268426263349693,
+      "grad_norm": 0.06054721027612686,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 10.3731,
+      "step": 44
+    },
+    {
+      "epoch": 0.0009479072314789459,
+      "grad_norm": 0.05004347860813141,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 10.3759,
+      "step": 45
+    },
+    {
+      "epoch": 0.0009479072314789459,
+      "eval_loss": 10.37352180480957,
+      "eval_runtime": 326.6722,
+      "eval_samples_per_second": 122.38,
+      "eval_steps_per_second": 15.3,
+      "step": 45
+    },
+    {
+      "epoch": 0.0009689718366229225,
+      "grad_norm": 0.04989779740571976,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 10.3752,
+      "step": 46
+    },
+    {
+      "epoch": 0.000990036441766899,
+      "grad_norm": 0.05517362803220749,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 10.3756,
+      "step": 47
+    },
+    {
+      "epoch": 0.0010111010469108757,
+      "grad_norm": 0.05383509770035744,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 10.3726,
+      "step": 48
+    },
+    {
+      "epoch": 0.0010321656520548522,
+      "grad_norm": 0.06373439729213715,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 10.3715,
+      "step": 49
+    },
+    {
+      "epoch": 0.001053230257198829,
+      "grad_norm": 0.055983684957027435,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 10.3733,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2824332115968.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null