Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49c852bfda286ac6525a63ecbe4dda5060d2de73f8e596b9256ccf81c57fc09a
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:59d751659c276aef20f64ac2086bb94283b0199bd1f1e60569293bb547eb39b0
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4466cfadafb6f00329ceda581fbc6036f78d6f56959e21118e624e42c076353
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:baea272a437adecddff11c50a301dfe72269a0ce587fb8d212644a5b778f39b4
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb3fa0ae202f3d7f3f050ef7a7cbe6b09910bf765ca6ee8367f832b503651acf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b161438ec76da89999600124f2b412e50aee4c6eea9f51d76090346c14b7c9ff
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.004153168867846167,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.4189,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.613832807612416e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.008306337735692334,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.4189,
       "step": 25
+    },
+    {
+      "epoch": 0.004319295622560013,
+      "grad_norm": 1.719977855682373,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.7547,
+      "step": 26
+    },
+    {
+      "epoch": 0.00448542237727386,
+      "grad_norm": 1.4725106954574585,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 1.498,
+      "step": 27
+    },
+    {
+      "epoch": 0.00448542237727386,
+      "eval_loss": 0.7110866904258728,
+      "eval_runtime": 675.4946,
+      "eval_samples_per_second": 7.504,
+      "eval_steps_per_second": 0.939,
+      "step": 27
+    },
+    {
+      "epoch": 0.004651549131987707,
+      "grad_norm": 1.9094619750976562,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 2.0087,
+      "step": 28
+    },
+    {
+      "epoch": 0.004817675886701553,
+      "grad_norm": 1.453922986984253,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 1.3544,
+      "step": 29
+    },
+    {
+      "epoch": 0.0049838026414154,
+      "grad_norm": 4.656007766723633,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.3588,
+      "step": 30
+    },
+    {
+      "epoch": 0.005149929396129247,
+      "grad_norm": 1.933850884437561,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.9921,
+      "step": 31
+    },
+    {
+      "epoch": 0.005316056150843094,
+      "grad_norm": 1.3430155515670776,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.6642,
+      "step": 32
+    },
+    {
+      "epoch": 0.00548218290555694,
+      "grad_norm": 1.802078366279602,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 1.4628,
+      "step": 33
+    },
+    {
+      "epoch": 0.005648309660270787,
+      "grad_norm": 2.6342110633850098,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.4388,
+      "step": 34
+    },
+    {
+      "epoch": 0.0058144364149846335,
+      "grad_norm": 1.334199070930481,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 1.0315,
+      "step": 35
+    },
+    {
+      "epoch": 0.00598056316969848,
+      "grad_norm": 0.9666208028793335,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.6273,
+      "step": 36
+    },
+    {
+      "epoch": 0.00598056316969848,
+      "eval_loss": 0.6773849725723267,
+      "eval_runtime": 675.1591,
+      "eval_samples_per_second": 7.508,
+      "eval_steps_per_second": 0.939,
+      "step": 36
+    },
+    {
+      "epoch": 0.0061466899244123265,
+      "grad_norm": 2.4796395301818848,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.2106,
+      "step": 37
+    },
+    {
+      "epoch": 0.0063128166791261734,
+      "grad_norm": 2.0141119956970215,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 1.0963,
+      "step": 38
+    },
+    {
+      "epoch": 0.00647894343384002,
+      "grad_norm": 1.0724881887435913,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.7781,
+      "step": 39
+    },
+    {
+      "epoch": 0.006645070188553866,
+      "grad_norm": 1.5177243947982788,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.1593,
+      "step": 40
+    },
+    {
+      "epoch": 0.006811196943267713,
+      "grad_norm": 2.06948184967041,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 1.6186,
+      "step": 41
+    },
+    {
+      "epoch": 0.00697732369798156,
+      "grad_norm": 2.045438051223755,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 1.5002,
+      "step": 42
+    },
+    {
+      "epoch": 0.007143450452695406,
+      "grad_norm": 1.8725861310958862,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 1.289,
+      "step": 43
+    },
+    {
+      "epoch": 0.007309577207409253,
+      "grad_norm": 0.9375693798065186,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 1.0544,
+      "step": 44
+    },
+    {
+      "epoch": 0.0074757039621231,
+      "grad_norm": 3.7686853408813477,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 1.0144,
+      "step": 45
+    },
+    {
+      "epoch": 0.0074757039621231,
+      "eval_loss": 0.6617150902748108,
+      "eval_runtime": 675.1702,
+      "eval_samples_per_second": 7.508,
+      "eval_steps_per_second": 0.939,
+      "step": 45
+    },
+    {
+      "epoch": 0.007641830716836946,
+      "grad_norm": 1.291003704071045,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.3174,
+      "step": 46
+    },
+    {
+      "epoch": 0.007807957471550793,
+      "grad_norm": 1.5664713382720947,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 1.6628,
+      "step": 47
+    },
+    {
+      "epoch": 0.00797408422626464,
+      "grad_norm": 1.041298270225525,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.6944,
+      "step": 48
+    },
+    {
+      "epoch": 0.008140210980978486,
+      "grad_norm": 1.353527307510376,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 1.7041,
+      "step": 49
+    },
+    {
+      "epoch": 0.008306337735692334,
+      "grad_norm": 0.8514286875724792,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 1.7434,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.868263604178125e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null