Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9b7a7dfc85b5613e1f5b4179d697937b4446707eae763880496f0efec902a17
 size 2269195160

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc7b8a29868bb0447446ccb9650ddc7eda5c03c84a70fba741571b4d237834df
 size 2269195160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd654846e338c4269a5d453cc567b6ef23338d6ee9784563e7f714d4b398e004
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:b793ba7698e1641fdc1e8ef8a7660057c32ec1357fd24f1cb5a8bb75e74f3b25
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad06d6575ee59e74108d9c4f8816f7974dab7778222a92e7eb26ff08be09916f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:07899f311009253221ecb7c812577e712b3036bf5bf7d033d3f1db6da6056cbf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.045413260672116255,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.2751,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.672344046757478e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09082652134423251,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.2751,
       "step": 25
+    },
+    {
+      "epoch": 0.047229791099000905,
+      "grad_norm": 0.3558681607246399,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.3265,
+      "step": 26
+    },
+    {
+      "epoch": 0.04904632152588556,
+      "grad_norm": 0.30473554134368896,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.241,
+      "step": 27
+    },
+    {
+      "epoch": 0.04904632152588556,
+      "eval_loss": 0.30456194281578064,
+      "eval_runtime": 108.8274,
+      "eval_samples_per_second": 4.264,
+      "eval_steps_per_second": 0.533,
+      "step": 27
+    },
+    {
+      "epoch": 0.05086285195277021,
+      "grad_norm": 0.4298734962940216,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.2689,
+      "step": 28
+    },
+    {
+      "epoch": 0.05267938237965486,
+      "grad_norm": 0.3488064110279083,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.2775,
+      "step": 29
+    },
+    {
+      "epoch": 0.05449591280653951,
+      "grad_norm": 0.4139954745769501,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.3113,
+      "step": 30
+    },
+    {
+      "epoch": 0.05631244323342416,
+      "grad_norm": 0.3354235887527466,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.3051,
+      "step": 31
+    },
+    {
+      "epoch": 0.05812897366030881,
+      "grad_norm": 0.41172316670417786,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.3233,
+      "step": 32
+    },
+    {
+      "epoch": 0.05994550408719346,
+      "grad_norm": 0.3322085738182068,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.3209,
+      "step": 33
+    },
+    {
+      "epoch": 0.061762034514078114,
+      "grad_norm": 0.3583935797214508,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.3255,
+      "step": 34
+    },
+    {
+      "epoch": 0.06357856494096276,
+      "grad_norm": 0.2800469696521759,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.3104,
+      "step": 35
+    },
+    {
+      "epoch": 0.0653950953678474,
+      "grad_norm": 0.4980929493904114,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.3561,
+      "step": 36
+    },
+    {
+      "epoch": 0.0653950953678474,
+      "eval_loss": 0.2919258773326874,
+      "eval_runtime": 108.6083,
+      "eval_samples_per_second": 4.272,
+      "eval_steps_per_second": 0.534,
+      "step": 36
+    },
+    {
+      "epoch": 0.06721162579473206,
+      "grad_norm": 0.3218163549900055,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.2759,
+      "step": 37
+    },
+    {
+      "epoch": 0.06902815622161672,
+      "grad_norm": 0.29215186834335327,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.3034,
+      "step": 38
+    },
+    {
+      "epoch": 0.07084468664850137,
+      "grad_norm": 0.3236890733242035,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.278,
+      "step": 39
+    },
+    {
+      "epoch": 0.07266121707538602,
+      "grad_norm": 0.3118452727794647,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.3184,
+      "step": 40
+    },
+    {
+      "epoch": 0.07447774750227067,
+      "grad_norm": 0.2818981111049652,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.2823,
+      "step": 41
+    },
+    {
+      "epoch": 0.07629427792915532,
+      "grad_norm": 0.2725626230239868,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.2795,
+      "step": 42
+    },
+    {
+      "epoch": 0.07811080835603997,
+      "grad_norm": 0.28230541944503784,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.2023,
+      "step": 43
+    },
+    {
+      "epoch": 0.07992733878292461,
+      "grad_norm": 0.24861739575862885,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.2655,
+      "step": 44
+    },
+    {
+      "epoch": 0.08174386920980926,
+      "grad_norm": 0.29663726687431335,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.2904,
+      "step": 45
+    },
+    {
+      "epoch": 0.08174386920980926,
+      "eval_loss": 0.2852410078048706,
+      "eval_runtime": 108.7895,
+      "eval_samples_per_second": 4.265,
+      "eval_steps_per_second": 0.533,
+      "step": 45
+    },
+    {
+      "epoch": 0.08356039963669391,
+      "grad_norm": 0.27381181716918945,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.2109,
+      "step": 46
+    },
+    {
+      "epoch": 0.08537693006357856,
+      "grad_norm": 0.3276028335094452,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.3141,
+      "step": 47
+    },
+    {
+      "epoch": 0.08719346049046321,
+      "grad_norm": 0.2625039219856262,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.2521,
+      "step": 48
+    },
+    {
+      "epoch": 0.08900999091734786,
+      "grad_norm": 0.31556904315948486,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.2891,
+      "step": 49
+    },
+    {
+      "epoch": 0.09082652134423251,
+      "grad_norm": 0.2701485753059387,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.2474,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.19631055627223e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null