Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:175fcf31708e0d423173878ae6057137f904bc5d576b44a81f2b7441a9d1655a
 size 50503544

 version https://git-lfs.github.com/spec/v1
+oid sha256:a510fe165aae28915849ab21b4a2389f97dc68f0eba51edf2e9d89e0c442733f
 size 50503544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dfbdc417c01ea1576b343c890ba0ada38e2b731b0a467eec7db95f1a494d334
 size 101184122

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3c0e3814cb8f46e5ec8a340aba015af3097aa3b8dc5286e92c993179f4a9c10
 size 101184122

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f08b5e52b0fa4353f52e15f0ed12a3218a82410f3a186af6d5309b9f733aa130
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:11514b197853b462348465f3dc339beef02f4f254b0c41ac5a64915cdbed9ea0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.16891891891891891,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 2.2316,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2573421930086400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.33783783783783783,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 2.2316,
       "step": 25
+    },
+    {
+      "epoch": 0.17567567567567569,
+      "grad_norm": 1.0399982929229736,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 2.0554,
+      "step": 26
+    },
+    {
+      "epoch": 0.18243243243243243,
+      "grad_norm": 1.2994896173477173,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 2.1411,
+      "step": 27
+    },
+    {
+      "epoch": 0.18243243243243243,
+      "eval_loss": 2.0132856369018555,
+      "eval_runtime": 3.5135,
+      "eval_samples_per_second": 35.577,
+      "eval_steps_per_second": 4.554,
+      "step": 27
+    },
+    {
+      "epoch": 0.1891891891891892,
+      "grad_norm": 1.0128037929534912,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 1.8349,
+      "step": 28
+    },
+    {
+      "epoch": 0.19594594594594594,
+      "grad_norm": 1.0621966123580933,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 1.7304,
+      "step": 29
+    },
+    {
+      "epoch": 0.20270270270270271,
+      "grad_norm": 0.9444336891174316,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.8391,
+      "step": 30
+    },
+    {
+      "epoch": 0.20945945945945946,
+      "grad_norm": 1.013601541519165,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.9608,
+      "step": 31
+    },
+    {
+      "epoch": 0.21621621621621623,
+      "grad_norm": 1.1101553440093994,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 1.9638,
+      "step": 32
+    },
+    {
+      "epoch": 0.22297297297297297,
+      "grad_norm": 0.9574841856956482,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 2.0326,
+      "step": 33
+    },
+    {
+      "epoch": 0.22972972972972974,
+      "grad_norm": 0.9780818223953247,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.7894,
+      "step": 34
+    },
+    {
+      "epoch": 0.23648648648648649,
+      "grad_norm": 1.0742874145507812,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 1.9416,
+      "step": 35
+    },
+    {
+      "epoch": 0.24324324324324326,
+      "grad_norm": 0.9108137488365173,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 1.861,
+      "step": 36
+    },
+    {
+      "epoch": 0.24324324324324326,
+      "eval_loss": 1.8477528095245361,
+      "eval_runtime": 3.5122,
+      "eval_samples_per_second": 35.59,
+      "eval_steps_per_second": 4.556,
+      "step": 36
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.9335376024246216,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.8027,
+      "step": 37
+    },
+    {
+      "epoch": 0.25675675675675674,
+      "grad_norm": 1.0257062911987305,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 1.8306,
+      "step": 38
+    },
+    {
+      "epoch": 0.2635135135135135,
+      "grad_norm": 0.8713502883911133,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 1.5814,
+      "step": 39
+    },
+    {
+      "epoch": 0.2702702702702703,
+      "grad_norm": 1.0091434717178345,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.5569,
+      "step": 40
+    },
+    {
+      "epoch": 0.27702702702702703,
+      "grad_norm": 0.9113713502883911,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 1.7839,
+      "step": 41
+    },
+    {
+      "epoch": 0.28378378378378377,
+      "grad_norm": 0.8845016360282898,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 1.6395,
+      "step": 42
+    },
+    {
+      "epoch": 0.2905405405405405,
+      "grad_norm": 0.9751928448677063,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 2.0989,
+      "step": 43
+    },
+    {
+      "epoch": 0.2972972972972973,
+      "grad_norm": 1.0509858131408691,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 1.6493,
+      "step": 44
+    },
+    {
+      "epoch": 0.30405405405405406,
+      "grad_norm": 1.0471868515014648,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 1.6431,
+      "step": 45
+    },
+    {
+      "epoch": 0.30405405405405406,
+      "eval_loss": 1.7883583307266235,
+      "eval_runtime": 3.5109,
+      "eval_samples_per_second": 35.604,
+      "eval_steps_per_second": 4.557,
+      "step": 45
+    },
+    {
+      "epoch": 0.3108108108108108,
+      "grad_norm": 1.315850019454956,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.5634,
+      "step": 46
+    },
+    {
+      "epoch": 0.31756756756756754,
+      "grad_norm": 0.9055303335189819,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 1.7563,
+      "step": 47
+    },
+    {
+      "epoch": 0.32432432432432434,
+      "grad_norm": 0.9029581546783447,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 1.822,
+      "step": 48
+    },
+    {
+      "epoch": 0.3310810810810811,
+      "grad_norm": 0.8379126191139221,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 1.5573,
+      "step": 49
+    },
+    {
+      "epoch": 0.33783783783783783,
+      "grad_norm": 1.1745027303695679,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 2.062,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5146843860172800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null