Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acd26c75745d2f2646ac1a79ee838e6b31698b67cd7013e499291f7c5578aa94
 size 767856

 version https://git-lfs.github.com/spec/v1
+oid sha256:63e0cc77edea88572543764b6c951757beee7f485322db5cec447e8beb8eccc7
 size 767856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cecfcf60dd6240e3c9a4fc50243b3d93f0b53d5f1402b8ece9a58692fd0e07a5
 size 1601338

 version https://git-lfs.github.com/spec/v1
+oid sha256:a664b930e1bddf7987b31444e4cbdf4987a7205d1a58550b98f9370ac0bad05b
 size 1601338

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dd3658f6815e6bcb8b59c0a60606c053357685d6b00ff6b1a73f72a67169a37
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:561c96a9de2039e2fc252d4f61038d8c0e79bafac8eb8ddb35ced95407e0d204
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03745318352059925,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 5.7918,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6787380019200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0749063670411985,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 5.7918,
       "step": 25
+    },
+    {
+      "epoch": 0.03895131086142322,
+      "grad_norm": 5.877769470214844,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 5.406,
+      "step": 26
+    },
+    {
+      "epoch": 0.04044943820224719,
+      "grad_norm": 5.7603230476379395,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 5.5544,
+      "step": 27
+    },
+    {
+      "epoch": 0.04044943820224719,
+      "eval_loss": 5.330251216888428,
+      "eval_runtime": 5.1379,
+      "eval_samples_per_second": 109.384,
+      "eval_steps_per_second": 13.819,
+      "step": 27
+    },
+    {
+      "epoch": 0.041947565543071164,
+      "grad_norm": 5.099091053009033,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 5.7185,
+      "step": 28
+    },
+    {
+      "epoch": 0.04344569288389513,
+      "grad_norm": 4.921545505523682,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 5.081,
+      "step": 29
+    },
+    {
+      "epoch": 0.0449438202247191,
+      "grad_norm": 4.545036315917969,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 5.3674,
+      "step": 30
+    },
+    {
+      "epoch": 0.04644194756554307,
+      "grad_norm": 4.012330532073975,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 5.0857,
+      "step": 31
+    },
+    {
+      "epoch": 0.04794007490636704,
+      "grad_norm": 4.733462810516357,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 5.599,
+      "step": 32
+    },
+    {
+      "epoch": 0.04943820224719101,
+      "grad_norm": 4.145115375518799,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 4.7403,
+      "step": 33
+    },
+    {
+      "epoch": 0.05093632958801498,
+      "grad_norm": 5.177260875701904,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 4.9125,
+      "step": 34
+    },
+    {
+      "epoch": 0.052434456928838954,
+      "grad_norm": 4.307314872741699,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 4.8608,
+      "step": 35
+    },
+    {
+      "epoch": 0.05393258426966292,
+      "grad_norm": 4.051609039306641,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 5.103,
+      "step": 36
+    },
+    {
+      "epoch": 0.05393258426966292,
+      "eval_loss": 4.865622520446777,
+      "eval_runtime": 5.0494,
+      "eval_samples_per_second": 111.3,
+      "eval_steps_per_second": 14.061,
+      "step": 36
+    },
+    {
+      "epoch": 0.05543071161048689,
+      "grad_norm": 3.6555047035217285,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 5.346,
+      "step": 37
+    },
+    {
+      "epoch": 0.05692883895131086,
+      "grad_norm": 3.7957916259765625,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 4.6881,
+      "step": 38
+    },
+    {
+      "epoch": 0.058426966292134834,
+      "grad_norm": 3.4084856510162354,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 4.8244,
+      "step": 39
+    },
+    {
+      "epoch": 0.0599250936329588,
+      "grad_norm": 3.9070608615875244,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 4.5502,
+      "step": 40
+    },
+    {
+      "epoch": 0.06142322097378277,
+      "grad_norm": 3.6457884311676025,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 4.9674,
+      "step": 41
+    },
+    {
+      "epoch": 0.06292134831460675,
+      "grad_norm": 3.537919759750366,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 4.5994,
+      "step": 42
+    },
+    {
+      "epoch": 0.06441947565543071,
+      "grad_norm": 3.2818875312805176,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 4.24,
+      "step": 43
+    },
+    {
+      "epoch": 0.06591760299625468,
+      "grad_norm": 3.0351362228393555,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 4.6635,
+      "step": 44
+    },
+    {
+      "epoch": 0.06741573033707865,
+      "grad_norm": 2.9568066596984863,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 4.6542,
+      "step": 45
+    },
+    {
+      "epoch": 0.06741573033707865,
+      "eval_loss": 4.533878326416016,
+      "eval_runtime": 5.0476,
+      "eval_samples_per_second": 111.34,
+      "eval_steps_per_second": 14.066,
+      "step": 45
+    },
+    {
+      "epoch": 0.06891385767790262,
+      "grad_norm": 2.7085890769958496,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 4.5054,
+      "step": 46
+    },
+    {
+      "epoch": 0.07041198501872659,
+      "grad_norm": 3.3949663639068604,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 4.853,
+      "step": 47
+    },
+    {
+      "epoch": 0.07191011235955057,
+      "grad_norm": 2.987119436264038,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 4.7567,
+      "step": 48
+    },
+    {
+      "epoch": 0.07340823970037454,
+      "grad_norm": 2.469896078109741,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 4.2099,
+      "step": 49
+    },
+    {
+      "epoch": 0.0749063670411985,
+      "grad_norm": 2.4648237228393555,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 4.3734,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 13574760038400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null