Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f0c9695bce9b5857d2118a769bb184bca737d5dfc022cd6ecfb91f3bd5a604c
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:d264dda68f41fba6eb5dba9a585a510fb9b3d753af81ccec1015005947682235
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d50bcb5ab4a8a37a1ddf718c2380e06ebea05b459d8ff856c14fda6cff2a26a9
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:1083c750e495b6e6fdab421e66291d4f82cfaa07d10da4f4215fc8d6b1871154
 size 118090

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccd5f96a0c54d9c7fc696cd2de657ab87643082dd5b551287b669ca224896764
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f699f010db684a3c9930ab741407256ee8eccb1f91864778668a998661bf53e
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b163f39dfe27dc2b3dbffe608a672c5c24782a59c01d78ba19fb42e537b1c880
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb9466cb0f4406b872db94f91c941ba4e6bd8b8f75768065c30577b6082e0df3
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3c2e9f653665898599ba92c14fead2834af70cd76abf31d5deed9f0b6254a84
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:91518c078cc87b6d72db505a715dee7376a7f9856a0e02bff458e4546a5c7ee1
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b04fb1bf3df1d2f6147ab7478673cead0a366e5db2e2dbeb350bb77196eaef95
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:40ce070ec338db07ca72e7709c477efa484ca5e4bf94660875a08d69f708af27
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5953f228b44971a299d26da55a02076758d03b3520ac0e04c68962ec4a9616bc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1a647e3cb9f019d66be656f671b0f6e626eada7227d358f0d941f9f9001a15e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7692307692307693,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.284285880837946e-05,
       "loss": 10.3683,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5230244659200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5384615384615383,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.284285880837946e-05,
       "loss": 10.3683,
       "step": 25
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.3016285002231598,
+      "learning_rate": 9.188429243149824e-05,
+      "loss": 10.3652,
+      "step": 26
+    },
+    {
+      "epoch": 0.8307692307692308,
+      "grad_norm": 0.3102306127548218,
+      "learning_rate": 9.087111692794459e-05,
+      "loss": 10.3612,
+      "step": 27
+    },
+    {
+      "epoch": 0.8307692307692308,
+      "eval_loss": 10.371162414550781,
+      "eval_runtime": 0.0804,
+      "eval_samples_per_second": 1355.392,
+      "eval_steps_per_second": 49.739,
+      "step": 27
+    },
+    {
+      "epoch": 0.8615384615384616,
+      "grad_norm": 0.2973518967628479,
+      "learning_rate": 8.980465328528219e-05,
+      "loss": 10.3562,
+      "step": 28
+    },
+    {
+      "epoch": 0.8923076923076924,
+      "grad_norm": 0.27339646220207214,
+      "learning_rate": 8.868629196864182e-05,
+      "loss": 10.3745,
+      "step": 29
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 0.30518829822540283,
+      "learning_rate": 8.751749110782012e-05,
+      "loss": 10.3788,
+      "step": 30
+    },
+    {
+      "epoch": 0.9538461538461539,
+      "grad_norm": 0.30676740407943726,
+      "learning_rate": 8.629977459615655e-05,
+      "loss": 10.3631,
+      "step": 31
+    },
+    {
+      "epoch": 0.9846153846153847,
+      "grad_norm": 0.3426137864589691,
+      "learning_rate": 8.503473010366713e-05,
+      "loss": 10.3782,
+      "step": 32
+    },
+    {
+      "epoch": 1.0153846153846153,
+      "grad_norm": 0.43814149498939514,
+      "learning_rate": 8.37240070070257e-05,
+      "loss": 14.7399,
+      "step": 33
+    },
+    {
+      "epoch": 1.0461538461538462,
+      "grad_norm": 0.39517074823379517,
+      "learning_rate": 8.236931423909138e-05,
+      "loss": 11.6581,
+      "step": 34
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "grad_norm": 0.286582887172699,
+      "learning_rate": 8.097241806078615e-05,
+      "loss": 9.8718,
+      "step": 35
+    },
+    {
+      "epoch": 1.1076923076923078,
+      "grad_norm": 0.3339255154132843,
+      "learning_rate": 7.953513975822755e-05,
+      "loss": 9.8388,
+      "step": 36
+    },
+    {
+      "epoch": 1.1076923076923078,
+      "eval_loss": 10.362679481506348,
+      "eval_runtime": 0.0735,
+      "eval_samples_per_second": 1482.077,
+      "eval_steps_per_second": 54.388,
+      "step": 36
+    },
+    {
+      "epoch": 1.1384615384615384,
+      "grad_norm": 0.38969117403030396,
+      "learning_rate": 7.805935326811912e-05,
+      "loss": 9.6292,
+      "step": 37
+    },
+    {
+      "epoch": 1.1692307692307693,
+      "grad_norm": 0.4563569724559784,
+      "learning_rate": 7.654698273449435e-05,
+      "loss": 11.4989,
+      "step": 38
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.5030809044837952,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 11.8672,
+      "step": 39
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": 0.32794782519340515,
+      "learning_rate": 7.342042203498951e-05,
+      "loss": 9.4949,
+      "step": 40
+    },
+    {
+      "epoch": 1.2615384615384615,
+      "grad_norm": 0.3771244287490845,
+      "learning_rate": 7.181030830777837e-05,
+      "loss": 8.6339,
+      "step": 41
+    },
+    {
+      "epoch": 1.2923076923076924,
+      "grad_norm": 0.37634986639022827,
+      "learning_rate": 7.017175809949044e-05,
+      "loss": 9.5719,
+      "step": 42
+    },
+    {
+      "epoch": 1.323076923076923,
+      "grad_norm": 0.5357686877250671,
+      "learning_rate": 6.850690776699573e-05,
+      "loss": 13.4886,
+      "step": 43
+    },
+    {
+      "epoch": 1.353846153846154,
+      "grad_norm": 0.41375601291656494,
+      "learning_rate": 6.681792795750875e-05,
+      "loss": 10.2368,
+      "step": 44
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "grad_norm": 0.3804188370704651,
+      "learning_rate": 6.510702077847863e-05,
+      "loss": 8.42,
+      "step": 45
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "eval_loss": 10.35329532623291,
+      "eval_runtime": 0.0829,
+      "eval_samples_per_second": 1314.084,
+      "eval_steps_per_second": 48.223,
+      "step": 45
+    },
+    {
+      "epoch": 1.4153846153846155,
+      "grad_norm": 0.5498846173286438,
+      "learning_rate": 6.337641692646106e-05,
+      "loss": 10.7262,
+      "step": 46
+    },
+    {
+      "epoch": 1.4461538461538461,
+      "grad_norm": 0.4699338972568512,
+      "learning_rate": 6.162837277871553e-05,
+      "loss": 10.9246,
+      "step": 47
+    },
+    {
+      "epoch": 1.476923076923077,
+      "grad_norm": 0.47309648990631104,
+      "learning_rate": 5.9865167451320005e-05,
+      "loss": 10.4618,
+      "step": 48
+    },
+    {
+      "epoch": 1.5076923076923077,
+      "grad_norm": 0.44090601801872253,
+      "learning_rate": 5.808909982763825e-05,
+      "loss": 9.5822,
+      "step": 49
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 0.6003273129463196,
+      "learning_rate": 5.6302485561014475e-05,
+      "loss": 12.5208,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 10460489318400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null