Training in progress, step 462, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73933fec6f39ff31db8b4063588eb471127f6937633d45d1c3cc37e646eb1f1a
 size 251748704

 version https://git-lfs.github.com/spec/v1
+oid sha256:37cf3369fc4b4dddec6b9e317be776ded9712a8b15466e0d98ba0bf3e66afe57
 size 251748704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c5760d20545fd2a01ca6f9f4c34b708052b116e7c07230cf2bf22840626e187
 size 128585300

 version https://git-lfs.github.com/spec/v1
+oid sha256:83bd32947a229874ca5ba692cc6fb122702696c30165573bcc776cd8f51d33ec
 size 128585300

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e2e8252e83bd5cb5ab2bae1256afc20758f78bcd5fbe5ea0d60fb2a141e1a7d
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ad549467aee21b1d7841355db396e8f80727b2cce0c91d316fca55cfd3f145e
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:351eb17693dc7c368b46ffc4b9a63a06cd04709ba8be0c043bb013a87b50a082
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6aabdae8fa17d1f82073d1f2d4117f3b2c974d593012d8b40bf05683705e1d30
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35311861be4c0bd5f63e4e6b59540c760ecd18629f1a0c00f03730317db34397
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:89849a77ec6561cbbf56f2e2c9c58d90b30d57d1de75d3864248f6cbf0735630
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce723a195946d3a4ab64decb27f015fa2225e0bf59a73b5ef3fc3b70f932fbcc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdb8f124b2e4b7af08f331fbd2f11e354c981be3f4ab87e1dc330486d9d9d31d
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7641dde43bc7a22d17d22ddcaa29ef3541065d43d71357b77f45ce61017cfec
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9a75ab01cc15879cd61ff8e586fb370a9b8a51bf7b319e44e27d87274e2e703
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4788732394366197,
   "eval_steps": 42,
-  "global_step": 420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1075,6 +1075,112 @@
       "eval_samples_per_second": 57.06,
       "eval_steps_per_second": 1.79,
       "step": 420
     }
   ],
   "logging_steps": 3,
@@ -1094,7 +1200,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.5221252114009293e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.6267605633802817,
   "eval_steps": 42,
+  "global_step": 462,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.06,
       "eval_steps_per_second": 1.79,
       "step": 420
+    },
+    {
+      "epoch": 1.48943661971831,
+      "grad_norm": 1.5658754110336304,
+      "learning_rate": 2.98511170358155e-06,
+      "loss": 0.452,
+      "step": 423
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 1.5586401224136353,
+      "learning_rate": 2.7613352995397078e-06,
+      "loss": 0.4307,
+      "step": 426
+    },
+    {
+      "epoch": 1.51056338028169,
+      "grad_norm": 1.8097403049468994,
+      "learning_rate": 2.545785969664524e-06,
+      "loss": 0.4415,
+      "step": 429
+    },
+    {
+      "epoch": 1.5211267605633803,
+      "grad_norm": 2.813575267791748,
+      "learning_rate": 2.338543455269046e-06,
+      "loss": 0.4346,
+      "step": 432
+    },
+    {
+      "epoch": 1.5316901408450705,
+      "grad_norm": 1.5137277841567993,
+      "learning_rate": 2.1396844246046903e-06,
+      "loss": 0.4203,
+      "step": 435
+    },
+    {
+      "epoch": 1.5422535211267605,
+      "grad_norm": 1.5360363721847534,
+      "learning_rate": 1.949282444498238e-06,
+      "loss": 0.4264,
+      "step": 438
+    },
+    {
+      "epoch": 1.5528169014084507,
+      "grad_norm": 1.4588457345962524,
+      "learning_rate": 1.767407953136202e-06,
+      "loss": 0.4363,
+      "step": 441
+    },
+    {
+      "epoch": 1.563380281690141,
+      "grad_norm": 1.5039774179458618,
+      "learning_rate": 1.59412823400657e-06,
+      "loss": 0.4399,
+      "step": 444
+    },
+    {
+      "epoch": 1.573943661971831,
+      "grad_norm": 1.6695863008499146,
+      "learning_rate": 1.4295073910076757e-06,
+      "loss": 0.4678,
+      "step": 447
+    },
+    {
+      "epoch": 1.584507042253521,
+      "grad_norm": 1.5582469701766968,
+      "learning_rate": 1.273606324733284e-06,
+      "loss": 0.4264,
+      "step": 450
+    },
+    {
+      "epoch": 1.5950704225352113,
+      "grad_norm": 1.6020346879959106,
+      "learning_rate": 1.1264827099427417e-06,
+      "loss": 0.4423,
+      "step": 453
+    },
+    {
+      "epoch": 1.6056338028169015,
+      "grad_norm": 1.8120399713516235,
+      "learning_rate": 9.881909742245177e-07,
+      "loss": 0.4793,
+      "step": 456
+    },
+    {
+      "epoch": 1.6161971830985915,
+      "grad_norm": 1.804922342300415,
+      "learning_rate": 8.587822778610283e-07,
+      "loss": 0.4396,
+      "step": 459
+    },
+    {
+      "epoch": 1.6267605633802817,
+      "grad_norm": 1.4649447202682495,
+      "learning_rate": 7.383044949021339e-07,
+      "loss": 0.4505,
+      "step": 462
+    },
+    {
+      "epoch": 1.6267605633802817,
+      "eval_loss": 0.12798862159252167,
+      "eval_runtime": 33.5293,
+      "eval_samples_per_second": 57.055,
+      "eval_steps_per_second": 1.789,
+      "step": 462
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 3.874337732541022e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null