Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccec2d7e7d9a8fe3a9da04fc35495a9c7cd4b46da3ccd784b5db53f7c9e1f181
 size 671434608

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a31971a58849b4a12d8ac648798fc0f05b811817f74456cfdba06ff1636d670
 size 671434608

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b82fb4be186f9e8ae676728329d4cb52cfdab334d62be7d72db24a4d8ce73e16
 size 1276231290

 version https://git-lfs.github.com/spec/v1
+oid sha256:297074a9b7b0f23b6bbf12e666d6f2755799c68b5e7d01f9e51b7b599bc8b98b
 size 1276231290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60aebc212e8a69f4e378db23a158fb4f9ba6a046c7ddd46b53cedf90866279b4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a28b9e17624cbffdee0c55ba7bebd5cac62edac5d5ac3563af0b4d9535da9128
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:716d7ef0d2def98440e32b2cba336f73e613b85c0427aef8f0c8a6789d61bd46
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:83dd037c783110e2dc4f61307500d62937b8821c50649baf8ed55dd7f5bddf19
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.6571546792984009,
   "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 1.4558689717925386,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 18.021,
       "eval_steps_per_second": 18.021,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.501533310418862e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.6571546792984009,
   "best_model_checkpoint": "./output/checkpoint-4800",
+  "epoch": 1.5013648771610555,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 18.021,
       "eval_steps_per_second": 18.021,
       "step": 4800
+    },
+    {
+      "epoch": 1.4589020321504398,
+      "grad_norm": 5.769156455993652,
+      "learning_rate": 8.285193919530187e-08,
+      "loss": 1.5984,
+      "step": 4810
+    },
+    {
+      "epoch": 1.461935092508341,
+      "grad_norm": 5.144918918609619,
+      "learning_rate": 7.436961672649524e-08,
+      "loss": 1.6901,
+      "step": 4820
+    },
+    {
+      "epoch": 1.4649681528662422,
+      "grad_norm": 5.075084209442139,
+      "learning_rate": 6.634381719640962e-08,
+      "loss": 1.5174,
+      "step": 4830
+    },
+    {
+      "epoch": 1.4680012132241431,
+      "grad_norm": 5.216006755828857,
+      "learning_rate": 5.877487051422937e-08,
+      "loss": 1.5321,
+      "step": 4840
+    },
+    {
+      "epoch": 1.4710342735820443,
+      "grad_norm": 8.717110633850098,
+      "learning_rate": 5.166308780970642e-08,
+      "loss": 1.6377,
+      "step": 4850
+    },
+    {
+      "epoch": 1.4740673339399453,
+      "grad_norm": 5.453124046325684,
+      "learning_rate": 4.500876142037269e-08,
+      "loss": 1.6714,
+      "step": 4860
+    },
+    {
+      "epoch": 1.4771003942978465,
+      "grad_norm": 5.318697452545166,
+      "learning_rate": 3.881216487952338e-08,
+      "loss": 1.6432,
+      "step": 4870
+    },
+    {
+      "epoch": 1.4801334546557476,
+      "grad_norm": 6.068436622619629,
+      "learning_rate": 3.307355290497236e-08,
+      "loss": 1.7092,
+      "step": 4880
+    },
+    {
+      "epoch": 1.4831665150136488,
+      "grad_norm": 5.962771892547607,
+      "learning_rate": 2.7793161388579562e-08,
+      "loss": 1.6033,
+      "step": 4890
+    },
+    {
+      "epoch": 1.48619957537155,
+      "grad_norm": 4.829797744750977,
+      "learning_rate": 2.2971207386559186e-08,
+      "loss": 1.6143,
+      "step": 4900
+    },
+    {
+      "epoch": 1.489232635729451,
+      "grad_norm": 6.161274433135986,
+      "learning_rate": 1.8607889110554993e-08,
+      "loss": 1.7965,
+      "step": 4910
+    },
+    {
+      "epoch": 1.4922656960873522,
+      "grad_norm": 4.904613494873047,
+      "learning_rate": 1.4703385919488896e-08,
+      "loss": 1.6993,
+      "step": 4920
+    },
+    {
+      "epoch": 1.4952987564452533,
+      "grad_norm": 4.569924831390381,
+      "learning_rate": 1.1257858312197773e-08,
+      "loss": 1.5614,
+      "step": 4930
+    },
+    {
+      "epoch": 1.4983318168031543,
+      "grad_norm": 5.395485877990723,
+      "learning_rate": 8.271447920822464e-09,
+      "loss": 1.5956,
+      "step": 4940
+    },
+    {
+      "epoch": 1.5013648771610555,
+      "grad_norm": 4.67278528213501,
+      "learning_rate": 5.744277504999899e-09,
+      "loss": 1.6142,
+      "step": 4950
+    },
+    {
+      "epoch": 1.5013648771610555,
+      "eval_loss": 1.6572741270065308,
+      "eval_runtime": 27.6097,
+      "eval_samples_per_second": 18.146,
+      "eval_steps_per_second": 18.146,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.671970128732078e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null