Training in progress, step 294, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8639e4cf35bac89412a8a4dd47f897e36f7e86dc97159e12851d524408c3bfbe
 size 251748704

 version https://git-lfs.github.com/spec/v1
+oid sha256:96c596eb13b8db82a68751a2138594214d39b07a147dd04547897055834b7d77
 size 251748704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15d11b9a991a305ea4e24a740d991378e7bdb087c772f6f65f19d91bf8d6564a
-size 128584660

 version https://git-lfs.github.com/spec/v1
+oid sha256:c20d3ae67c4bad639d556720d21185f76fc24607c15065edf053a9d3a78281fc
+size 128585300

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7acdccf5cc66b61c42791dfd01a91f8a854ce9c52a1630a5ecf79a1b80ac8d20
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2bf1bdfa144734acb5d72227059f4ea9d478824668c29b9c9f85d4fed5dd2fd
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e76c92f25f2a396a5973022fb02f2ad8e4729eb895d4a8ab011b5483c5a4ffa8
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4304077ace11d9a73040105a12dccc14f1f6fa754ec7ec8ac8d56dd1b4fceb7
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:493669684e2e122ba889b5c50803cdf31c2d3ce9d4b8a85969dd9cd4a550e603
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:367493fa4c262bd150909d13b8a89c3a3001c29e61808156ddc90574a67d5755
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:013fade482032a43fbecef38a00eb8b3ce00bcd639e2273d38a5451174dfe05c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6426f051742b414e13c7752769ab4279db3e8e86e029cb1973fc3658432c9998
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fde5cce913d9c5501edc422466fae8378d9b13dc57f22397ec7fc38f7801fc24
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0316ab07671fffcd24f1d6dedeb5b41d6e5808ab64506af6cae3d569237843af
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8873239436619719,
   "eval_steps": 42,
-  "global_step": 252,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -651,6 +651,112 @@
       "eval_samples_per_second": 57.033,
       "eval_steps_per_second": 1.789,
       "step": 252
     }
   ],
   "logging_steps": 3,
@@ -670,7 +776,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1132751268405576e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0352112676056338,
   "eval_steps": 42,
+  "global_step": 294,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.033,
       "eval_steps_per_second": 1.789,
       "step": 252
+    },
+    {
+      "epoch": 0.897887323943662,
+      "grad_norm": 1.5652258396148682,
+      "learning_rate": 2.5e-05,
+      "loss": 0.5204,
+      "step": 255
+    },
+    {
+      "epoch": 0.9084507042253521,
+      "grad_norm": 1.7161169052124023,
+      "learning_rate": 2.4519173630307825e-05,
+      "loss": 0.5507,
+      "step": 258
+    },
+    {
+      "epoch": 0.9190140845070423,
+      "grad_norm": 1.455829381942749,
+      "learning_rate": 2.403852513974004e-05,
+      "loss": 0.5352,
+      "step": 261
+    },
+    {
+      "epoch": 0.9295774647887324,
+      "grad_norm": 1.7038428783416748,
+      "learning_rate": 2.3558232341615643e-05,
+      "loss": 0.5343,
+      "step": 264
+    },
+    {
+      "epoch": 0.9401408450704225,
+      "grad_norm": 1.3477355241775513,
+      "learning_rate": 2.3078472917667092e-05,
+      "loss": 0.5213,
+      "step": 267
+    },
+    {
+      "epoch": 0.9507042253521126,
+      "grad_norm": 1.510071039199829,
+      "learning_rate": 2.2599424352307957e-05,
+      "loss": 0.5502,
+      "step": 270
+    },
+    {
+      "epoch": 0.9612676056338029,
+      "grad_norm": 1.5797042846679688,
+      "learning_rate": 2.212126386697352e-05,
+      "loss": 0.5568,
+      "step": 273
+    },
+    {
+      "epoch": 0.971830985915493,
+      "grad_norm": 1.6164652109146118,
+      "learning_rate": 2.164416835455862e-05,
+      "loss": 0.5321,
+      "step": 276
+    },
+    {
+      "epoch": 0.9823943661971831,
+      "grad_norm": 1.586676836013794,
+      "learning_rate": 2.11683143139771e-05,
+      "loss": 0.5525,
+      "step": 279
+    },
+    {
+      "epoch": 0.9929577464788732,
+      "grad_norm": 1.4788326025009155,
+      "learning_rate": 2.069387778486703e-05,
+      "loss": 0.5534,
+      "step": 282
+    },
+    {
+      "epoch": 1.0035211267605635,
+      "grad_norm": 1.3445155620574951,
+      "learning_rate": 2.02210342824657e-05,
+      "loss": 0.5317,
+      "step": 285
+    },
+    {
+      "epoch": 1.0140845070422535,
+      "grad_norm": 1.3771849870681763,
+      "learning_rate": 1.9749958732678767e-05,
+      "loss": 0.5034,
+      "step": 288
+    },
+    {
+      "epoch": 1.0246478873239437,
+      "grad_norm": 1.3646653890609741,
+      "learning_rate": 1.928082540736737e-05,
+      "loss": 0.4771,
+      "step": 291
+    },
+    {
+      "epoch": 1.0352112676056338,
+      "grad_norm": 1.2086783647537231,
+      "learning_rate": 1.8813807859877147e-05,
+      "loss": 0.4207,
+      "step": 294
+    },
+    {
+      "epoch": 1.0352112676056338,
+      "eval_loss": 0.13161411881446838,
+      "eval_runtime": 33.5416,
+      "eval_samples_per_second": 57.034,
+      "eval_steps_per_second": 1.789,
+      "step": 294
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 2.4654876479806505e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null