Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73adbb855bb4406f435bd6142c9120d0f5b060258e628c4df046ea940bccb9e3
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:2720a35ade2b2f2855f7b8b998a1600e78a64270d1855b8c7df57364f10256d6
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48c44881fc460d6d38a333c3ef4b07b86b8b4a500fd40ce48e151b6f2f7d4dc1
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:440a4a8790ebb1c1beccc76bc5c0ff2d35d8a51f577f18f1b985e5603ee363e4
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad93fcdb70f6fa2f2ddb404c75aca817b00ee9bdee3fec9b1c3fa6b7d95ac894
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f125dce87a0e742caf0e7acc7848c8da3c650e09d1a450983b58ef90bd097037
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5d0b0ded7fee2d0d81f63543d306d7f76a6ad3be1224932bbf56a2de8051fca
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:49801294c9cff051a5d28aeccd00b5cbe4deb83a6803efa48bca36f57c982f42
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2fe44a5c1668ea2c123f3d6f95afa3c4cf0e3e883a83c4ea1099db7846a4c02
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b59b456e080de448d3156f37250ef9d3779cb895ad7da267d947487e2b79d8a1
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc82a141e843fdc06bb404ca13ac0dfc517f5acf605935a310cf9c78c74b06e8
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec3887221067ec7ff61e14b79270d5af56740130070d10ac0a2a50f69324e78a
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37b2aa490ccb1598b01e14cda36e9081f7ce646deab4d3c2d03de0d2169a755
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8193092346191406,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.13684570646595964,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 14.816,
       "eval_steps_per_second": 1.854,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.984041808658432e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7366423606872559,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.2736914129319193,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.816,
       "eval_steps_per_second": 1.854,
       "step": 25
+    },
+    {
+      "epoch": 0.14231953472459802,
+      "grad_norm": 9.52985954284668,
+      "learning_rate": 5e-05,
+      "loss": 0.4696,
+      "step": 26
+    },
+    {
+      "epoch": 0.1477933629832364,
+      "grad_norm": 8.148707389831543,
+      "learning_rate": 4.6729843538492847e-05,
+      "loss": 0.4566,
+      "step": 27
+    },
+    {
+      "epoch": 0.1532671912418748,
+      "grad_norm": 7.2753167152404785,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 0.4514,
+      "step": 28
+    },
+    {
+      "epoch": 0.15874101950051317,
+      "grad_norm": 6.7363362312316895,
+      "learning_rate": 4.0245483899193595e-05,
+      "loss": 0.4166,
+      "step": 29
+    },
+    {
+      "epoch": 0.16421484775915154,
+      "grad_norm": 6.560089111328125,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.3864,
+      "step": 30
+    },
+    {
+      "epoch": 0.16968867601778995,
+      "grad_norm": 5.433276653289795,
+      "learning_rate": 3.392802673484193e-05,
+      "loss": 0.3603,
+      "step": 31
+    },
+    {
+      "epoch": 0.17516250427642832,
+      "grad_norm": 4.504647731781006,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 0.3751,
+      "step": 32
+    },
+    {
+      "epoch": 0.18063633253506672,
+      "grad_norm": 29.756072998046875,
+      "learning_rate": 2.7885565489049946e-05,
+      "loss": 1.2571,
+      "step": 33
+    },
+    {
+      "epoch": 0.1861101607937051,
+      "grad_norm": 21.17481231689453,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.3568,
+      "step": 34
+    },
+    {
+      "epoch": 0.19158398905234347,
+      "grad_norm": 25.06121063232422,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 1.5469,
+      "step": 35
+    },
+    {
+      "epoch": 0.19705781731098188,
+      "grad_norm": 26.118518829345703,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 1.5774,
+      "step": 36
+    },
+    {
+      "epoch": 0.20253164556962025,
+      "grad_norm": 25.818099975585938,
+      "learning_rate": 1.703270924499656e-05,
+      "loss": 1.391,
+      "step": 37
+    },
+    {
+      "epoch": 0.20800547382825862,
+      "grad_norm": 10.016300201416016,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.7467,
+      "step": 38
+    },
+    {
+      "epoch": 0.21347930208689703,
+      "grad_norm": 4.078773021697998,
+      "learning_rate": 1.2408009626051137e-05,
+      "loss": 0.3262,
+      "step": 39
+    },
+    {
+      "epoch": 0.2189531303455354,
+      "grad_norm": 3.9033899307250977,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 0.3171,
+      "step": 40
+    },
+    {
+      "epoch": 0.2244269586041738,
+      "grad_norm": 4.623664379119873,
+      "learning_rate": 8.426519384872733e-06,
+      "loss": 0.3126,
+      "step": 41
+    },
+    {
+      "epoch": 0.22990078686281218,
+      "grad_norm": 3.3982760906219482,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.3121,
+      "step": 42
+    },
+    {
+      "epoch": 0.23537461512145055,
+      "grad_norm": 3.1137397289276123,
+      "learning_rate": 5.156362923365588e-06,
+      "loss": 0.3226,
+      "step": 43
+    },
+    {
+      "epoch": 0.24084844338008896,
+      "grad_norm": 3.218012571334839,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 0.3051,
+      "step": 44
+    },
+    {
+      "epoch": 0.24632227163872733,
+      "grad_norm": 16.81735610961914,
+      "learning_rate": 2.653493525244721e-06,
+      "loss": 0.8468,
+      "step": 45
+    },
+    {
+      "epoch": 0.25179609989736573,
+      "grad_norm": 32.98430633544922,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 1.2786,
+      "step": 46
+    },
+    {
+      "epoch": 0.2572699281560041,
+      "grad_norm": 22.147462844848633,
+      "learning_rate": 9.607359798384785e-07,
+      "loss": 1.2577,
+      "step": 47
+    },
+    {
+      "epoch": 0.2627437564146425,
+      "grad_norm": 24.14130973815918,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 1.2225,
+      "step": 48
+    },
+    {
+      "epoch": 0.2682175846732809,
+      "grad_norm": 23.990203857421875,
+      "learning_rate": 1.0705383806982606e-07,
+      "loss": 1.2855,
+      "step": 49
+    },
+    {
+      "epoch": 0.2736914129319193,
+      "grad_norm": 23.418981552124023,
+      "learning_rate": 0.0,
+      "loss": 1.2908,
+      "step": 50
+    },
+    {
+      "epoch": 0.2736914129319193,
+      "eval_loss": 0.7366423606872559,
+      "eval_runtime": 83.0375,
+      "eval_samples_per_second": 14.825,
+      "eval_steps_per_second": 1.855,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.968083617316864e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null