Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ec27592997c3dc571ae8552c2ff24cfaf81c3bf6ad5b361aabc22131a3f3ed9
 size 156926880

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9d612c0997bc22e6fcf98b99cfa6238296f13c9f95c1a81f2a1c6b2ce0786d2
 size 156926880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9638207528f9e4e868b0b4bebad0e8a43fa309fac408760e52a403d55305607f
 size 79968772

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e750bf5be48258f546e038f0163ea693a472e9b5918db1367ea6cdc7e0c5120
 size 79968772

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4bffd8813d350fde8708c80ee2ea12b53b6639429972e4ed16deac898a04e31
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d5de4a339021b72a3e9bfb340573f3317818a3b68eef13cde099dd4afcb9288
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d027de694a0a716b41fffb32866ba8b6570b1c754bda578c49c1f60b997cbc46
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fc864cceb365e111779b7aa13efa5984edec637b413f1c931e43a1b11314c08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.9951374530792236,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.4149377593360996,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 28.443,
       "eval_steps_per_second": 7.146,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.98682972520448e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3937488794326782,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.8298755186721992,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 28.443,
       "eval_steps_per_second": 7.146,
       "step": 50
+    },
+    {
+      "epoch": 0.42323651452282157,
+      "grad_norm": 5.736331462860107,
+      "learning_rate": 9.66709978038292e-05,
+      "loss": 2.2465,
+      "step": 51
+    },
+    {
+      "epoch": 0.4315352697095436,
+      "grad_norm": 5.308639049530029,
+      "learning_rate": 9.650856666246693e-05,
+      "loss": 2.1472,
+      "step": 52
+    },
+    {
+      "epoch": 0.43983402489626555,
+      "grad_norm": 4.070306301116943,
+      "learning_rate": 9.634240975516209e-05,
+      "loss": 1.5106,
+      "step": 53
+    },
+    {
+      "epoch": 0.44813278008298757,
+      "grad_norm": 4.719001293182373,
+      "learning_rate": 9.617254039261834e-05,
+      "loss": 1.5839,
+      "step": 54
+    },
+    {
+      "epoch": 0.45643153526970953,
+      "grad_norm": 8.284409523010254,
+      "learning_rate": 9.599897218294122e-05,
+      "loss": 1.9048,
+      "step": 55
+    },
+    {
+      "epoch": 0.46473029045643155,
+      "grad_norm": 5.499932765960693,
+      "learning_rate": 9.582171903054816e-05,
+      "loss": 2.0164,
+      "step": 56
+    },
+    {
+      "epoch": 0.4730290456431535,
+      "grad_norm": 4.232677936553955,
+      "learning_rate": 9.564079513505455e-05,
+      "loss": 1.6968,
+      "step": 57
+    },
+    {
+      "epoch": 0.48132780082987553,
+      "grad_norm": 6.6102776527404785,
+      "learning_rate": 9.54562149901362e-05,
+      "loss": 2.1707,
+      "step": 58
+    },
+    {
+      "epoch": 0.4896265560165975,
+      "grad_norm": 5.499170303344727,
+      "learning_rate": 9.526799338236827e-05,
+      "loss": 2.1749,
+      "step": 59
+    },
+    {
+      "epoch": 0.4979253112033195,
+      "grad_norm": 6.410165309906006,
+      "learning_rate": 9.507614539004082e-05,
+      "loss": 2.0269,
+      "step": 60
+    },
+    {
+      "epoch": 0.5062240663900415,
+      "grad_norm": 4.395339488983154,
+      "learning_rate": 9.48806863819507e-05,
+      "loss": 1.5799,
+      "step": 61
+    },
+    {
+      "epoch": 0.5145228215767634,
+      "grad_norm": 5.214993953704834,
+      "learning_rate": 9.468163201617062e-05,
+      "loss": 1.4865,
+      "step": 62
+    },
+    {
+      "epoch": 0.5228215767634855,
+      "grad_norm": 7.040699005126953,
+      "learning_rate": 9.447899823879456e-05,
+      "loss": 2.0153,
+      "step": 63
+    },
+    {
+      "epoch": 0.5311203319502075,
+      "grad_norm": 5.472765922546387,
+      "learning_rate": 9.42728012826605e-05,
+      "loss": 1.9123,
+      "step": 64
+    },
+    {
+      "epoch": 0.5394190871369294,
+      "grad_norm": 5.13813591003418,
+      "learning_rate": 9.406305766604995e-05,
+      "loss": 1.8829,
+      "step": 65
+    },
+    {
+      "epoch": 0.5477178423236515,
+      "grad_norm": 5.717247486114502,
+      "learning_rate": 9.384978419136468e-05,
+      "loss": 2.0948,
+      "step": 66
+    },
+    {
+      "epoch": 0.5560165975103735,
+      "grad_norm": 5.990386962890625,
+      "learning_rate": 9.363299794378073e-05,
+      "loss": 1.8932,
+      "step": 67
+    },
+    {
+      "epoch": 0.5643153526970954,
+      "grad_norm": 7.660478591918945,
+      "learning_rate": 9.341271628987968e-05,
+      "loss": 2.3816,
+      "step": 68
+    },
+    {
+      "epoch": 0.5726141078838174,
+      "grad_norm": 4.8774027824401855,
+      "learning_rate": 9.318895687625751e-05,
+      "loss": 1.6324,
+      "step": 69
+    },
+    {
+      "epoch": 0.5809128630705395,
+      "grad_norm": 5.0475568771362305,
+      "learning_rate": 9.296173762811085e-05,
+      "loss": 1.5918,
+      "step": 70
+    },
+    {
+      "epoch": 0.5892116182572614,
+      "grad_norm": 4.739609718322754,
+      "learning_rate": 9.273107674780102e-05,
+      "loss": 1.3994,
+      "step": 71
+    },
+    {
+      "epoch": 0.5975103734439834,
+      "grad_norm": 6.396079063415527,
+      "learning_rate": 9.249699271339593e-05,
+      "loss": 1.8884,
+      "step": 72
+    },
+    {
+      "epoch": 0.6058091286307054,
+      "grad_norm": 6.702268600463867,
+      "learning_rate": 9.225950427718975e-05,
+      "loss": 2.0607,
+      "step": 73
+    },
+    {
+      "epoch": 0.6141078838174274,
+      "grad_norm": 4.683436393737793,
+      "learning_rate": 9.201863046420065e-05,
+      "loss": 1.458,
+      "step": 74
+    },
+    {
+      "epoch": 0.6224066390041494,
+      "grad_norm": 5.798123359680176,
+      "learning_rate": 9.177439057064683e-05,
+      "loss": 1.9928,
+      "step": 75
+    },
+    {
+      "epoch": 0.6307053941908713,
+      "grad_norm": 6.20752477645874,
+      "learning_rate": 9.152680416240059e-05,
+      "loss": 2.0453,
+      "step": 76
+    },
+    {
+      "epoch": 0.6390041493775933,
+      "grad_norm": 4.803196430206299,
+      "learning_rate": 9.1275891073421e-05,
+      "loss": 1.6836,
+      "step": 77
+    },
+    {
+      "epoch": 0.6473029045643154,
+      "grad_norm": 5.217916011810303,
+      "learning_rate": 9.102167140416503e-05,
+      "loss": 1.5624,
+      "step": 78
+    },
+    {
+      "epoch": 0.6556016597510373,
+      "grad_norm": 5.689030170440674,
+      "learning_rate": 9.076416551997721e-05,
+      "loss": 1.2365,
+      "step": 79
+    },
+    {
+      "epoch": 0.6639004149377593,
+      "grad_norm": 5.20029878616333,
+      "learning_rate": 9.050339404945833e-05,
+      "loss": 1.5095,
+      "step": 80
+    },
+    {
+      "epoch": 0.6721991701244814,
+      "grad_norm": 7.432442665100098,
+      "learning_rate": 9.023937788281278e-05,
+      "loss": 2.1264,
+      "step": 81
+    },
+    {
+      "epoch": 0.6804979253112033,
+      "grad_norm": 5.681693077087402,
+      "learning_rate": 8.997213817017507e-05,
+      "loss": 1.5059,
+      "step": 82
+    },
+    {
+      "epoch": 0.6887966804979253,
+      "grad_norm": 6.367238521575928,
+      "learning_rate": 8.970169631991556e-05,
+      "loss": 1.5183,
+      "step": 83
+    },
+    {
+      "epoch": 0.6970954356846473,
+      "grad_norm": 7.021786212921143,
+      "learning_rate": 8.942807399692543e-05,
+      "loss": 1.8657,
+      "step": 84
+    },
+    {
+      "epoch": 0.7053941908713693,
+      "grad_norm": 6.1124587059021,
+      "learning_rate": 8.915129312088112e-05,
+      "loss": 1.7342,
+      "step": 85
+    },
+    {
+      "epoch": 0.7136929460580913,
+      "grad_norm": 6.746445655822754,
+      "learning_rate": 8.88713758644883e-05,
+      "loss": 1.7254,
+      "step": 86
+    },
+    {
+      "epoch": 0.7219917012448133,
+      "grad_norm": 5.889866828918457,
+      "learning_rate": 8.858834465170576e-05,
+      "loss": 1.6482,
+      "step": 87
+    },
+    {
+      "epoch": 0.7302904564315352,
+      "grad_norm": 6.273972511291504,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.5594,
+      "step": 88
+    },
+    {
+      "epoch": 0.7385892116182573,
+      "grad_norm": 8.849343299865723,
+      "learning_rate": 8.801303129827352e-05,
+      "loss": 1.4801,
+      "step": 89
+    },
+    {
+      "epoch": 0.7468879668049793,
+      "grad_norm": 6.7875566482543945,
+      "learning_rate": 8.772079524553951e-05,
+      "loss": 1.6455,
+      "step": 90
+    },
+    {
+      "epoch": 0.7551867219917012,
+      "grad_norm": 5.853145599365234,
+      "learning_rate": 8.742553740855506e-05,
+      "loss": 1.3349,
+      "step": 91
+    },
+    {
+      "epoch": 0.7634854771784232,
+      "grad_norm": 7.308794021606445,
+      "learning_rate": 8.712728144020118e-05,
+      "loss": 1.8087,
+      "step": 92
+    },
+    {
+      "epoch": 0.7717842323651453,
+      "grad_norm": 7.031892776489258,
+      "learning_rate": 8.682605123353685e-05,
+      "loss": 1.3419,
+      "step": 93
+    },
+    {
+      "epoch": 0.7800829875518672,
+      "grad_norm": 6.652479648590088,
+      "learning_rate": 8.652187091988517e-05,
+      "loss": 1.645,
+      "step": 94
+    },
+    {
+      "epoch": 0.7883817427385892,
+      "grad_norm": 8.24259090423584,
+      "learning_rate": 8.621476486689992e-05,
+      "loss": 1.6243,
+      "step": 95
+    },
+    {
+      "epoch": 0.7966804979253111,
+      "grad_norm": 5.5381975173950195,
+      "learning_rate": 8.59047576766137e-05,
+      "loss": 1.282,
+      "step": 96
+    },
+    {
+      "epoch": 0.8049792531120332,
+      "grad_norm": 6.3423309326171875,
+      "learning_rate": 8.559187418346703e-05,
+      "loss": 1.3701,
+      "step": 97
+    },
+    {
+      "epoch": 0.8132780082987552,
+      "grad_norm": 6.963042736053467,
+      "learning_rate": 8.527613945231885e-05,
+      "loss": 1.1813,
+      "step": 98
+    },
+    {
+      "epoch": 0.8215767634854771,
+      "grad_norm": 8.486031532287598,
+      "learning_rate": 8.495757877643858e-05,
+      "loss": 1.5802,
+      "step": 99
+    },
+    {
+      "epoch": 0.8298755186721992,
+      "grad_norm": 8.076821327209473,
+      "learning_rate": 8.463621767547998e-05,
+      "loss": 1.6718,
+      "step": 100
+    },
+    {
+      "epoch": 0.8298755186721992,
+      "eval_loss": 1.3937488794326782,
+      "eval_runtime": 7.2083,
+      "eval_samples_per_second": 28.162,
+      "eval_steps_per_second": 7.075,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.97365945040896e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null