Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +405 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:642f477bb24d61218babd0670664f3a4df918b5d8bb35c0f50583a34a92be0b7
 size 242266152

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd8fcbf20a23a54843f4f02f9ee58f4c759f2629d56922d1bfcda1deeed89204
 size 242266152

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:639e62b4dffb7f663a3bddbc13c477870e8d84e0071e56ab04cc450206838a09
 size 484650042

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e9a42b84599d237dd2eeb15587074c3e8008db0e0422582ba91d642b057d623
 size 484650042

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:324b380e4b844f229ef1eb78c684dbffa81653737123018b945caa09ff6d0595
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2bc52f59e8c6bff4bf14e7f294210c35627b5e5f0f51cb11a975faa9e7492b2
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:824a429c5f95423b97fd2ff7dc1e1dffcd96691286babb37392f00bfcecaeb1b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:31ea39dd85d8fdd7963ae8fca104a21064c32ab31d9951bd542c75f5d686bcc7
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9990680335507922,
   "eval_steps": 500,
-  "global_step": 67,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -205,6 +205,408 @@
       "learning_rate": 0.0002,
       "loss": 1.3281,
       "step": 66
     }
   ],
   "logging_steps": 2,
@@ -212,7 +614,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 4514943194996736.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9972041006523766,
   "eval_steps": 500,
+  "global_step": 201,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 1.3281,
       "step": 66
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0002,
+      "loss": 1.5778,
+      "step": 68
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0002,
+      "loss": 1.7498,
+      "step": 70
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0002,
+      "loss": 1.4881,
+      "step": 72
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0002,
+      "loss": 1.3024,
+      "step": 74
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0002,
+      "loss": 1.213,
+      "step": 76
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0002,
+      "loss": 1.1186,
+      "step": 78
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0002,
+      "loss": 1.2948,
+      "step": 80
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0002,
+      "loss": 1.4703,
+      "step": 82
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0002,
+      "loss": 1.4854,
+      "step": 84
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0002,
+      "loss": 1.8885,
+      "step": 86
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0002,
+      "loss": 1.4097,
+      "step": 88
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0002,
+      "loss": 1.3966,
+      "step": 90
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0002,
+      "loss": 1.1886,
+      "step": 92
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0002,
+      "loss": 0.8788,
+      "step": 94
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0002,
+      "loss": 1.2402,
+      "step": 96
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0002,
+      "loss": 1.3957,
+      "step": 98
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0002,
+      "loss": 1.7168,
+      "step": 100
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0002,
+      "loss": 2.1251,
+      "step": 102
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0002,
+      "loss": 1.414,
+      "step": 104
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0002,
+      "loss": 1.3645,
+      "step": 106
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0002,
+      "loss": 1.2092,
+      "step": 108
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0002,
+      "loss": 1.2043,
+      "step": 110
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0002,
+      "loss": 1.1517,
+      "step": 112
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0002,
+      "loss": 1.3399,
+      "step": 114
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0002,
+      "loss": 1.6851,
+      "step": 116
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0002,
+      "loss": 1.8936,
+      "step": 118
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0002,
+      "loss": 1.3716,
+      "step": 120
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0002,
+      "loss": 1.294,
+      "step": 122
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0002,
+      "loss": 1.3861,
+      "step": 124
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0002,
+      "loss": 1.0778,
+      "step": 126
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0002,
+      "loss": 1.1379,
+      "step": 128
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 1.3452,
+      "step": 130
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 1.278,
+      "step": 132
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0002,
+      "loss": 1.3397,
+      "step": 134
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0002,
+      "loss": 2.2703,
+      "step": 136
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0002,
+      "loss": 1.6646,
+      "step": 138
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0002,
+      "loss": 1.2176,
+      "step": 140
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0002,
+      "loss": 1.1505,
+      "step": 142
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0002,
+      "loss": 1.0954,
+      "step": 144
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0002,
+      "loss": 0.8709,
+      "step": 146
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0002,
+      "loss": 0.9939,
+      "step": 148
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0002,
+      "loss": 0.8664,
+      "step": 150
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0002,
+      "loss": 2.2894,
+      "step": 152
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0002,
+      "loss": 1.344,
+      "step": 154
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0002,
+      "loss": 1.3445,
+      "step": 156
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0002,
+      "loss": 1.3249,
+      "step": 158
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0002,
+      "loss": 1.0913,
+      "step": 160
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0002,
+      "loss": 1.0874,
+      "step": 162
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0002,
+      "loss": 1.0708,
+      "step": 164
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0002,
+      "loss": 0.9724,
+      "step": 166
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0002,
+      "loss": 2.274,
+      "step": 168
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.0002,
+      "loss": 1.577,
+      "step": 170
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0002,
+      "loss": 1.3309,
+      "step": 172
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0002,
+      "loss": 1.2529,
+      "step": 174
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0002,
+      "loss": 1.0096,
+      "step": 176
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0002,
+      "loss": 0.8955,
+      "step": 178
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.0002,
+      "loss": 1.1604,
+      "step": 180
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0002,
+      "loss": 0.9809,
+      "step": 182
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0002,
+      "loss": 2.0555,
+      "step": 184
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0002,
+      "loss": 1.3211,
+      "step": 186
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.0002,
+      "loss": 1.2553,
+      "step": 188
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0002,
+      "loss": 1.3017,
+      "step": 190
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.0002,
+      "loss": 1.0527,
+      "step": 192
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0002,
+      "loss": 1.0405,
+      "step": 194
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.0002,
+      "loss": 1.0728,
+      "step": 196
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.0002,
+      "loss": 0.9397,
+      "step": 198
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.0002,
+      "loss": 1.0564,
+      "step": 200
     }
   ],
   "logging_steps": 2,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 1.3543695925420032e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null