Training in progress, step 340, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:071f7490848f8db3ad947d28a481e886b6fde2c39706ecda5845c4bc262c6edc
 size 72396376

 version https://git-lfs.github.com/spec/v1
+oid sha256:b35927f06b80d26e3132911d1799d75251e7e6f71fcf0af72ef64fef8170870a
 size 72396376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5406715c6c25e67ddc39831f5deb857fe1d7b8610da87d62b53c698479ed0c0
 size 37134740

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc56f5223c6ddbd7f71b1177c33bd87cfc42ca847c24b1ed458640671a0fbb09
 size 37134740

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:686cb4067140cd81e5c35c9c423deb1a7cd2b969cc1b59549029227a11d67047
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e070c1a19e2f7fe8d8783d14cf6c4980c084d0861be459da7f60717ee83ba20f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:542eeb761eff9bd2c88163850a5018d7ed947bdab57ea917e6e376b6cb0c0259
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6999f9aad8d44fbf7db1d80d56ad86630abb8e28a7187e80ed24f8546462146
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08700597099800966,
   "eval_steps": 34,
-  "global_step": 306,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -801,6 +801,91 @@
       "eval_samples_per_second": 35.255,
       "eval_steps_per_second": 4.41,
       "step": 306
     }
   ],
   "logging_steps": 3,
@@ -820,7 +905,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.799200538833715e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09667330110889963,
   "eval_steps": 34,
+  "global_step": 340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.255,
       "eval_steps_per_second": 4.41,
       "step": 306
+    },
+    {
+      "epoch": 0.08785897071367643,
+      "grad_norm": 0.5052304863929749,
+      "learning_rate": 6.421379363065142e-06,
+      "loss": 0.3779,
+      "step": 309
+    },
+    {
+      "epoch": 0.08871197042934319,
+      "grad_norm": 0.5623005628585815,
+      "learning_rate": 6.022586521156715e-06,
+      "loss": 0.5177,
+      "step": 312
+    },
+    {
+      "epoch": 0.08956497014500996,
+      "grad_norm": 0.615669846534729,
+      "learning_rate": 5.634875954308638e-06,
+      "loss": 0.3902,
+      "step": 315
+    },
+    {
+      "epoch": 0.09041796986067671,
+      "grad_norm": 0.5363687872886658,
+      "learning_rate": 5.258474074573877e-06,
+      "loss": 0.3245,
+      "step": 318
+    },
+    {
+      "epoch": 0.09127096957634348,
+      "grad_norm": 0.45147329568862915,
+      "learning_rate": 4.893600690050579e-06,
+      "loss": 0.4372,
+      "step": 321
+    },
+    {
+      "epoch": 0.09212396929201024,
+      "grad_norm": 0.42790791392326355,
+      "learning_rate": 4.540468876520323e-06,
+      "loss": 0.4359,
+      "step": 324
+    },
+    {
+      "epoch": 0.09297696900767699,
+      "grad_norm": 0.512692928314209,
+      "learning_rate": 4.199284853017896e-06,
+      "loss": 0.41,
+      "step": 327
+    },
+    {
+      "epoch": 0.09382996872334376,
+      "grad_norm": 0.5399787425994873,
+      "learning_rate": 3.8702478614051355e-06,
+      "loss": 0.4455,
+      "step": 330
+    },
+    {
+      "epoch": 0.09468296843901051,
+      "grad_norm": 0.5106746554374695,
+      "learning_rate": 3.5535500500193357e-06,
+      "loss": 0.4301,
+      "step": 333
+    },
+    {
+      "epoch": 0.09553596815467728,
+      "grad_norm": 0.6958709955215454,
+      "learning_rate": 3.249376361464021e-06,
+      "loss": 0.3602,
+      "step": 336
+    },
+    {
+      "epoch": 0.09638896787034404,
+      "grad_norm": 0.5049157738685608,
+      "learning_rate": 2.957904424607652e-06,
+      "loss": 0.35,
+      "step": 339
+    },
+    {
+      "epoch": 0.09667330110889963,
+      "eval_loss": 0.4159228503704071,
+      "eval_runtime": 167.9747,
+      "eval_samples_per_second": 35.267,
+      "eval_steps_per_second": 4.411,
+      "step": 340
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.0888000598704128e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null