Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f9d6c75297a365b889c387a367cd5d1f77e76b94421d8debadbae7d1f1a3eb1
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba98e26b5ee87ecda454bc3bbc9a386dbdaf94bceeaee9a4788a6442212cbc63
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69648758998492c2a1d850266fc0cda7f96fefc2513a7fdcae33d3ba74b17f1a
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:92cb31a2c4c759c8c9630288ed315810a204ec4218892b77ad4f23626b00b881
 size 671466706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef11abd2be0134e0a897210a6ba2cdc64e4fac65855016e0ddcc230086cc1d03
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a67aabb29a27a82eeab363acaf8fb3930efe4f67202870960cc3f7dd2705615
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99fc9c0ec571f76cf9b6d1229601c5173899cd18104e487c5627f5f4c56c6e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:46fa8207e86dee7d50b0ab12f1dd18c4426e8c65d06f97f8b2bd004a747e9cfa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.011479738261967628,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 3.945,
       "eval_steps_per_second": 1.972,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.73005226082304e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.022959476523935256,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.945,
       "eval_steps_per_second": 1.972,
       "step": 25
+    },
+    {
+      "epoch": 0.011938927792446333,
+      "grad_norm": 0.5573870539665222,
+      "learning_rate": 7.68649804173412e-05,
+      "loss": 0.5653,
+      "step": 26
+    },
+    {
+      "epoch": 0.012398117322925038,
+      "grad_norm": 0.5551594495773315,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.6139,
+      "step": 27
+    },
+    {
+      "epoch": 0.012857306853403742,
+      "grad_norm": 0.593977153301239,
+      "learning_rate": 7.308743066175172e-05,
+      "loss": 0.6182,
+      "step": 28
+    },
+    {
+      "epoch": 0.013316496383882447,
+      "grad_norm": 0.5621492266654968,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 0.5892,
+      "step": 29
+    },
+    {
+      "epoch": 0.013775685914361152,
+      "grad_norm": 0.5908278822898865,
+      "learning_rate": 6.91341716182545e-05,
+      "loss": 0.5825,
+      "step": 30
+    },
+    {
+      "epoch": 0.014234875444839857,
+      "grad_norm": 0.6430060863494873,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.6062,
+      "step": 31
+    },
+    {
+      "epoch": 0.014694064975318563,
+      "grad_norm": 0.545280933380127,
+      "learning_rate": 6.503528997521366e-05,
+      "loss": 0.5722,
+      "step": 32
+    },
+    {
+      "epoch": 0.015153254505797268,
+      "grad_norm": 0.652656614780426,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 0.6536,
+      "step": 33
+    },
+    {
+      "epoch": 0.015612444036275973,
+      "grad_norm": 0.6264194250106812,
+      "learning_rate": 6.0821980696905146e-05,
+      "loss": 0.5823,
+      "step": 34
+    },
+    {
+      "epoch": 0.016071633566754676,
+      "grad_norm": 0.62241530418396,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.5793,
+      "step": 35
+    },
+    {
+      "epoch": 0.016530823097233385,
+      "grad_norm": 0.6142162084579468,
+      "learning_rate": 5.6526309611002594e-05,
+      "loss": 0.5762,
+      "step": 36
+    },
+    {
+      "epoch": 0.01699001262771209,
+      "grad_norm": 0.5530565977096558,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 0.6092,
+      "step": 37
+    },
+    {
+      "epoch": 0.017449202158190794,
+      "grad_norm": 0.6179258823394775,
+      "learning_rate": 5.218096936826681e-05,
+      "loss": 0.5751,
+      "step": 38
+    },
+    {
+      "epoch": 0.0179083916886695,
+      "grad_norm": 0.6282462477684021,
+      "learning_rate": 5e-05,
+      "loss": 0.5948,
+      "step": 39
+    },
+    {
+      "epoch": 0.018367581219148204,
+      "grad_norm": 0.6314778923988342,
+      "learning_rate": 4.781903063173321e-05,
+      "loss": 0.5389,
+      "step": 40
+    },
+    {
+      "epoch": 0.01882677074962691,
+      "grad_norm": 0.7459428310394287,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 0.6414,
+      "step": 41
+    },
+    {
+      "epoch": 0.019285960280105614,
+      "grad_norm": 0.725232720375061,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 0.6711,
+      "step": 42
+    },
+    {
+      "epoch": 0.01974514981058432,
+      "grad_norm": 0.6939031481742859,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.5777,
+      "step": 43
+    },
+    {
+      "epoch": 0.020204339341063023,
+      "grad_norm": 0.7400466799736023,
+      "learning_rate": 3.917801930309486e-05,
+      "loss": 0.641,
+      "step": 44
+    },
+    {
+      "epoch": 0.020663528871541728,
+      "grad_norm": 0.7789513468742371,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.7023,
+      "step": 45
+    },
+    {
+      "epoch": 0.021122718402020433,
+      "grad_norm": 0.7750358581542969,
+      "learning_rate": 3.4964710024786354e-05,
+      "loss": 0.7727,
+      "step": 46
+    },
+    {
+      "epoch": 0.021581907932499138,
+      "grad_norm": 0.8089461922645569,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.749,
+      "step": 47
+    },
+    {
+      "epoch": 0.022041097462977843,
+      "grad_norm": 0.8801223635673523,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 0.739,
+      "step": 48
+    },
+    {
+      "epoch": 0.022500286993456547,
+      "grad_norm": 0.9937826991081238,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 0.7846,
+      "step": 49
+    },
+    {
+      "epoch": 0.022959476523935256,
+      "grad_norm": 1.058200716972351,
+      "learning_rate": 2.6912569338248315e-05,
+      "loss": 0.7814,
+      "step": 50
+    },
+    {
+      "epoch": 0.022959476523935256,
+      "eval_loss": 0.6795315742492676,
+      "eval_runtime": 464.6954,
+      "eval_samples_per_second": 3.947,
+      "eval_steps_per_second": 1.973,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.46010452164608e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null