Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1df23eba55a0e64c6381d93121391a66deb947d7ab328c15fda79fff94d3911d
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d4c54046145542bcfa358eeafbf3d4031aaa8b2f5241119b058fb09c2f0e0ab
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5b0d82c8ca872af92dc16fd9c789f946a211515a37f16b24107d76b6ecb6f73
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:ded94c5d2a27a2243a158f49790db722167c8af4c354dd228d11efbde378af47
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ec3466ebef9ba9a998d326b382a663538569d6f8034c03944a4efb1b32160f5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fca8122f926fed8d938e9b6eecd211aaadbc39aa16f9e85dee1d2dd31745908
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49d60a69e2379be2053e816cbaff31e6c931b5922dd86c71c9eaf473299cbf62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6912442396313364,
   "eval_steps": 9,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -604,6 +604,205 @@
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.9472,
       "step": 75
     }
   ],
   "logging_steps": 1,
@@ -618,12 +817,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.935098268483584e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9216589861751152,
   "eval_steps": 9,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.9472,
       "step": 75
+    },
+    {
+      "epoch": 0.7004608294930875,
+      "grad_norm": 0.8010578751564026,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.7877,
+      "step": 76
+    },
+    {
+      "epoch": 0.7096774193548387,
+      "grad_norm": 0.7281570434570312,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 0.8955,
+      "step": 77
+    },
+    {
+      "epoch": 0.7188940092165899,
+      "grad_norm": 0.9054828882217407,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 1.0624,
+      "step": 78
+    },
+    {
+      "epoch": 0.728110599078341,
+      "grad_norm": 0.8313905000686646,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 1.1328,
+      "step": 79
+    },
+    {
+      "epoch": 0.7373271889400922,
+      "grad_norm": 0.7095636129379272,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.9775,
+      "step": 80
+    },
+    {
+      "epoch": 0.7465437788018433,
+      "grad_norm": 0.7196549773216248,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 0.8421,
+      "step": 81
+    },
+    {
+      "epoch": 0.7465437788018433,
+      "eval_loss": 0.9770323038101196,
+      "eval_runtime": 11.0706,
+      "eval_samples_per_second": 8.31,
+      "eval_steps_per_second": 1.084,
+      "step": 81
+    },
+    {
+      "epoch": 0.7557603686635944,
+      "grad_norm": 1.0790183544158936,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 1.1106,
+      "step": 82
+    },
+    {
+      "epoch": 0.7649769585253456,
+      "grad_norm": 0.5855507850646973,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 0.8817,
+      "step": 83
+    },
+    {
+      "epoch": 0.7741935483870968,
+      "grad_norm": 0.7169812917709351,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 0.9767,
+      "step": 84
+    },
+    {
+      "epoch": 0.783410138248848,
+      "grad_norm": 0.963414192199707,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 1.0716,
+      "step": 85
+    },
+    {
+      "epoch": 0.7926267281105991,
+      "grad_norm": 0.8065404295921326,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 0.9223,
+      "step": 86
+    },
+    {
+      "epoch": 0.8018433179723502,
+      "grad_norm": 0.9426746368408203,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 1.0459,
+      "step": 87
+    },
+    {
+      "epoch": 0.8110599078341014,
+      "grad_norm": 0.8868968486785889,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 1.0269,
+      "step": 88
+    },
+    {
+      "epoch": 0.8202764976958525,
+      "grad_norm": 0.7493672966957092,
+      "learning_rate": 3.6408072716606346e-06,
+      "loss": 1.0344,
+      "step": 89
+    },
+    {
+      "epoch": 0.8294930875576036,
+      "grad_norm": 0.9347946643829346,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 1.0281,
+      "step": 90
+    },
+    {
+      "epoch": 0.8294930875576036,
+      "eval_loss": 0.9749319553375244,
+      "eval_runtime": 11.1139,
+      "eval_samples_per_second": 8.278,
+      "eval_steps_per_second": 1.08,
+      "step": 90
+    },
+    {
+      "epoch": 0.8387096774193549,
+      "grad_norm": 0.8222431540489197,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.943,
+      "step": 91
+    },
+    {
+      "epoch": 0.847926267281106,
+      "grad_norm": 0.8993135094642639,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 0.9071,
+      "step": 92
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 0.6946989893913269,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 0.8811,
+      "step": 93
+    },
+    {
+      "epoch": 0.8663594470046083,
+      "grad_norm": 0.8377668857574463,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.8923,
+      "step": 94
+    },
+    {
+      "epoch": 0.8755760368663594,
+      "grad_norm": 0.951482355594635,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 1.0178,
+      "step": 95
+    },
+    {
+      "epoch": 0.8847926267281107,
+      "grad_norm": 0.9337249994277954,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 1.1243,
+      "step": 96
+    },
+    {
+      "epoch": 0.8940092165898618,
+      "grad_norm": 0.8228960037231445,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 1.0891,
+      "step": 97
+    },
+    {
+      "epoch": 0.9032258064516129,
+      "grad_norm": 1.0015751123428345,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 1.1583,
+      "step": 98
+    },
+    {
+      "epoch": 0.9124423963133641,
+      "grad_norm": 1.1057360172271729,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 1.0895,
+      "step": 99
+    },
+    {
+      "epoch": 0.9124423963133641,
+      "eval_loss": 0.9739326238632202,
+      "eval_runtime": 11.0518,
+      "eval_samples_per_second": 8.324,
+      "eval_steps_per_second": 1.086,
+      "step": 99
+    },
+    {
+      "epoch": 0.9216589861751152,
+      "grad_norm": 0.7851902842521667,
+      "learning_rate": 0.0,
+      "loss": 1.0242,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.938193934096794e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null