Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +211 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb435ae44e1260bf001862b4712cedf6e7ccb6e2947659ca26e077ee9f463da7
 size 493712

 version https://git-lfs.github.com/spec/v1
+oid sha256:4de474944576d9ce13db25076c3fb637b6714a154785e9424e8d7d628b3e7bf9
 size 493712

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11d672426f8a4e05ea1ed343c9f10c28fb8ba064956e5b138f61d885146b0673
 size 997038

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b7aab4b77062896ba7df2e1f26e5d1679be401c5426dd31c303cd282f95aa0c
 size 997038

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ccb34b93699f078ddb82b9a167e79da1e720b4cd2112f0de5c0f8f14e38bd22
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eba8ef7ef80dbd60fbb694437f7d04ba5db6a3825fc93a9958bf4f0903e7337d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6676fe28230ae15b45fb334c871c6fdf1a7984a935952b9f8650896c37a8c106
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.006348668895754857,
   "eval_steps": 6,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -222,6 +222,213 @@
       "learning_rate": 6.91341716182545e-05,
       "loss": 66.0543,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -236,12 +443,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3572917862400.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.012697337791509713,
   "eval_steps": 6,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.91341716182545e-05,
       "loss": 66.0543,
       "step": 25
+    },
+    {
+      "epoch": 0.006602615651585051,
+      "grad_norm": 2.5673084259033203,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 66.0834,
+      "step": 26
+    },
+    {
+      "epoch": 0.006856562407415245,
+      "grad_norm": 2.866518259048462,
+      "learning_rate": 6.167226819279528e-05,
+      "loss": 66.044,
+      "step": 27
+    },
+    {
+      "epoch": 0.00711050916324544,
+      "grad_norm": 2.417178153991699,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 66.1386,
+      "step": 28
+    },
+    {
+      "epoch": 0.007364455919075634,
+      "grad_norm": 2.504648447036743,
+      "learning_rate": 5.392295478639225e-05,
+      "loss": 66.046,
+      "step": 29
+    },
+    {
+      "epoch": 0.007618402674905828,
+      "grad_norm": 2.539602279663086,
+      "learning_rate": 5e-05,
+      "loss": 66.0429,
+      "step": 30
+    },
+    {
+      "epoch": 0.007618402674905828,
+      "eval_loss": 11.006031036376953,
+      "eval_runtime": 18.2105,
+      "eval_samples_per_second": 273.194,
+      "eval_steps_per_second": 68.312,
+      "step": 30
+    },
+    {
+      "epoch": 0.007872349430736022,
+      "grad_norm": 2.809628963470459,
+      "learning_rate": 4.607704521360776e-05,
+      "loss": 65.9401,
+      "step": 31
+    },
+    {
+      "epoch": 0.008126296186566217,
+      "grad_norm": 2.533236026763916,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 66.0943,
+      "step": 32
+    },
+    {
+      "epoch": 0.00838024294239641,
+      "grad_norm": 2.7511136531829834,
+      "learning_rate": 3.832773180720475e-05,
+      "loss": 65.9569,
+      "step": 33
+    },
+    {
+      "epoch": 0.008634189698226605,
+      "grad_norm": 2.529318332672119,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 65.9841,
+      "step": 34
+    },
+    {
+      "epoch": 0.008888136454056799,
+      "grad_norm": 2.60366153717041,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 65.9559,
+      "step": 35
+    },
+    {
+      "epoch": 0.009142083209886994,
+      "grad_norm": 2.6384119987487793,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 65.9892,
+      "step": 36
+    },
+    {
+      "epoch": 0.009142083209886994,
+      "eval_loss": 10.992709159851074,
+      "eval_runtime": 18.2216,
+      "eval_samples_per_second": 273.028,
+      "eval_steps_per_second": 68.271,
+      "step": 36
+    },
+    {
+      "epoch": 0.009396029965717189,
+      "grad_norm": 2.68752121925354,
+      "learning_rate": 2.3875071764202563e-05,
+      "loss": 65.8811,
+      "step": 37
+    },
+    {
+      "epoch": 0.009649976721547382,
+      "grad_norm": 2.529193162918091,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 65.97,
+      "step": 38
+    },
+    {
+      "epoch": 0.009903923477377577,
+      "grad_norm": 2.684138059616089,
+      "learning_rate": 1.7527597583490822e-05,
+      "loss": 65.8963,
+      "step": 39
+    },
+    {
+      "epoch": 0.01015787023320777,
+      "grad_norm": 2.5320022106170654,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 65.9401,
+      "step": 40
+    },
+    {
+      "epoch": 0.010411816989037965,
+      "grad_norm": 2.516324281692505,
+      "learning_rate": 1.1979701719998453e-05,
+      "loss": 65.9055,
+      "step": 41
+    },
+    {
+      "epoch": 0.010665763744868158,
+      "grad_norm": 2.543747901916504,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 65.8852,
+      "step": 42
+    },
+    {
+      "epoch": 0.010665763744868158,
+      "eval_loss": 10.98641300201416,
+      "eval_runtime": 18.1929,
+      "eval_samples_per_second": 273.459,
+      "eval_steps_per_second": 68.378,
+      "step": 42
+    },
+    {
+      "epoch": 0.010919710500698353,
+      "grad_norm": 2.3728582859039307,
+      "learning_rate": 7.367991782295391e-06,
+      "loss": 66.1291,
+      "step": 43
+    },
+    {
+      "epoch": 0.011173657256528548,
+      "grad_norm": 2.4906511306762695,
+      "learning_rate": 5.449673790581611e-06,
+      "loss": 65.9421,
+      "step": 44
+    },
+    {
+      "epoch": 0.011427604012358742,
+      "grad_norm": 2.665292978286743,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 65.9262,
+      "step": 45
+    },
+    {
+      "epoch": 0.011681550768188937,
+      "grad_norm": 2.6886563301086426,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 65.881,
+      "step": 46
+    },
+    {
+      "epoch": 0.01193549752401913,
+      "grad_norm": 2.69474196434021,
+      "learning_rate": 1.3815039801161721e-06,
+      "loss": 65.8305,
+      "step": 47
+    },
+    {
+      "epoch": 0.012189444279849325,
+      "grad_norm": 2.3172616958618164,
+      "learning_rate": 6.15582970243117e-07,
+      "loss": 65.9682,
+      "step": 48
+    },
+    {
+      "epoch": 0.012189444279849325,
+      "eval_loss": 10.984763145446777,
+      "eval_runtime": 18.4652,
+      "eval_samples_per_second": 269.425,
+      "eval_steps_per_second": 67.37,
+      "step": 48
+    },
+    {
+      "epoch": 0.01244339103567952,
+      "grad_norm": 2.542539119720459,
+      "learning_rate": 1.5413331334360182e-07,
+      "loss": 66.0153,
+      "step": 49
+    },
+    {
+      "epoch": 0.012697337791509713,
+      "grad_norm": 2.630923271179199,
+      "learning_rate": 0.0,
+      "loss": 65.7818,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7145835724800.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null