Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +219 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ae3449f28dea5cfe950afd30d86d16f656b9c63c2c9bbf6f66207c97b56e783
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a1eb5d7f544d902eedd1bc6346ea98a4e79cd341745203afc930389178d8acf
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e15f0854df356029b4b3d61542d07ac955036c6d30b59db62615c53fc8cfda8
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d9e194f0ab87bdce7997e2ef44a83c67368adcb1cb9dafeb49455186fe6ab13
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cda721b5035b6c32d7353550a38d047ddb776a25e42cd15a85a63cb30e818647
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a537322ad8b13e53e04e7307211efb0c953aabdad90bc42ba3149fe4980cca8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6676fe28230ae15b45fb334c871c6fdf1a7984a935952b9f8650896c37a8c106
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.11013215859030837,
   "eval_steps": 5,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -230,6 +230,221 @@
       "eval_samples_per_second": 9.462,
       "eval_steps_per_second": 1.189,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -244,12 +459,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.75782575996928e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.22026431718061673,
   "eval_steps": 5,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.462,
       "eval_steps_per_second": 1.189,
       "step": 25
+    },
+    {
+      "epoch": 0.1145374449339207,
+      "grad_norm": 0.3269401788711548,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.0772,
+      "step": 26
+    },
+    {
+      "epoch": 0.11894273127753303,
+      "grad_norm": 0.4811367392539978,
+      "learning_rate": 6.167226819279528e-05,
+      "loss": 0.0781,
+      "step": 27
+    },
+    {
+      "epoch": 0.12334801762114538,
+      "grad_norm": 0.45540791749954224,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 0.086,
+      "step": 28
+    },
+    {
+      "epoch": 0.1277533039647577,
+      "grad_norm": 0.315946102142334,
+      "learning_rate": 5.392295478639225e-05,
+      "loss": 0.0649,
+      "step": 29
+    },
+    {
+      "epoch": 0.13215859030837004,
+      "grad_norm": 0.4493977427482605,
+      "learning_rate": 5e-05,
+      "loss": 0.0779,
+      "step": 30
+    },
+    {
+      "epoch": 0.13215859030837004,
+      "eval_loss": 0.03508898988366127,
+      "eval_runtime": 20.1661,
+      "eval_samples_per_second": 9.471,
+      "eval_steps_per_second": 1.19,
+      "step": 30
+    },
+    {
+      "epoch": 0.13656387665198239,
+      "grad_norm": 0.39443787932395935,
+      "learning_rate": 4.607704521360776e-05,
+      "loss": 0.0689,
+      "step": 31
+    },
+    {
+      "epoch": 0.14096916299559473,
+      "grad_norm": 0.6456836462020874,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 0.083,
+      "step": 32
+    },
+    {
+      "epoch": 0.14537444933920704,
+      "grad_norm": 0.4634610116481781,
+      "learning_rate": 3.832773180720475e-05,
+      "loss": 0.0718,
+      "step": 33
+    },
+    {
+      "epoch": 0.14977973568281938,
+      "grad_norm": 0.5529396533966064,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0817,
+      "step": 34
+    },
+    {
+      "epoch": 0.15418502202643172,
+      "grad_norm": 0.4599932134151459,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 0.0721,
+      "step": 35
+    },
+    {
+      "epoch": 0.15418502202643172,
+      "eval_loss": 0.03190690651535988,
+      "eval_runtime": 20.1713,
+      "eval_samples_per_second": 9.469,
+      "eval_steps_per_second": 1.19,
+      "step": 35
+    },
+    {
+      "epoch": 0.15859030837004406,
+      "grad_norm": 0.4859884977340698,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 0.0711,
+      "step": 36
+    },
+    {
+      "epoch": 0.16299559471365638,
+      "grad_norm": 0.4104098975658417,
+      "learning_rate": 2.3875071764202563e-05,
+      "loss": 0.0554,
+      "step": 37
+    },
+    {
+      "epoch": 0.16740088105726872,
+      "grad_norm": 0.4170836806297302,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.0618,
+      "step": 38
+    },
+    {
+      "epoch": 0.17180616740088106,
+      "grad_norm": 0.435770183801651,
+      "learning_rate": 1.7527597583490822e-05,
+      "loss": 0.0698,
+      "step": 39
+    },
+    {
+      "epoch": 0.1762114537444934,
+      "grad_norm": 0.4183783233165741,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.0605,
+      "step": 40
+    },
+    {
+      "epoch": 0.1762114537444934,
+      "eval_loss": 0.030461031943559647,
+      "eval_runtime": 20.1769,
+      "eval_samples_per_second": 9.466,
+      "eval_steps_per_second": 1.189,
+      "step": 40
+    },
+    {
+      "epoch": 0.18061674008810572,
+      "grad_norm": 0.4129556715488434,
+      "learning_rate": 1.1979701719998453e-05,
+      "loss": 0.0571,
+      "step": 41
+    },
+    {
+      "epoch": 0.18502202643171806,
+      "grad_norm": 0.4239897131919861,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.0581,
+      "step": 42
+    },
+    {
+      "epoch": 0.1894273127753304,
+      "grad_norm": 0.39861902594566345,
+      "learning_rate": 7.367991782295391e-06,
+      "loss": 0.0548,
+      "step": 43
+    },
+    {
+      "epoch": 0.19383259911894274,
+      "grad_norm": 0.4642148017883301,
+      "learning_rate": 5.449673790581611e-06,
+      "loss": 0.0661,
+      "step": 44
+    },
+    {
+      "epoch": 0.19823788546255505,
+      "grad_norm": 0.5509544610977173,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 0.0666,
+      "step": 45
+    },
+    {
+      "epoch": 0.19823788546255505,
+      "eval_loss": 0.029673805460333824,
+      "eval_runtime": 20.1754,
+      "eval_samples_per_second": 9.467,
+      "eval_steps_per_second": 1.19,
+      "step": 45
+    },
+    {
+      "epoch": 0.2026431718061674,
+      "grad_norm": 0.5345832109451294,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.0641,
+      "step": 46
+    },
+    {
+      "epoch": 0.20704845814977973,
+      "grad_norm": 0.45056888461112976,
+      "learning_rate": 1.3815039801161721e-06,
+      "loss": 0.0575,
+      "step": 47
+    },
+    {
+      "epoch": 0.21145374449339208,
+      "grad_norm": 0.491566926240921,
+      "learning_rate": 6.15582970243117e-07,
+      "loss": 0.0582,
+      "step": 48
+    },
+    {
+      "epoch": 0.21585903083700442,
+      "grad_norm": 0.46968162059783936,
+      "learning_rate": 1.5413331334360182e-07,
+      "loss": 0.0618,
+      "step": 49
+    },
+    {
+      "epoch": 0.22026431718061673,
+      "grad_norm": 0.5753777623176575,
+      "learning_rate": 0.0,
+      "loss": 0.0704,
+      "step": 50
+    },
+    {
+      "epoch": 0.22026431718061673,
+      "eval_loss": 0.029446130618453026,
+      "eval_runtime": 20.1704,
+      "eval_samples_per_second": 9.469,
+      "eval_steps_per_second": 1.19,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.51565151993856e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null