Training in progress, step 400, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +152 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:917b9908d6ddf96c924657a17ab9a77947c3dee4187dc99733d028b7da01a370
 size 17425352

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cf81c5e97ca4a065c0ca02c64490fbed69ea1e0e634764c39ac360fb3de23f6
 size 17425352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63574ea2b3926287ca101305d0da3612adfdea5a67b7f1e2bae3ca77824eb182
 size 10252116

 version https://git-lfs.github.com/spec/v1
+oid sha256:984b56c48c9023638f9dc3adc119ed4e91a43dba7303ad022093e52653b71381
 size 10252116

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49c3113ab5e74cf2cf75b8272697182349b986f05fea887c23c6b1cf30a10723
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbfbf1d0b7e0c82bee0aed83acaa37307cfaf516b484db2905492adc52f49ba9
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:948034a5628471bb3c37b4e388f6a1656b75ee096cbb96c84fa1a5c61b6c63e2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:40ef8a2c12734f9f93f5fc7d12d061c1cc3193923b0707973cc8a18e1aa21c9c
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e03f9a24a7a90769559ab2186e52e4bea52a0ca73705b5babf1706779cbc29f3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c57e242258a295316541298a461d1944eecf22f51f4004aa98733dd4c28ccbc6
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36ecb369e890de96dc252a97d723cd39a5de3933ea7d729b6a84c9264b7d8b05
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:432e714a282ec27bfff2b100b31fd4b7108bbf4d435b0fa544488631f793c049
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43da0688aca60835f4e18fa7e0f3cc099504828f82fd5dd994118be26b760a0f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:705cabf5cbc3a6ab0feb67c77b9b453d59efcc939ce90d310af96e621810f990
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07801833430856252,
   "eval_steps": 100,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -459,6 +459,154 @@
       "eval_samples_per_second": 140.952,
       "eval_steps_per_second": 17.627,
       "step": 300
     }
   ],
   "logging_steps": 5,
@@ -473,12 +621,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.905704121348915e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.10402444574475002,
   "eval_steps": 100,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 140.952,
       "eval_steps_per_second": 17.627,
       "step": 300
+    },
+    {
+      "epoch": 0.07931863988037188,
+      "grad_norm": 0.22041112184524536,
+      "learning_rate": 1.3939877632809278e-05,
+      "loss": 2.406,
+      "step": 305
+    },
+    {
+      "epoch": 0.08061894545218126,
+      "grad_norm": 0.2416123002767563,
+      "learning_rate": 1.257446259144494e-05,
+      "loss": 2.3487,
+      "step": 310
+    },
+    {
+      "epoch": 0.08191925102399064,
+      "grad_norm": 0.21595120429992676,
+      "learning_rate": 1.1269751908617277e-05,
+      "loss": 2.3856,
+      "step": 315
+    },
+    {
+      "epoch": 0.0832195565958,
+      "grad_norm": 0.21398255228996277,
+      "learning_rate": 1.0027861829824952e-05,
+      "loss": 2.4034,
+      "step": 320
+    },
+    {
+      "epoch": 0.08451986216760939,
+      "grad_norm": 0.2343326061964035,
+      "learning_rate": 8.850806705317183e-06,
+      "loss": 2.3638,
+      "step": 325
+    },
+    {
+      "epoch": 0.08582016773941877,
+      "grad_norm": 0.23280276358127594,
+      "learning_rate": 7.740495722810271e-06,
+      "loss": 2.3899,
+      "step": 330
+    },
+    {
+      "epoch": 0.08712047331122814,
+      "grad_norm": 0.22366644442081451,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 2.4007,
+      "step": 335
+    },
+    {
+      "epoch": 0.08842077888303751,
+      "grad_norm": 0.25122907757759094,
+      "learning_rate": 5.727198717339511e-06,
+      "loss": 2.3721,
+      "step": 340
+    },
+    {
+      "epoch": 0.08972108445484689,
+      "grad_norm": 0.25753486156463623,
+      "learning_rate": 4.827478269480895e-06,
+      "loss": 2.3808,
+      "step": 345
+    },
+    {
+      "epoch": 0.09102139002665627,
+      "grad_norm": 0.22881199419498444,
+      "learning_rate": 4.001027817058789e-06,
+      "loss": 2.3813,
+      "step": 350
+    },
+    {
+      "epoch": 0.09232169559846563,
+      "grad_norm": 0.22728504240512848,
+      "learning_rate": 3.249187865729264e-06,
+      "loss": 2.3886,
+      "step": 355
+    },
+    {
+      "epoch": 0.09362200117027501,
+      "grad_norm": 0.2537117898464203,
+      "learning_rate": 2.573177902642726e-06,
+      "loss": 2.4104,
+      "step": 360
+    },
+    {
+      "epoch": 0.09492230674208439,
+      "grad_norm": 0.2203947901725769,
+      "learning_rate": 1.974094418431388e-06,
+      "loss": 2.3652,
+      "step": 365
+    },
+    {
+      "epoch": 0.09622261231389377,
+      "grad_norm": 0.24142761528491974,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 2.4902,
+      "step": 370
+    },
+    {
+      "epoch": 0.09752291788570314,
+      "grad_norm": 0.2279200553894043,
+      "learning_rate": 1.0104673978866164e-06,
+      "loss": 2.4341,
+      "step": 375
+    },
+    {
+      "epoch": 0.09882322345751252,
+      "grad_norm": 0.22958961129188538,
+      "learning_rate": 6.474868681043578e-07,
+      "loss": 2.2886,
+      "step": 380
+    },
+    {
+      "epoch": 0.1001235290293219,
+      "grad_norm": 0.25041958689689636,
+      "learning_rate": 3.6455629509730136e-07,
+      "loss": 2.3789,
+      "step": 385
+    },
+    {
+      "epoch": 0.10142383460113126,
+      "grad_norm": 0.2322605699300766,
+      "learning_rate": 1.6213459328950352e-07,
+      "loss": 2.4435,
+      "step": 390
+    },
+    {
+      "epoch": 0.10272414017294064,
+      "grad_norm": 0.22026541829109192,
+      "learning_rate": 4.055009142152067e-08,
+      "loss": 2.3933,
+      "step": 395
+    },
+    {
+      "epoch": 0.10402444574475002,
+      "grad_norm": 0.22310110926628113,
+      "learning_rate": 0.0,
+      "loss": 2.3593,
+      "step": 400
+    },
+    {
+      "epoch": 0.10402444574475002,
+      "eval_loss": 2.4176995754241943,
+      "eval_runtime": 46.0549,
+      "eval_samples_per_second": 140.636,
+      "eval_steps_per_second": 17.588,
+      "step": 400
     }
   ],
   "logging_steps": 5,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.5375418471153664e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null