Training in progress, step 26, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb4ba1890673a14b387bd543075e726a82c3005f289a2dc11b4bd06d49f98e00
 size 78480072

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb00785190e5bf2b95bcb88096cb66292e70648bcaf8f9db5f21e00ec3b530c5
 size 78480072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2a8ec66d65db544aebab13ea6efc61a13dde7486c4d595dd04dd7b979a64781
 size 40131268

 version https://git-lfs.github.com/spec/v1
+oid sha256:51551cfd0ec9f348eb489b378734bbbc791ad179a4673d5c08afba6f529ed8d6
 size 40131268

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bde0e6a7b494157f01648feee8f8af6f9bf3afcbb848c413365ff144049cb87
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ccd287e2839607f79a45af68cadc922a00e5a0f892aad6f612de007a0072eb0
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0268d635041dcd61a212a3ae6d8f7a330f0a7747fd3c0a2f29468c34504b1e40
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5b693c9aea480e78c188894b2b9bda0b6ba8a8c40a639c7db7f6cc25370c348
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5adea6def46a60dd5782726d51a89bdf0f30226cd791e511d8af09a5644f99e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e65bdb10468d12c8b6afa89fe8730e38a94a4f704431de04b0c1bf27440afce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.02348027318394762,
   "eval_steps": 13,
-  "global_step": 13,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -114,6 +114,105 @@
       "eval_samples_per_second": 24.029,
       "eval_steps_per_second": 6.01,
       "step": 13
     }
   ],
   "logging_steps": 1,
@@ -133,7 +232,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.18501087353897e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04696054636789524,
   "eval_steps": 13,
+  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.029,
       "eval_steps_per_second": 6.01,
       "step": 13
+    },
+    {
+      "epoch": 0.025286448044251283,
+      "grad_norm": 0.36557599902153015,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 0.4698,
+      "step": 14
+    },
+    {
+      "epoch": 0.02709262290455495,
+      "grad_norm": 0.3393869996070862,
+      "learning_rate": 8.296729075500344e-05,
+      "loss": 0.4489,
+      "step": 15
+    },
+    {
+      "epoch": 0.02889879776485861,
+      "grad_norm": 0.3452422618865967,
+      "learning_rate": 8.043807145043604e-05,
+      "loss": 0.4892,
+      "step": 16
+    },
+    {
+      "epoch": 0.030704972625162273,
+      "grad_norm": 0.3072020411491394,
+      "learning_rate": 7.777851165098012e-05,
+      "loss": 0.4762,
+      "step": 17
+    },
+    {
+      "epoch": 0.032511147485465935,
+      "grad_norm": 0.2750939130783081,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.4658,
+      "step": 18
+    },
+    {
+      "epoch": 0.0343173223457696,
+      "grad_norm": 0.24484656751155853,
+      "learning_rate": 7.211443451095007e-05,
+      "loss": 0.4467,
+      "step": 19
+    },
+    {
+      "epoch": 0.03612349720607326,
+      "grad_norm": 0.24473077058792114,
+      "learning_rate": 6.91341716182545e-05,
+      "loss": 0.4508,
+      "step": 20
+    },
+    {
+      "epoch": 0.03792967206637693,
+      "grad_norm": 0.22997206449508667,
+      "learning_rate": 6.607197326515808e-05,
+      "loss": 0.4423,
+      "step": 21
+    },
+    {
+      "epoch": 0.03973584692668059,
+      "grad_norm": 0.25137704610824585,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 0.4633,
+      "step": 22
+    },
+    {
+      "epoch": 0.041542021786984254,
+      "grad_norm": 0.23138833045959473,
+      "learning_rate": 5.9754516100806423e-05,
+      "loss": 0.4377,
+      "step": 23
+    },
+    {
+      "epoch": 0.043348196647287916,
+      "grad_norm": 0.2416175752878189,
+      "learning_rate": 5.6526309611002594e-05,
+      "loss": 0.4491,
+      "step": 24
+    },
+    {
+      "epoch": 0.04515437150759158,
+      "grad_norm": 0.23560528457164764,
+      "learning_rate": 5.327015646150716e-05,
+      "loss": 0.4388,
+      "step": 25
+    },
+    {
+      "epoch": 0.04696054636789524,
+      "grad_norm": 0.22770123183727264,
+      "learning_rate": 5e-05,
+      "loss": 0.4517,
+      "step": 26
+    },
+    {
+      "epoch": 0.04696054636789524,
+      "eval_loss": 0.4333505928516388,
+      "eval_runtime": 155.3537,
+      "eval_samples_per_second": 24.01,
+      "eval_steps_per_second": 6.006,
+      "step": 26
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.637002174707794e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null