Training in progress, step 210, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ffd098374c4829deef4e86bb45b6d99e299ec4d785b2818c11701cc0184f9b4
 size 100966336

 version https://git-lfs.github.com/spec/v1
+oid sha256:971e54de63920eed6700963a65c28021c96f5ce4caf96cc351d0df00fb6d803c
 size 100966336

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d430efc5b96ee5cc101a4108edaa9ac66a363cbaf91802f71917f34d4f30221f
 size 51613348

 version https://git-lfs.github.com/spec/v1
+oid sha256:54c1dc870cb0fc047cba8029354bda92e92efcf53a26b597de339883b64b86e3
 size 51613348

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e477b2f97b5d76e20fb3241eba6754e5c05c0a9ad01e9b25e3c321898b520d6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:792d8588f6659622a3919c79527db3d98a5bae8354f3a9892e08b902b222082b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79783dc253db8561cbce9475c59c8adb4831f213eda27032651f04af31d6a595
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d485fc873443ef7ad597c6f4a82e93694f8fe8522b8ffecf4d60075246020043
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.025167596719224,
   "eval_steps": 42,
-  "global_step": 168,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -439,6 +439,112 @@
       "eval_samples_per_second": 36.024,
       "eval_steps_per_second": 4.505,
       "step": 168
     }
   ],
   "logging_steps": 3,
@@ -458,7 +564,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.365118024024064e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03145949589903,
   "eval_steps": 42,
+  "global_step": 210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 36.024,
       "eval_steps_per_second": 4.505,
       "step": 168
+    },
+    {
+      "epoch": 0.02561701808921014,
+      "grad_norm": 0.180728018283844,
+      "learning_rate": 3.782248193514766e-05,
+      "loss": 1.0867,
+      "step": 171
+    },
+    {
+      "epoch": 0.026066439459196285,
+      "grad_norm": 0.15069565176963806,
+      "learning_rate": 3.740734531410626e-05,
+      "loss": 1.0624,
+      "step": 174
+    },
+    {
+      "epoch": 0.026515860829182426,
+      "grad_norm": 0.13892242312431335,
+      "learning_rate": 3.698761866252635e-05,
+      "loss": 1.0351,
+      "step": 177
+    },
+    {
+      "epoch": 0.02696528219916857,
+      "grad_norm": 0.1399199515581131,
+      "learning_rate": 3.656345725602089e-05,
+      "loss": 1.1609,
+      "step": 180
+    },
+    {
+      "epoch": 0.027414703569154715,
+      "grad_norm": 0.14930486679077148,
+      "learning_rate": 3.6135018010816477e-05,
+      "loss": 1.1117,
+      "step": 183
+    },
+    {
+      "epoch": 0.027864124939140856,
+      "grad_norm": 0.15556196868419647,
+      "learning_rate": 3.570245942570315e-05,
+      "loss": 1.1169,
+      "step": 186
+    },
+    {
+      "epoch": 0.028313546309127,
+      "grad_norm": 0.17272590100765228,
+      "learning_rate": 3.526594152339845e-05,
+      "loss": 1.115,
+      "step": 189
+    },
+    {
+      "epoch": 0.02876296767911314,
+      "grad_norm": 0.17533355951309204,
+      "learning_rate": 3.4825625791348096e-05,
+      "loss": 1.1298,
+      "step": 192
+    },
+    {
+      "epoch": 0.029212389049099285,
+      "grad_norm": 0.14778710901737213,
+      "learning_rate": 3.438167512198436e-05,
+      "loss": 1.1183,
+      "step": 195
+    },
+    {
+      "epoch": 0.029661810419085426,
+      "grad_norm": 0.14693984389305115,
+      "learning_rate": 3.393425375246503e-05,
+      "loss": 1.0647,
+      "step": 198
+    },
+    {
+      "epoch": 0.03011123178907157,
+      "grad_norm": 0.14994005858898163,
+      "learning_rate": 3.348352720391469e-05,
+      "loss": 1.0008,
+      "step": 201
+    },
+    {
+      "epoch": 0.03056065315905771,
+      "grad_norm": 0.1611510068178177,
+      "learning_rate": 3.3029662220191144e-05,
+      "loss": 1.094,
+      "step": 204
+    },
+    {
+      "epoch": 0.031010074529043856,
+      "grad_norm": 0.19615799188613892,
+      "learning_rate": 3.2572826706199305e-05,
+      "loss": 1.051,
+      "step": 207
+    },
+    {
+      "epoch": 0.03145949589903,
+      "grad_norm": 0.15789468586444855,
+      "learning_rate": 3.211318966577581e-05,
+      "loss": 1.0302,
+      "step": 210
+    },
+    {
+      "epoch": 0.03145949589903,
+      "eval_loss": 1.0971506834030151,
+      "eval_runtime": 312.684,
+      "eval_samples_per_second": 35.956,
+      "eval_steps_per_second": 4.497,
+      "step": 210
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 6.724628513606861e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null