Training in progress, step 210, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cc759cf13661b4c5b335690bc8b11943275e9a8dd062881721370264ed868f6
 size 93608

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc8adbf18c3ea34bb1571bf5de0ce009ebe24517b8660f6e89dfa0cdf4072767
 size 93608

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4638d466f282e677c317e35edb73d3ec79883b19369b6efef3161077916f349e
 size 197158

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4652b9efe4fd390bf1401ab6edba1f9c127e67fe335840814c044c07d2681a5
 size 197158

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:780a66f050a6446e42e4531bfc89697709babbf1afa47eb4223703c667289080
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4aab3b1615a709a9704390ada7ef9edf3edc2d75f6ff7af351c654f587750225
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f516a6e4e8a8eba956b80cb2ea416b9fd98f0dec12d7d9d9a36274d0eef4a63
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bd95a1db0e917ddf11b12a343f06e907fcec4b81104002e2471b4778587b465
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4752475247524752,
   "eval_steps": 42,
-  "global_step": 168,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -439,6 +439,112 @@
       "eval_samples_per_second": 92.895,
       "eval_steps_per_second": 11.69,
       "step": 168
     }
   ],
   "logging_steps": 3,
@@ -458,7 +564,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1025631191040.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.594059405940594,
   "eval_steps": 42,
+  "global_step": 210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 92.895,
       "eval_steps_per_second": 11.69,
       "step": 168
+    },
+    {
+      "epoch": 0.4837340876944837,
+      "grad_norm": 0.13749000430107117,
+      "learning_rate": 7.564496387029532e-05,
+      "loss": 11.8156,
+      "step": 171
+    },
+    {
+      "epoch": 0.49222065063649223,
+      "grad_norm": 0.07802052795886993,
+      "learning_rate": 7.481469062821252e-05,
+      "loss": 11.8182,
+      "step": 174
+    },
+    {
+      "epoch": 0.5007072135785007,
+      "grad_norm": 0.150814950466156,
+      "learning_rate": 7.39752373250527e-05,
+      "loss": 11.8179,
+      "step": 177
+    },
+    {
+      "epoch": 0.5091937765205092,
+      "grad_norm": 0.1514790952205658,
+      "learning_rate": 7.312691451204178e-05,
+      "loss": 11.8099,
+      "step": 180
+    },
+    {
+      "epoch": 0.5176803394625177,
+      "grad_norm": 0.13362684845924377,
+      "learning_rate": 7.227003602163295e-05,
+      "loss": 11.8172,
+      "step": 183
+    },
+    {
+      "epoch": 0.5261669024045261,
+      "grad_norm": 0.09337490051984787,
+      "learning_rate": 7.14049188514063e-05,
+      "loss": 11.8184,
+      "step": 186
+    },
+    {
+      "epoch": 0.5346534653465347,
+      "grad_norm": 0.08015663921833038,
+      "learning_rate": 7.05318830467969e-05,
+      "loss": 11.8158,
+      "step": 189
+    },
+    {
+      "epoch": 0.5431400282885431,
+      "grad_norm": 0.16405069828033447,
+      "learning_rate": 6.965125158269619e-05,
+      "loss": 11.816,
+      "step": 192
+    },
+    {
+      "epoch": 0.5516265912305516,
+      "grad_norm": 0.14057497680187225,
+      "learning_rate": 6.876335024396872e-05,
+      "loss": 11.8147,
+      "step": 195
+    },
+    {
+      "epoch": 0.5601131541725601,
+      "grad_norm": 0.1409187614917755,
+      "learning_rate": 6.786850750493006e-05,
+      "loss": 11.8157,
+      "step": 198
+    },
+    {
+      "epoch": 0.5685997171145686,
+      "grad_norm": 0.1987845003604889,
+      "learning_rate": 6.696705440782938e-05,
+      "loss": 11.8185,
+      "step": 201
+    },
+    {
+      "epoch": 0.5770862800565771,
+      "grad_norm": 0.10339465737342834,
+      "learning_rate": 6.605932444038229e-05,
+      "loss": 11.815,
+      "step": 204
+    },
+    {
+      "epoch": 0.5855728429985856,
+      "grad_norm": 0.12926329672336578,
+      "learning_rate": 6.514565341239861e-05,
+      "loss": 11.818,
+      "step": 207
+    },
+    {
+      "epoch": 0.594059405940594,
+      "grad_norm": 0.07949727028608322,
+      "learning_rate": 6.422637933155162e-05,
+      "loss": 11.8151,
+      "step": 210
+    },
+    {
+      "epoch": 0.594059405940594,
+      "eval_loss": 11.818094253540039,
+      "eval_runtime": 6.6444,
+      "eval_samples_per_second": 89.7,
+      "eval_steps_per_second": 11.288,
+      "step": 210
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1284750704640.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null