Training in progress, step 272, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94712826a7f2c0b7756c1d1754ed196d80b21d0e57551e1ca4f6dcd8cb62a183
 size 72396376

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c7e6d9652442fa642063424b204e43fa7e18c77cf6990911220075103af0998
 size 72396376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c760d568f970c9090c6b12152f53f090933d3e37f77d860d804763cad359c610
-size 37134420

 version https://git-lfs.github.com/spec/v1
+oid sha256:b739aced26e02b72f0f4376d4b8e542febe656c5c4972b6b6ed9a4685b22ac00
+size 37134740

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:914b1fa34e1d3c8a9975e1e5a238a3740456137dacecfe916285c613ce13f0db
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecc873a6b8b4dda97e1cfd6b2b58261bd5e2dd33f35d84c167b41efe0afbcd31
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbcef9424696e41c7961bd91f0570d39d59ef33af28ed19a0eb9e4f50ed1b09a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3520b6e9bfde48b403dd6f4096e526132e910f4d92bd802fb2e831d46f8ad41f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.06767131077622975,
   "eval_steps": 34,
-  "global_step": 238,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -624,6 +624,91 @@
       "eval_samples_per_second": 35.29,
       "eval_steps_per_second": 4.414,
       "step": 238
     }
   ],
   "logging_steps": 3,
@@ -643,7 +728,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.62160041909289e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.07733864088711971,
   "eval_steps": 34,
+  "global_step": 272,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.29,
       "eval_steps_per_second": 4.414,
       "step": 238
+    },
+    {
+      "epoch": 0.06823997725334091,
+      "grad_norm": 0.4818466603755951,
+      "learning_rate": 1.8044563402088684e-05,
+      "loss": 0.5623,
+      "step": 240
+    },
+    {
+      "epoch": 0.06909297696900768,
+      "grad_norm": 0.45440998673439026,
+      "learning_rate": 1.746635141803761e-05,
+      "loss": 0.5626,
+      "step": 243
+    },
+    {
+      "epoch": 0.06994597668467444,
+      "grad_norm": 0.5940297842025757,
+      "learning_rate": 1.6892538872607937e-05,
+      "loss": 0.5264,
+      "step": 246
+    },
+    {
+      "epoch": 0.0707989764003412,
+      "grad_norm": 0.41404712200164795,
+      "learning_rate": 1.6323460856167426e-05,
+      "loss": 0.4484,
+      "step": 249
+    },
+    {
+      "epoch": 0.07165197611600796,
+      "grad_norm": 0.44981393218040466,
+      "learning_rate": 1.5759449694252226e-05,
+      "loss": 0.473,
+      "step": 252
+    },
+    {
+      "epoch": 0.07250497583167473,
+      "grad_norm": 0.6551511883735657,
+      "learning_rate": 1.5200834753498128e-05,
+      "loss": 0.4956,
+      "step": 255
+    },
+    {
+      "epoch": 0.07335797554734148,
+      "grad_norm": 0.5032558441162109,
+      "learning_rate": 1.4647942249299707e-05,
+      "loss": 0.5262,
+      "step": 258
+    },
+    {
+      "epoch": 0.07421097526300825,
+      "grad_norm": 0.5430291891098022,
+      "learning_rate": 1.4101095055309746e-05,
+      "loss": 0.4899,
+      "step": 261
+    },
+    {
+      "epoch": 0.07506397497867501,
+      "grad_norm": 0.5020308494567871,
+      "learning_rate": 1.356061251489012e-05,
+      "loss": 0.494,
+      "step": 264
+    },
+    {
+      "epoch": 0.07591697469434176,
+      "grad_norm": 0.5282646417617798,
+      "learning_rate": 1.302681025462424e-05,
+      "loss": 0.5339,
+      "step": 267
+    },
+    {
+      "epoch": 0.07676997441000853,
+      "grad_norm": 0.48478028178215027,
+      "learning_rate": 1.2500000000000006e-05,
+      "loss": 0.5133,
+      "step": 270
+    },
+    {
+      "epoch": 0.07733864088711971,
+      "eval_loss": 0.4457505941390991,
+      "eval_runtime": 168.037,
+      "eval_samples_per_second": 35.254,
+      "eval_steps_per_second": 4.41,
+      "step": 272
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 8.710400478963302e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null