Training in progress, step 30, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +89 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6338372961508d0e6e53f4b425dedb3b1d009925d6beed6c8fe137d15a8822
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:09c315f50b22f72dd14cba2058fe33721bf21668ba86eb591bd3ac36c9d62b32
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c43bc5142208879f6c21142d760abc96f24db666fb369b9d6d73834b699e85a2
 size 168149074

 version https://git-lfs.github.com/spec/v1
+oid sha256:5706597b330e90541512aede454908ec2b68248e9b4ce53e5319deaf4b4c3be1
 size 168149074

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca4ef0be595a40805daa15596cdef4ec088c37a282b79824e24568848d376f7f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3e077675f66773a81cbf019fe747215a64463738c7179426c26ea0177d7f67d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d605401690d7669ff16aeaca6820cbd8d0d605afe748c51045ce90888810a22
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:baae720e33260fead254c87141d85e241b839ae924033bfd9652fb777f3f1bf0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0003387741879476848,
   "eval_steps": 5,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -187,6 +187,92 @@
       "eval_samples_per_second": 9.697,
       "eval_steps_per_second": 4.849,
       "step": 20
     }
   ],
   "logging_steps": 1,
@@ -206,7 +292,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.804271657517056e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0005081612819215272,
   "eval_steps": 5,
+  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.697,
       "eval_steps_per_second": 4.849,
       "step": 20
+    },
+    {
+      "epoch": 0.000355712897345069,
+      "grad_norm": 17.683870315551758,
+      "learning_rate": 0.00016494480483301836,
+      "loss": 17.1021,
+      "step": 21
+    },
+    {
+      "epoch": 0.00037265160674245326,
+      "grad_norm": 18.684045791625977,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 15.9178,
+      "step": 22
+    },
+    {
+      "epoch": 0.0003895903161398375,
+      "grad_norm": 20.173887252807617,
+      "learning_rate": 0.0001522498564715949,
+      "loss": 17.3176,
+      "step": 23
+    },
+    {
+      "epoch": 0.00040652902553722173,
+      "grad_norm": 19.331239700317383,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 16.0941,
+      "step": 24
+    },
+    {
+      "epoch": 0.000423467734934606,
+      "grad_norm": 19.496095657348633,
+      "learning_rate": 0.000138268343236509,
+      "loss": 15.8816,
+      "step": 25
+    },
+    {
+      "epoch": 0.000423467734934606,
+      "eval_loss": 2.0629289150238037,
+      "eval_runtime": 5134.9215,
+      "eval_samples_per_second": 9.682,
+      "eval_steps_per_second": 4.841,
+      "step": 25
+    },
+    {
+      "epoch": 0.0004404064443319902,
+      "grad_norm": 33.5986213684082,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 15.7073,
+      "step": 26
+    },
+    {
+      "epoch": 0.00045734515372937445,
+      "grad_norm": 16.573434829711914,
+      "learning_rate": 0.00012334453638559057,
+      "loss": 14.8196,
+      "step": 27
+    },
+    {
+      "epoch": 0.0004742838631267587,
+      "grad_norm": 20.38245391845703,
+      "learning_rate": 0.0001156434465040231,
+      "loss": 16.6963,
+      "step": 28
+    },
+    {
+      "epoch": 0.0004912225725241429,
+      "grad_norm": 16.84417724609375,
+      "learning_rate": 0.0001078459095727845,
+      "loss": 16.4005,
+      "step": 29
+    },
+    {
+      "epoch": 0.0005081612819215272,
+      "grad_norm": 20.52333641052246,
+      "learning_rate": 0.0001,
+      "loss": 15.0153,
+      "step": 30
+    },
+    {
+      "epoch": 0.0005081612819215272,
+      "eval_loss": 2.041257858276367,
+      "eval_runtime": 5138.2338,
+      "eval_samples_per_second": 9.676,
+      "eval_steps_per_second": 4.838,
+      "step": 30
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.206407486275584e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null