Training in progress, step 336, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:930e0e949e58701597d874e209b7344a4d706b043639fc115daabd8ebbeab0fe
 size 100966336

 version https://git-lfs.github.com/spec/v1
+oid sha256:90941e1693a558421377af5791061bc37e7dd6f4ed3b75ca4bda99a4e94b2488
 size 100966336

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:709f78d5e19655cbd94a1c21408c442f8f92f8b4fdef1ad9958db57bcf19cf98
 size 51613668

 version https://git-lfs.github.com/spec/v1
+oid sha256:18e92072ad5cb96ea116208da591f4f9a7a38b1a697688a159b5227c548ac55d
 size 51613668

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e926e6553b71955bfbf13bceb3502fb7e3ab2b01b876537fd15965365d03680
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1628639e06cf0da96dea52ad1bb1fc7d510f41ec927e99fe48623eb85119f343
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0316ab07671fffcd24f1d6dedeb5b41d6e5808ab64506af6cae3d569237843af
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:73411ca8ec7e5959b18da4fe8d2de8084ec9d3eedda030beb9eadece4c950464
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.044043294258642,
   "eval_steps": 42,
-  "global_step": 294,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -757,6 +757,112 @@
       "eval_samples_per_second": 35.967,
       "eval_steps_per_second": 4.498,
       "step": 294
     }
   ],
   "logging_steps": 3,
@@ -776,7 +882,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.381143263366349e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.050335193438448,
   "eval_steps": 42,
+  "global_step": 336,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.967,
       "eval_steps_per_second": 4.498,
       "step": 294
+    },
+    {
+      "epoch": 0.044492715628628145,
+      "grad_norm": 0.18710507452487946,
+      "learning_rate": 1.8349078860833123e-05,
+      "loss": 1.0978,
+      "step": 297
+    },
+    {
+      "epoch": 0.04494213699861428,
+      "grad_norm": 0.1569843292236328,
+      "learning_rate": 1.7886810334224192e-05,
+      "loss": 1.0783,
+      "step": 300
+    },
+    {
+      "epoch": 0.045391558368600426,
+      "grad_norm": 0.14208896458148956,
+      "learning_rate": 1.74271732938007e-05,
+      "loss": 1.0512,
+      "step": 303
+    },
+    {
+      "epoch": 0.04584097973858657,
+      "grad_norm": 0.16557104885578156,
+      "learning_rate": 1.6970337779808862e-05,
+      "loss": 1.143,
+      "step": 306
+    },
+    {
+      "epoch": 0.046290401108572715,
+      "grad_norm": 0.17679089307785034,
+      "learning_rate": 1.6516472796085315e-05,
+      "loss": 1.0428,
+      "step": 309
+    },
+    {
+      "epoch": 0.04673982247855885,
+      "grad_norm": 0.21449750661849976,
+      "learning_rate": 1.6065746247534984e-05,
+      "loss": 1.0541,
+      "step": 312
+    },
+    {
+      "epoch": 0.047189243848545,
+      "grad_norm": 0.19140197336673737,
+      "learning_rate": 1.561832487801565e-05,
+      "loss": 1.0943,
+      "step": 315
+    },
+    {
+      "epoch": 0.04763866521853114,
+      "grad_norm": 0.21146325767040253,
+      "learning_rate": 1.5174374208651912e-05,
+      "loss": 1.1286,
+      "step": 318
+    },
+    {
+      "epoch": 0.048088086588517286,
+      "grad_norm": 0.16576792299747467,
+      "learning_rate": 1.4734058476601553e-05,
+      "loss": 1.1543,
+      "step": 321
+    },
+    {
+      "epoch": 0.04853750795850343,
+      "grad_norm": 0.17730730772018433,
+      "learning_rate": 1.4297540574296869e-05,
+      "loss": 1.0809,
+      "step": 324
+    },
+    {
+      "epoch": 0.04898692932848957,
+      "grad_norm": 0.16303078830242157,
+      "learning_rate": 1.386498198918352e-05,
+      "loss": 1.0781,
+      "step": 327
+    },
+    {
+      "epoch": 0.04943635069847571,
+      "grad_norm": 0.15803277492523193,
+      "learning_rate": 1.3436542743979125e-05,
+      "loss": 1.1138,
+      "step": 330
+    },
+    {
+      "epoch": 0.049885772068461856,
+      "grad_norm": 0.161447212100029,
+      "learning_rate": 1.3012381337473656e-05,
+      "loss": 1.0087,
+      "step": 333
+    },
+    {
+      "epoch": 0.050335193438448,
+      "grad_norm": 0.14916126430034637,
+      "learning_rate": 1.2592654685893757e-05,
+      "loss": 1.0916,
+      "step": 336
+    },
+    {
+      "epoch": 0.050335193438448,
+      "eval_loss": 1.0906805992126465,
+      "eval_runtime": 312.9768,
+      "eval_samples_per_second": 35.923,
+      "eval_steps_per_second": 4.492,
+      "step": 336
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.0751071457850163e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null