Training in progress, step 378, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90941e1693a558421377af5791061bc37e7dd6f4ed3b75ca4bda99a4e94b2488
 size 100966336

 version https://git-lfs.github.com/spec/v1
+oid sha256:77f85c8bc4ad212684b7993062a23525ac4f791b5229784b4158ac4bce165586
 size 100966336

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18e92072ad5cb96ea116208da591f4f9a7a38b1a697688a159b5227c548ac55d
 size 51613668

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b37c1c4fa9a9e825ea05b1ca35dc1c4929d943b7bddd2f6086f57e6c5064ff4
 size 51613668

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1628639e06cf0da96dea52ad1bb1fc7d510f41ec927e99fe48623eb85119f343
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:875830942629bcea9e8c73e146b1df9f89fd36cd8b3e95d6764a6f4e78bd912d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73411ca8ec7e5959b18da4fe8d2de8084ec9d3eedda030beb9eadece4c950464
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49f8e14b456d7fc01f5ad21526616d8f86a1c6c40024725332f505f34df4d95a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.050335193438448,
   "eval_steps": 42,
-  "global_step": 336,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -863,6 +863,112 @@
       "eval_samples_per_second": 35.923,
       "eval_steps_per_second": 4.492,
       "step": 336
     }
   ],
   "logging_steps": 3,
@@ -882,7 +988,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0751071457850163e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.056627092618254,
   "eval_steps": 42,
+  "global_step": 378,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.923,
       "eval_steps_per_second": 4.492,
       "step": 336
+    },
+    {
+      "epoch": 0.05078461480843414,
+      "grad_norm": 0.18624208867549896,
+      "learning_rate": 1.217751806485235e-05,
+      "loss": 1.1368,
+      "step": 339
+    },
+    {
+      "epoch": 0.05123403617842028,
+      "grad_norm": 0.18036052584648132,
+      "learning_rate": 1.1767125051905315e-05,
+      "loss": 1.0682,
+      "step": 342
+    },
+    {
+      "epoch": 0.051683457548406427,
+      "grad_norm": 0.17344728112220764,
+      "learning_rate": 1.1361627469736285e-05,
+      "loss": 1.0299,
+      "step": 345
+    },
+    {
+      "epoch": 0.05213287891839257,
+      "grad_norm": 0.17225950956344604,
+      "learning_rate": 1.096117532999063e-05,
+      "loss": 1.0217,
+      "step": 348
+    },
+    {
+      "epoch": 0.052582300288378715,
+      "grad_norm": 0.1770411878824234,
+      "learning_rate": 1.0565916777779519e-05,
+      "loss": 1.1027,
+      "step": 351
+    },
+    {
+      "epoch": 0.05303172165836485,
+      "grad_norm": 0.15190331637859344,
+      "learning_rate": 1.0175998036874356e-05,
+      "loss": 1.0684,
+      "step": 354
+    },
+    {
+      "epoch": 0.053481143028351,
+      "grad_norm": 0.20575201511383057,
+      "learning_rate": 9.791563355612172e-06,
+      "loss": 1.0359,
+      "step": 357
+    },
+    {
+      "epoch": 0.05393056439833714,
+      "grad_norm": 0.2163867950439453,
+      "learning_rate": 9.412754953531663e-06,
+      "loss": 1.0943,
+      "step": 360
+    },
+    {
+      "epoch": 0.054379985768323286,
+      "grad_norm": 0.1523335576057434,
+      "learning_rate": 9.039712968759864e-06,
+      "loss": 1.1357,
+      "step": 363
+    },
+    {
+      "epoch": 0.05482940713830943,
+      "grad_norm": 0.1748288869857788,
+      "learning_rate": 8.672575406168782e-06,
+      "loss": 1.0745,
+      "step": 366
+    },
+    {
+      "epoch": 0.05527882850829557,
+      "grad_norm": 0.16783830523490906,
+      "learning_rate": 8.3114780863213e-06,
+      "loss": 1.0432,
+      "step": 369
+    },
+    {
+      "epoch": 0.05572824987828171,
+      "grad_norm": 0.17801252007484436,
+      "learning_rate": 7.956554595225016e-06,
+      "loss": 1.0649,
+      "step": 372
+    },
+    {
+      "epoch": 0.056177671248267856,
+      "grad_norm": 0.17944374680519104,
+      "learning_rate": 7.607936234912841e-06,
+      "loss": 1.0862,
+      "step": 375
+    },
+    {
+      "epoch": 0.056627092618254,
+      "grad_norm": 0.19096186757087708,
+      "learning_rate": 7.265751974868554e-06,
+      "loss": 1.0477,
+      "step": 378
+    },
+    {
+      "epoch": 0.056627092618254,
+      "eval_loss": 1.0896837711334229,
+      "eval_runtime": 312.799,
+      "eval_samples_per_second": 35.943,
+      "eval_steps_per_second": 4.495,
+      "step": 378
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.2131417357234995e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null