Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c1b8057bfc298706faf98fb6b0f8f48da854e58cc20f5ba5a8109cd5cf94e2b
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f059777c7257a9b8551361bb6a8463778375a07cd0b88f16fc506af5661c926
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a68cf6bd758b2c645cd1eb2a9596c83137fe823c0c18c4cc6b8e070d69edf463
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:4121eecb0f08728587aa525f333d63ed355d8e3750edaedf676e26401be02f1c
 size 118090

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b3600f4f62c77cfb9f3f36d5a114f6f58022f220d20e149c85171731fd49eb1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb9517b7ce59c47365939baf2f50e6bfd58d4414b9c61ed194de990178b59d75
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0005295319996187369,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3604,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1307561164800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0010590639992374739,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3604,
       "step": 25
+    },
+    {
+      "epoch": 0.0005507132796034864,
+      "grad_norm": 0.20836742222309113,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 10.3644,
+      "step": 26
+    },
+    {
+      "epoch": 0.0005718945595882359,
+      "grad_norm": 0.2002551406621933,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 10.4058,
+      "step": 27
+    },
+    {
+      "epoch": 0.0005718945595882359,
+      "eval_loss": 10.384385108947754,
+      "eval_runtime": 264.2193,
+      "eval_samples_per_second": 150.473,
+      "eval_steps_per_second": 18.81,
+      "step": 27
+    },
+    {
+      "epoch": 0.0005930758395729854,
+      "grad_norm": 0.2085038721561432,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 10.375,
+      "step": 28
+    },
+    {
+      "epoch": 0.0006142571195577349,
+      "grad_norm": 0.25786292552948,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 10.4152,
+      "step": 29
+    },
+    {
+      "epoch": 0.0006354383995424844,
+      "grad_norm": 0.2436630129814148,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 10.3652,
+      "step": 30
+    },
+    {
+      "epoch": 0.0006566196795272338,
+      "grad_norm": 0.20807240903377533,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 10.3717,
+      "step": 31
+    },
+    {
+      "epoch": 0.0006778009595119833,
+      "grad_norm": 0.21431414783000946,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 10.3851,
+      "step": 32
+    },
+    {
+      "epoch": 0.0006989822394967328,
+      "grad_norm": 0.2529206871986389,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 10.3919,
+      "step": 33
+    },
+    {
+      "epoch": 0.0007201635194814823,
+      "grad_norm": 0.20583346486091614,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 10.3932,
+      "step": 34
+    },
+    {
+      "epoch": 0.0007413447994662317,
+      "grad_norm": 0.19697058200836182,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 10.3836,
+      "step": 35
+    },
+    {
+      "epoch": 0.0007625260794509812,
+      "grad_norm": 0.22605247795581818,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 10.3709,
+      "step": 36
+    },
+    {
+      "epoch": 0.0007625260794509812,
+      "eval_loss": 10.377544403076172,
+      "eval_runtime": 264.2986,
+      "eval_samples_per_second": 150.428,
+      "eval_steps_per_second": 18.804,
+      "step": 36
+    },
+    {
+      "epoch": 0.0007837073594357307,
+      "grad_norm": 0.23540405929088593,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 10.3821,
+      "step": 37
+    },
+    {
+      "epoch": 0.0008048886394204801,
+      "grad_norm": 0.25848376750946045,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 10.3993,
+      "step": 38
+    },
+    {
+      "epoch": 0.0008260699194052297,
+      "grad_norm": 0.2196625918149948,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 10.3743,
+      "step": 39
+    },
+    {
+      "epoch": 0.0008472511993899792,
+      "grad_norm": 0.22024263441562653,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 10.3815,
+      "step": 40
+    },
+    {
+      "epoch": 0.0008684324793747286,
+      "grad_norm": 0.22341415286064148,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 10.4108,
+      "step": 41
+    },
+    {
+      "epoch": 0.0008896137593594781,
+      "grad_norm": 0.2678864300251007,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 10.3734,
+      "step": 42
+    },
+    {
+      "epoch": 0.0009107950393442276,
+      "grad_norm": 0.24385559558868408,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 10.3607,
+      "step": 43
+    },
+    {
+      "epoch": 0.000931976319328977,
+      "grad_norm": 0.2389352172613144,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 10.36,
+      "step": 44
+    },
+    {
+      "epoch": 0.0009531575993137265,
+      "grad_norm": 0.24411995708942413,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 10.3555,
+      "step": 45
+    },
+    {
+      "epoch": 0.0009531575993137265,
+      "eval_loss": 10.370607376098633,
+      "eval_runtime": 264.3906,
+      "eval_samples_per_second": 150.376,
+      "eval_steps_per_second": 18.798,
+      "step": 45
+    },
+    {
+      "epoch": 0.000974338879298476,
+      "grad_norm": 0.24778561294078827,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 10.3654,
+      "step": 46
+    },
+    {
+      "epoch": 0.0009955201592832255,
+      "grad_norm": 0.27637922763824463,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 10.3488,
+      "step": 47
+    },
+    {
+      "epoch": 0.001016701439267975,
+      "grad_norm": 0.28022265434265137,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 10.3677,
+      "step": 48
+    },
+    {
+      "epoch": 0.0010378827192527244,
+      "grad_norm": 0.2709881365299225,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 10.349,
+      "step": 49
+    },
+    {
+      "epoch": 0.0010590639992374739,
+      "grad_norm": 0.2436312437057495,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 10.3602,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2615122329600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null