Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1aceff003ceff7c33d2bfa4dcfd1416bb0872f1901c140837771e241ac7da645
 size 767856

 version https://git-lfs.github.com/spec/v1
+oid sha256:21db67b617bd0c63f02c2f0ce77952934a30c9defd8696c7cf82e411af0f50c1
 size 767856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3d52f825e513051c46a9d65369d703b9d44024645ed60c7ae27ae4228b5d48d
 size 1601338

 version https://git-lfs.github.com/spec/v1
+oid sha256:905ef19be6dfb4decbe467bfe5bda65c31d645be15bc6cae7683d6f570fc70af
 size 1601338

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:900e1defa08a6f08739125afaad756b6005a8e90f096dd1eb3a52355d3dc390f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1c5cddd493a4b86230f04b497049be55914d9d05da0f27259601800cf135f64
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.004495392222971455,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 9.56,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 26606529675264.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.006743088334457181,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 9.56,
       "step": 50
+    },
+    {
+      "epoch": 0.004585300067430883,
+      "grad_norm": 1.991762638092041,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 9.5354,
+      "step": 51
+    },
+    {
+      "epoch": 0.004675207911890312,
+      "grad_norm": 1.9422123432159424,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 9.4861,
+      "step": 52
+    },
+    {
+      "epoch": 0.004765115756349742,
+      "grad_norm": 2.228233814239502,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 9.5084,
+      "step": 53
+    },
+    {
+      "epoch": 0.004855023600809171,
+      "grad_norm": 1.9608817100524902,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 9.5101,
+      "step": 54
+    },
+    {
+      "epoch": 0.004855023600809171,
+      "eval_loss": 9.457647323608398,
+      "eval_runtime": 277.828,
+      "eval_samples_per_second": 33.715,
+      "eval_steps_per_second": 4.215,
+      "step": 54
+    },
+    {
+      "epoch": 0.004944931445268599,
+      "grad_norm": 2.0444347858428955,
+      "learning_rate": 5e-05,
+      "loss": 9.4672,
+      "step": 55
+    },
+    {
+      "epoch": 0.005034839289728029,
+      "grad_norm": 1.891008734703064,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 9.4241,
+      "step": 56
+    },
+    {
+      "epoch": 0.005124747134187458,
+      "grad_norm": 1.8363993167877197,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 9.3972,
+      "step": 57
+    },
+    {
+      "epoch": 0.005214654978646887,
+      "grad_norm": 2.2685086727142334,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 9.397,
+      "step": 58
+    },
+    {
+      "epoch": 0.005304562823106316,
+      "grad_norm": 1.9216326475143433,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 9.3545,
+      "step": 59
+    },
+    {
+      "epoch": 0.005394470667565745,
+      "grad_norm": 2.332538604736328,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 9.405,
+      "step": 60
+    },
+    {
+      "epoch": 0.005484378512025174,
+      "grad_norm": 1.7659024000167847,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 9.3803,
+      "step": 61
+    },
+    {
+      "epoch": 0.0055742863564846035,
+      "grad_norm": 1.8336716890335083,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 9.3318,
+      "step": 62
+    },
+    {
+      "epoch": 0.005664194200944032,
+      "grad_norm": 2.0182368755340576,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 9.3278,
+      "step": 63
+    },
+    {
+      "epoch": 0.005664194200944032,
+      "eval_loss": 9.32175064086914,
+      "eval_runtime": 277.826,
+      "eval_samples_per_second": 33.715,
+      "eval_steps_per_second": 4.215,
+      "step": 63
+    },
+    {
+      "epoch": 0.005754102045403461,
+      "grad_norm": 1.7670087814331055,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 9.3028,
+      "step": 64
+    },
+    {
+      "epoch": 0.005844009889862891,
+      "grad_norm": 1.8420675992965698,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 9.3358,
+      "step": 65
+    },
+    {
+      "epoch": 0.0059339177343223195,
+      "grad_norm": 1.6964224576950073,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 9.269,
+      "step": 66
+    },
+    {
+      "epoch": 0.006023825578781749,
+      "grad_norm": 1.6834877729415894,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 9.2445,
+      "step": 67
+    },
+    {
+      "epoch": 0.006113733423241178,
+      "grad_norm": 1.7772903442382812,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 9.2601,
+      "step": 68
+    },
+    {
+      "epoch": 0.006203641267700607,
+      "grad_norm": 1.563933253288269,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 9.2604,
+      "step": 69
+    },
+    {
+      "epoch": 0.006293549112160036,
+      "grad_norm": 1.5275280475616455,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 9.2818,
+      "step": 70
+    },
+    {
+      "epoch": 0.006383456956619465,
+      "grad_norm": 1.6983492374420166,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 9.2964,
+      "step": 71
+    },
+    {
+      "epoch": 0.006473364801078894,
+      "grad_norm": 1.6340742111206055,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 9.2188,
+      "step": 72
+    },
+    {
+      "epoch": 0.006473364801078894,
+      "eval_loss": 9.23674488067627,
+      "eval_runtime": 277.8141,
+      "eval_samples_per_second": 33.717,
+      "eval_steps_per_second": 4.215,
+      "step": 72
+    },
+    {
+      "epoch": 0.0065632726455383235,
+      "grad_norm": 1.6606789827346802,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 9.2576,
+      "step": 73
+    },
+    {
+      "epoch": 0.006653180489997752,
+      "grad_norm": 1.682219386100769,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 9.2142,
+      "step": 74
+    },
+    {
+      "epoch": 0.006743088334457181,
+      "grad_norm": 2.0931785106658936,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 9.1882,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 39909794512896.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null