Training in progress, step 150, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f60d2e9ae32d1985aa65462862ca4b70c3a8998e596c04a5f721ece25854dbe1
 size 767856

 version https://git-lfs.github.com/spec/v1
+oid sha256:68ce69cbbb7eda1684f8e4b647cbf1ca20f612aa80bd5a7622634a561ea86cde
 size 767856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82f30fd5719e050daf7167fa83b2a9cab144fb5fbf8a1cecc61e1b04d9d5a001
 size 1601338

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b88c0ce4ccb86cf3672fe1d79a86a918a6b76333503be58bcb3f59c7779c8ef
 size 1601338

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:486cd21b30f7f4b647912779f0f99f9cd55f4d5bc4247b3ed077084036f1e10a
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc3a31a11ca5cfbebd4465844ec0aac986b9c7664d8e19621ce7f146bef85200
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19ca30fccc09c76ea95914a475456a7ee2561fa696312099871f01293924d014
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e98d969b50546a6457ae05f133a63e9a444a80e20591144e4ff1d00857620af
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba41b4d003bf4f315ef5ca1f1b9201e78a8c869e239253754ed9ce404d87fd4f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:128efb8a98caf4df21dfdfcef7946b561e6794b7432b36b07a7c31e3fed817b6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.505369551484523,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 40.455,
       "eval_steps_per_second": 10.174,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -750,7 +1108,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 113484993921024.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7580543272267846,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 40.455,
       "eval_steps_per_second": 10.174,
       "step": 100
+    },
+    {
+      "epoch": 0.5104232469993683,
+      "grad_norm": 1.6569247245788574,
+      "learning_rate": 7.312691451204178e-05,
+      "loss": 8.9028,
+      "step": 101
+    },
+    {
+      "epoch": 0.5154769425142135,
+      "grad_norm": 1.122266173362732,
+      "learning_rate": 7.217431291229067e-05,
+      "loss": 8.8732,
+      "step": 102
+    },
+    {
+      "epoch": 0.5205306380290587,
+      "grad_norm": 0.9974745512008667,
+      "learning_rate": 7.121158389495186e-05,
+      "loss": 8.9486,
+      "step": 103
+    },
+    {
+      "epoch": 0.525584333543904,
+      "grad_norm": 1.1596142053604126,
+      "learning_rate": 7.023916715611969e-05,
+      "loss": 8.7343,
+      "step": 104
+    },
+    {
+      "epoch": 0.5306380290587492,
+      "grad_norm": 1.1720257997512817,
+      "learning_rate": 6.925750681644953e-05,
+      "loss": 8.7557,
+      "step": 105
+    },
+    {
+      "epoch": 0.5356917245735945,
+      "grad_norm": 1.1216539144515991,
+      "learning_rate": 6.826705121831976e-05,
+      "loss": 8.7399,
+      "step": 106
+    },
+    {
+      "epoch": 0.5407454200884396,
+      "grad_norm": 1.0456095933914185,
+      "learning_rate": 6.726825272106538e-05,
+      "loss": 8.8259,
+      "step": 107
+    },
+    {
+      "epoch": 0.5457991156032849,
+      "grad_norm": 1.1412315368652344,
+      "learning_rate": 6.626156749437736e-05,
+      "loss": 8.7779,
+      "step": 108
+    },
+    {
+      "epoch": 0.5508528111181301,
+      "grad_norm": 1.144679069519043,
+      "learning_rate": 6.524745530996137e-05,
+      "loss": 8.7377,
+      "step": 109
+    },
+    {
+      "epoch": 0.5559065066329754,
+      "grad_norm": 1.1518090963363647,
+      "learning_rate": 6.422637933155162e-05,
+      "loss": 8.5458,
+      "step": 110
+    },
+    {
+      "epoch": 0.5609602021478206,
+      "grad_norm": 1.0327682495117188,
+      "learning_rate": 6.319880590337549e-05,
+      "loss": 8.7034,
+      "step": 111
+    },
+    {
+      "epoch": 0.5660138976626659,
+      "grad_norm": 0.9186742901802063,
+      "learning_rate": 6.216520433716545e-05,
+      "loss": 8.7843,
+      "step": 112
+    },
+    {
+      "epoch": 0.5710675931775111,
+      "grad_norm": 0.9329281449317932,
+      "learning_rate": 6.112604669781572e-05,
+      "loss": 8.7471,
+      "step": 113
+    },
+    {
+      "epoch": 0.5761212886923562,
+      "grad_norm": 1.0598094463348389,
+      "learning_rate": 6.008180758778167e-05,
+      "loss": 8.6698,
+      "step": 114
+    },
+    {
+      "epoch": 0.5811749842072015,
+      "grad_norm": 1.1156866550445557,
+      "learning_rate": 5.903296393031995e-05,
+      "loss": 8.6572,
+      "step": 115
+    },
+    {
+      "epoch": 0.5862286797220467,
+      "grad_norm": 1.0410085916519165,
+      "learning_rate": 5.7979994751668964e-05,
+      "loss": 8.505,
+      "step": 116
+    },
+    {
+      "epoch": 0.591282375236892,
+      "grad_norm": 1.126705288887024,
+      "learning_rate": 5.69233809622687e-05,
+      "loss": 8.7812,
+      "step": 117
+    },
+    {
+      "epoch": 0.5963360707517372,
+      "grad_norm": 1.1464685201644897,
+      "learning_rate": 5.58636051371201e-05,
+      "loss": 8.5813,
+      "step": 118
+    },
+    {
+      "epoch": 0.6013897662665825,
+      "grad_norm": 1.146330714225769,
+      "learning_rate": 5.480115129538409e-05,
+      "loss": 8.4167,
+      "step": 119
+    },
+    {
+      "epoch": 0.6064434617814277,
+      "grad_norm": 1.079012393951416,
+      "learning_rate": 5.373650467932122e-05,
+      "loss": 8.5148,
+      "step": 120
+    },
+    {
+      "epoch": 0.6114971572962729,
+      "grad_norm": 1.281872272491455,
+      "learning_rate": 5.267015153267245e-05,
+      "loss": 8.4182,
+      "step": 121
+    },
+    {
+      "epoch": 0.6165508528111181,
+      "grad_norm": 1.1823097467422485,
+      "learning_rate": 5.1602578878582776e-05,
+      "loss": 8.6779,
+      "step": 122
+    },
+    {
+      "epoch": 0.6216045483259633,
+      "grad_norm": 1.620906114578247,
+      "learning_rate": 5.053427429716867e-05,
+      "loss": 8.8053,
+      "step": 123
+    },
+    {
+      "epoch": 0.6266582438408086,
+      "grad_norm": 1.704972505569458,
+      "learning_rate": 4.9465725702831346e-05,
+      "loss": 8.9209,
+      "step": 124
+    },
+    {
+      "epoch": 0.6317119393556538,
+      "grad_norm": 2.0735604763031006,
+      "learning_rate": 4.839742112141724e-05,
+      "loss": 8.7427,
+      "step": 125
+    },
+    {
+      "epoch": 0.6367656348704991,
+      "grad_norm": 1.3401007652282715,
+      "learning_rate": 4.732984846732755e-05,
+      "loss": 8.7623,
+      "step": 126
+    },
+    {
+      "epoch": 0.6418193303853443,
+      "grad_norm": 1.1091989278793335,
+      "learning_rate": 4.626349532067879e-05,
+      "loss": 8.7094,
+      "step": 127
+    },
+    {
+      "epoch": 0.6468730259001895,
+      "grad_norm": 1.1784418821334839,
+      "learning_rate": 4.5198848704615914e-05,
+      "loss": 8.5668,
+      "step": 128
+    },
+    {
+      "epoch": 0.6519267214150347,
+      "grad_norm": 1.323731541633606,
+      "learning_rate": 4.4136394862879914e-05,
+      "loss": 8.4429,
+      "step": 129
+    },
+    {
+      "epoch": 0.65698041692988,
+      "grad_norm": 0.8502984642982483,
+      "learning_rate": 4.307661903773129e-05,
+      "loss": 8.7092,
+      "step": 130
+    },
+    {
+      "epoch": 0.6620341124447252,
+      "grad_norm": 1.1920008659362793,
+      "learning_rate": 4.2020005248331054e-05,
+      "loss": 8.4987,
+      "step": 131
+    },
+    {
+      "epoch": 0.6670878079595705,
+      "grad_norm": 1.0251978635787964,
+      "learning_rate": 4.096703606968006e-05,
+      "loss": 8.6157,
+      "step": 132
+    },
+    {
+      "epoch": 0.6721415034744157,
+      "grad_norm": 1.0642647743225098,
+      "learning_rate": 3.991819241221835e-05,
+      "loss": 8.4535,
+      "step": 133
+    },
+    {
+      "epoch": 0.677195198989261,
+      "grad_norm": 1.3170267343521118,
+      "learning_rate": 3.887395330218429e-05,
+      "loss": 8.4171,
+      "step": 134
+    },
+    {
+      "epoch": 0.6822488945041061,
+      "grad_norm": 1.0994036197662354,
+      "learning_rate": 3.783479566283457e-05,
+      "loss": 8.6795,
+      "step": 135
+    },
+    {
+      "epoch": 0.6873025900189513,
+      "grad_norm": 1.2040021419525146,
+      "learning_rate": 3.680119409662452e-05,
+      "loss": 8.5518,
+      "step": 136
+    },
+    {
+      "epoch": 0.6923562855337966,
+      "grad_norm": 1.1834477186203003,
+      "learning_rate": 3.5773620668448384e-05,
+      "loss": 8.6813,
+      "step": 137
+    },
+    {
+      "epoch": 0.6974099810486418,
+      "grad_norm": 0.9281287789344788,
+      "learning_rate": 3.4752544690038647e-05,
+      "loss": 8.535,
+      "step": 138
+    },
+    {
+      "epoch": 0.7024636765634871,
+      "grad_norm": 1.0375516414642334,
+      "learning_rate": 3.373843250562265e-05,
+      "loss": 8.5263,
+      "step": 139
+    },
+    {
+      "epoch": 0.7075173720783323,
+      "grad_norm": 0.9735792279243469,
+      "learning_rate": 3.273174727893463e-05,
+      "loss": 8.4796,
+      "step": 140
+    },
+    {
+      "epoch": 0.7125710675931776,
+      "grad_norm": 1.0425305366516113,
+      "learning_rate": 3.173294878168025e-05,
+      "loss": 8.4304,
+      "step": 141
+    },
+    {
+      "epoch": 0.7176247631080227,
+      "grad_norm": 1.076398491859436,
+      "learning_rate": 3.074249318355046e-05,
+      "loss": 8.4417,
+      "step": 142
+    },
+    {
+      "epoch": 0.722678458622868,
+      "grad_norm": 1.0114437341690063,
+      "learning_rate": 2.976083284388031e-05,
+      "loss": 8.3947,
+      "step": 143
+    },
+    {
+      "epoch": 0.7277321541377132,
+      "grad_norm": 1.0746240615844727,
+      "learning_rate": 2.8788416105048122e-05,
+      "loss": 8.3048,
+      "step": 144
+    },
+    {
+      "epoch": 0.7327858496525584,
+      "grad_norm": 1.0370659828186035,
+      "learning_rate": 2.7825687087709328e-05,
+      "loss": 8.3032,
+      "step": 145
+    },
+    {
+      "epoch": 0.7378395451674037,
+      "grad_norm": 1.1819736957550049,
+      "learning_rate": 2.687308548795825e-05,
+      "loss": 8.3238,
+      "step": 146
+    },
+    {
+      "epoch": 0.7428932406822489,
+      "grad_norm": 1.3127453327178955,
+      "learning_rate": 2.5931046376510877e-05,
+      "loss": 8.5473,
+      "step": 147
+    },
+    {
+      "epoch": 0.7479469361970941,
+      "grad_norm": 1.3957887887954712,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 8.4965,
+      "step": 148
+    },
+    {
+      "epoch": 0.7530006317119393,
+      "grad_norm": 1.6841113567352295,
+      "learning_rate": 2.4080371584473748e-05,
+      "loss": 8.5345,
+      "step": 149
+    },
+    {
+      "epoch": 0.7580543272267846,
+      "grad_norm": 2.3189311027526855,
+      "learning_rate": 2.317258114118686e-05,
+      "loss": 8.6134,
+      "step": 150
+    },
+    {
+      "epoch": 0.7580543272267846,
+      "eval_loss": 8.470457077026367,
+      "eval_runtime": 8.309,
+      "eval_samples_per_second": 40.198,
+      "eval_steps_per_second": 10.11,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 169820248080384.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null