Training in progress, step 294, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:586fd04ed04d760d37f53f41e09542570cc554ebc66067372543dd3f2a963511
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:addcb636d016f33a42f56c949361dc651112b44b1f3c17f4ea5d642ec2a29994
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28b2ceac6018dae6fdb4d9ef0f5c8fb480f407b18c678ebe83cbb5b4ab5cb5b7
-size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:cce5eb24b6d45b8f5d21cb933ee820f15283aae75fecf2daee4b387af774d9b7
+size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29b9fe7e09a65746829ba365c53904d26ac9041437bdc46c4d9bdaea8de869a7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a042cb67dc4a87fef40f9f59dff7d1a08bd46e0ddcbbd5cc8542c9d96b350b9a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee19ddad9c4c375a1de2d74fb4c1cf5e15d36c1ed47a2cb80f7cb0fbacb3b29e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:318b114b83c26bcba11815378a88e0015bce044b0002c702e0a2627e1a1d1e56
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8208469055374593,
   "eval_steps": 42,
-  "global_step": 252,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -651,6 +651,112 @@
       "eval_samples_per_second": 23.313,
       "eval_steps_per_second": 5.862,
       "step": 252
     }
   ],
   "logging_steps": 3,
@@ -670,7 +776,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9007271092197786e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9576547231270358,
   "eval_steps": 42,
+  "global_step": 294,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.313,
       "eval_steps_per_second": 5.862,
       "step": 252
+    },
+    {
+      "epoch": 0.8306188925081434,
+      "grad_norm": 2.505326509475708,
+      "learning_rate": 5e-05,
+      "loss": 1.3629,
+      "step": 255
+    },
+    {
+      "epoch": 0.8403908794788274,
+      "grad_norm": 2.5464847087860107,
+      "learning_rate": 4.903834726061565e-05,
+      "loss": 1.2965,
+      "step": 258
+    },
+    {
+      "epoch": 0.8501628664495114,
+      "grad_norm": 2.423649787902832,
+      "learning_rate": 4.807705027948008e-05,
+      "loss": 1.1622,
+      "step": 261
+    },
+    {
+      "epoch": 0.8599348534201955,
+      "grad_norm": 2.3888437747955322,
+      "learning_rate": 4.711646468323129e-05,
+      "loss": 1.2045,
+      "step": 264
+    },
+    {
+      "epoch": 0.8697068403908795,
+      "grad_norm": 2.202131509780884,
+      "learning_rate": 4.6156945835334184e-05,
+      "loss": 1.2004,
+      "step": 267
+    },
+    {
+      "epoch": 0.8794788273615635,
+      "grad_norm": 2.20468807220459,
+      "learning_rate": 4.5198848704615914e-05,
+      "loss": 1.2365,
+      "step": 270
+    },
+    {
+      "epoch": 0.8892508143322475,
+      "grad_norm": 2.211899995803833,
+      "learning_rate": 4.424252773394704e-05,
+      "loss": 1.3499,
+      "step": 273
+    },
+    {
+      "epoch": 0.8990228013029316,
+      "grad_norm": 2.4418487548828125,
+      "learning_rate": 4.328833670911724e-05,
+      "loss": 1.2556,
+      "step": 276
+    },
+    {
+      "epoch": 0.9087947882736156,
+      "grad_norm": 2.3675637245178223,
+      "learning_rate": 4.23366286279542e-05,
+      "loss": 1.1791,
+      "step": 279
+    },
+    {
+      "epoch": 0.9185667752442996,
+      "grad_norm": 2.2540576457977295,
+      "learning_rate": 4.138775556973406e-05,
+      "loss": 1.135,
+      "step": 282
+    },
+    {
+      "epoch": 0.9283387622149837,
+      "grad_norm": 2.869304656982422,
+      "learning_rate": 4.04420685649314e-05,
+      "loss": 1.3404,
+      "step": 285
+    },
+    {
+      "epoch": 0.9381107491856677,
+      "grad_norm": 2.2384979724884033,
+      "learning_rate": 3.9499917465357534e-05,
+      "loss": 1.184,
+      "step": 288
+    },
+    {
+      "epoch": 0.9478827361563518,
+      "grad_norm": 2.6150434017181396,
+      "learning_rate": 3.856165081473474e-05,
+      "loss": 1.398,
+      "step": 291
+    },
+    {
+      "epoch": 0.9576547231270358,
+      "grad_norm": 2.1370980739593506,
+      "learning_rate": 3.762761571975429e-05,
+      "loss": 1.0922,
+      "step": 294
+    },
+    {
+      "epoch": 0.9576547231270358,
+      "eval_loss": 1.2961455583572388,
+      "eval_runtime": 22.1652,
+      "eval_samples_per_second": 23.325,
+      "eval_steps_per_second": 5.865,
+      "step": 294
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 2.2175149607564083e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null