End of training

Browse files

Files changed (9) hide show

README.md +6 -6
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +8 -8
eval_results.json +4 -4
metrics.json +1 -1
train_results.json +4 -4
trainer_state.json +54 -54
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1312
 ## Model description
@@ -50,11 +50,11 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.1066        | 0.34  | 50   | 1.1555          |
-| 1.0655        | 0.68  | 100  | 1.1333          |
-| 1.039         | 1.02  | 150  | 1.1279          |
-| 1.0166        | 1.36  | 200  | 1.1301          |
-| 1.0281        | 1.7   | 250  | 1.1312          |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1293
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.1008        | 0.34  | 50   | 1.1495          |
+| 1.0662        | 0.68  | 100  | 1.1313          |
+| 1.039         | 1.02  | 150  | 1.1258          |
+| 1.0173        | 1.36  | 200  | 1.1321          |
+| 1.0279        | 1.7   | 250  | 1.1293          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "o_proj",
-    "v_proj",
     "q_proj",
     "k_proj",
-    "down_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
     "q_proj",
+    "gate_proj",
     "k_proj",
+    "up_proj",
+    "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c4d086cbb272795476d23287af5b86202bac7bff9ae8f867b0da552176415b7
 size 335605144

 version https://git-lfs.github.com/spec/v1
+oid sha256:603d0d601b5d8801d48d7df6890116cabb891d2ccba9150247aa2740a6f1603d
 size 335605144

all_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.1402091979980469,
-    "eval_runtime": 15.8109,
-    "eval_samples_per_second": 16.571,
-    "eval_steps_per_second": 4.174,
-    "train_loss": 1.0460824836679057,
-    "train_runtime": 890.7293,
-    "train_samples_per_second": 5.29,
-    "train_steps_per_second": 0.33
 }

 {
     "epoch": 2.0,
+    "eval_loss": 1.1290898323059082,
+    "eval_runtime": 15.7239,
+    "eval_samples_per_second": 16.663,
+    "eval_steps_per_second": 4.197,
+    "train_loss": 1.0446421305338542,
+    "train_runtime": 881.4723,
+    "train_samples_per_second": 5.346,
+    "train_steps_per_second": 0.334
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "eval_loss": 1.1402091979980469,
-    "eval_runtime": 15.8109,
-    "eval_samples_per_second": 16.571,
-    "eval_steps_per_second": 4.174
 }

 {
     "epoch": 2.0,
+    "eval_loss": 1.1290898323059082,
+    "eval_runtime": 15.7239,
+    "eval_samples_per_second": 16.663,
+    "eval_steps_per_second": 4.197
 }

metrics.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"run_name": "./output", "train_runtime": ~~872~~.~~7075~~, "train_samples_per_second": 5.~~399~~, "train_steps_per_second": 0.~~337~~, "train_loss": 1.~~0086434495692351~~, "epoch": 2.0, "eval_loss": 1.~~1402091979980469~~, "eval_runtime": 15.~~8109~~, "eval_samples_per_second": 16.~~571~~, "eval_steps_per_second": 4.~~174~~}


1	+ {"run_name": "./output", "train_runtime": 890.7293, "train_samples_per_second": 5.29, "train_steps_per_second": 0.33, "train_loss": 1.0460824836679057, "epoch": 2.0, "eval_loss": 1.1290898323059082, "eval_runtime": 15.7239, "eval_samples_per_second": 16.663, "eval_steps_per_second": 4.197}

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "train_loss": 1.0460824836679057,
-    "train_runtime": 890.7293,
-    "train_samples_per_second": 5.29,
-    "train_steps_per_second": 0.33
 }

 {
     "epoch": 2.0,
+    "train_loss": 1.0446421305338542,
+    "train_runtime": 881.4723,
+    "train_samples_per_second": 5.346,
+    "train_steps_per_second": 0.334
 }

trainer_state.json CHANGED Viewed

@@ -11,101 +11,101 @@
     {
       "epoch": 0.07,
       "learning_rate": 3e-05,
-      "loss": 1.2187,
       "step": 10
     },
     {
       "epoch": 0.14,
       "learning_rate": 3e-05,
-      "loss": 1.1481,
       "step": 20
     },
     {
       "epoch": 0.2,
       "learning_rate": 3e-05,
-      "loss": 1.1437,
       "step": 30
     },
     {
       "epoch": 0.27,
       "learning_rate": 3e-05,
-      "loss": 1.1076,
       "step": 40
     },
     {
       "epoch": 0.34,
       "learning_rate": 3e-05,
-      "loss": 1.1066,
       "step": 50
     },
     {
       "epoch": 0.34,
-      "eval_loss": 1.1555328369140625,
-      "eval_runtime": 15.6804,
-      "eval_samples_per_second": 16.709,
-      "eval_steps_per_second": 4.209,
       "step": 50
     },
     {
       "epoch": 0.41,
       "learning_rate": 3e-05,
-      "loss": 1.0988,
       "step": 60
     },
     {
       "epoch": 0.48,
       "learning_rate": 3e-05,
-      "loss": 1.0917,
       "step": 70
     },
     {
       "epoch": 0.54,
       "learning_rate": 3e-05,
-      "loss": 1.1344,
       "step": 80
     },
     {
       "epoch": 0.61,
       "learning_rate": 3e-05,
-      "loss": 1.1167,
       "step": 90
     },
     {
       "epoch": 0.68,
       "learning_rate": 3e-05,
-      "loss": 1.0655,
       "step": 100
     },
     {
       "epoch": 0.68,
-      "eval_loss": 1.133277177810669,
-      "eval_runtime": 15.7203,
-      "eval_samples_per_second": 16.666,
-      "eval_steps_per_second": 4.198,
       "step": 100
     },
     {
       "epoch": 0.75,
       "learning_rate": 3e-05,
-      "loss": 1.0595,
       "step": 110
     },
     {
       "epoch": 0.81,
       "learning_rate": 3e-05,
-      "loss": 1.1085,
       "step": 120
     },
     {
       "epoch": 0.88,
       "learning_rate": 3e-05,
-      "loss": 1.0945,
       "step": 130
     },
     {
       "epoch": 0.95,
       "learning_rate": 3e-05,
-      "loss": 1.0726,
       "step": 140
     },
     {
@@ -116,120 +116,120 @@
     },
     {
       "epoch": 1.02,
-      "eval_loss": 1.1278975009918213,
-      "eval_runtime": 15.7982,
-      "eval_samples_per_second": 16.584,
-      "eval_steps_per_second": 4.178,
       "step": 150
     },
     {
       "epoch": 1.09,
       "learning_rate": 3e-05,
-      "loss": 0.9891,
       "step": 160
     },
     {
       "epoch": 1.15,
       "learning_rate": 3e-05,
-      "loss": 1.0617,
       "step": 170
     },
     {
       "epoch": 1.22,
       "learning_rate": 3e-05,
-      "loss": 0.98,
       "step": 180
     },
     {
       "epoch": 1.29,
       "learning_rate": 3e-05,
-      "loss": 0.9531,
       "step": 190
     },
     {
       "epoch": 1.36,
       "learning_rate": 3e-05,
-      "loss": 1.0166,
       "step": 200
     },
     {
       "epoch": 1.36,
-      "eval_loss": 1.1301459074020386,
-      "eval_runtime": 15.7471,
-      "eval_samples_per_second": 16.638,
-      "eval_steps_per_second": 4.191,
       "step": 200
     },
     {
       "epoch": 1.43,
       "learning_rate": 3e-05,
-      "loss": 0.9869,
       "step": 210
     },
     {
       "epoch": 1.49,
       "learning_rate": 3e-05,
-      "loss": 0.9066,
       "step": 220
     },
     {
       "epoch": 1.56,
       "learning_rate": 3e-05,
-      "loss": 0.9884,
       "step": 230
     },
     {
       "epoch": 1.63,
       "learning_rate": 3e-05,
-      "loss": 0.9885,
       "step": 240
     },
     {
       "epoch": 1.7,
       "learning_rate": 3e-05,
-      "loss": 1.0281,
       "step": 250
     },
     {
       "epoch": 1.7,
-      "eval_loss": 1.1312241554260254,
-      "eval_runtime": 15.6611,
-      "eval_samples_per_second": 16.729,
-      "eval_steps_per_second": 4.214,
       "step": 250
     },
     {
       "epoch": 1.77,
       "learning_rate": 3e-05,
-      "loss": 0.9723,
       "step": 260
     },
     {
       "epoch": 1.83,
       "learning_rate": 3e-05,
-      "loss": 1.0428,
       "step": 270
     },
     {
       "epoch": 1.9,
       "learning_rate": 3e-05,
-      "loss": 0.961,
       "step": 280
     },
     {
       "epoch": 1.97,
       "learning_rate": 3e-05,
-      "loss": 0.9311,
       "step": 290
     },
     {
       "epoch": 2.0,
       "step": 294,
-      "total_flos": 7.002531209517466e+16,
-      "train_loss": 1.0460824836679057,
-      "train_runtime": 890.7293,
-      "train_samples_per_second": 5.29,
-      "train_steps_per_second": 0.33
     }
   ],
   "logging_steps": 10,
@@ -237,7 +237,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 250,
-  "total_flos": 7.002531209517466e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 0.07,
       "learning_rate": 3e-05,
+      "loss": 1.2028,
       "step": 10
     },
     {
       "epoch": 0.14,
       "learning_rate": 3e-05,
+      "loss": 1.1367,
       "step": 20
     },
     {
       "epoch": 0.2,
       "learning_rate": 3e-05,
+      "loss": 1.1322,
       "step": 30
     },
     {
       "epoch": 0.27,
       "learning_rate": 3e-05,
+      "loss": 1.1106,
       "step": 40
     },
     {
       "epoch": 0.34,
       "learning_rate": 3e-05,
+      "loss": 1.1008,
       "step": 50
     },
     {
       "epoch": 0.34,
+      "eval_loss": 1.1495487689971924,
+      "eval_runtime": 15.8798,
+      "eval_samples_per_second": 16.499,
+      "eval_steps_per_second": 4.156,
       "step": 50
     },
     {
       "epoch": 0.41,
       "learning_rate": 3e-05,
+      "loss": 1.0936,
       "step": 60
     },
     {
       "epoch": 0.48,
       "learning_rate": 3e-05,
+      "loss": 1.0916,
       "step": 70
     },
     {
       "epoch": 0.54,
       "learning_rate": 3e-05,
+      "loss": 1.1387,
       "step": 80
     },
     {
       "epoch": 0.61,
       "learning_rate": 3e-05,
+      "loss": 1.1185,
       "step": 90
     },
     {
       "epoch": 0.68,
       "learning_rate": 3e-05,
+      "loss": 1.0662,
       "step": 100
     },
     {
       "epoch": 0.68,
+      "eval_loss": 1.1313235759735107,
+      "eval_runtime": 15.8959,
+      "eval_samples_per_second": 16.482,
+      "eval_steps_per_second": 4.152,
       "step": 100
     },
     {
       "epoch": 0.75,
       "learning_rate": 3e-05,
+      "loss": 1.0562,
       "step": 110
     },
     {
       "epoch": 0.81,
       "learning_rate": 3e-05,
+      "loss": 1.1093,
       "step": 120
     },
     {
       "epoch": 0.88,
       "learning_rate": 3e-05,
+      "loss": 1.0944,
       "step": 130
     },
     {
       "epoch": 0.95,
       "learning_rate": 3e-05,
+      "loss": 1.0736,
       "step": 140
     },
     {
     },
     {
       "epoch": 1.02,
+      "eval_loss": 1.1258115768432617,
+      "eval_runtime": 16.0332,
+      "eval_samples_per_second": 16.341,
+      "eval_steps_per_second": 4.116,
       "step": 150
     },
     {
       "epoch": 1.09,
       "learning_rate": 3e-05,
+      "loss": 0.9901,
       "step": 160
     },
     {
       "epoch": 1.15,
       "learning_rate": 3e-05,
+      "loss": 1.0627,
       "step": 170
     },
     {
       "epoch": 1.22,
       "learning_rate": 3e-05,
+      "loss": 0.9774,
       "step": 180
     },
     {
       "epoch": 1.29,
       "learning_rate": 3e-05,
+      "loss": 0.9502,
       "step": 190
     },
     {
       "epoch": 1.36,
       "learning_rate": 3e-05,
+      "loss": 1.0173,
       "step": 200
     },
     {
       "epoch": 1.36,
+      "eval_loss": 1.1320679187774658,
+      "eval_runtime": 15.9046,
+      "eval_samples_per_second": 16.473,
+      "eval_steps_per_second": 4.15,
       "step": 200
     },
     {
       "epoch": 1.43,
       "learning_rate": 3e-05,
+      "loss": 0.9879,
       "step": 210
     },
     {
       "epoch": 1.49,
       "learning_rate": 3e-05,
+      "loss": 0.9056,
       "step": 220
     },
     {
       "epoch": 1.56,
       "learning_rate": 3e-05,
+      "loss": 0.9976,
       "step": 230
     },
     {
       "epoch": 1.63,
       "learning_rate": 3e-05,
+      "loss": 0.989,
       "step": 240
     },
     {
       "epoch": 1.7,
       "learning_rate": 3e-05,
+      "loss": 1.0279,
       "step": 250
     },
     {
       "epoch": 1.7,
+      "eval_loss": 1.129327416419983,
+      "eval_runtime": 15.4802,
+      "eval_samples_per_second": 16.925,
+      "eval_steps_per_second": 4.264,
       "step": 250
     },
     {
       "epoch": 1.77,
       "learning_rate": 3e-05,
+      "loss": 0.9651,
       "step": 260
     },
     {
       "epoch": 1.83,
       "learning_rate": 3e-05,
+      "loss": 1.0424,
       "step": 270
     },
     {
       "epoch": 1.9,
       "learning_rate": 3e-05,
+      "loss": 0.962,
       "step": 280
     },
     {
       "epoch": 1.97,
       "learning_rate": 3e-05,
+      "loss": 0.9308,
       "step": 290
     },
     {
       "epoch": 2.0,
       "step": 294,
+      "total_flos": 7.119009482145792e+16,
+      "train_loss": 1.0446421305338542,
+      "train_runtime": 881.4723,
+      "train_samples_per_second": 5.346,
+      "train_steps_per_second": 0.334
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 250,
+  "total_flos": 7.119009482145792e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7354e725785da8b7b0a039b25e28ac3e5e811514125d390c40da0e60c2ef9472
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9d97e4d2235ca4e707c6e62422eda3d3038e2caef6327d7b0d1487dd9a13c01
 size 6648