Upload 15 files

Browse files

Files changed (10) hide show

README.md +8 -12
all_results.json +5 -10
config.json +2 -2
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +75 -68
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,15 +2,11 @@
 license: apache-2.0
 base_model: mistralai/Mistral-7B-v0.1
 tags:
-- alignment-handbook
-- trl
-- sft
-- generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
 datasets:
-- HuggingFaceH4/deita-10k-v0-sft
 model-index:
 - name: mistral-7b-wo-live_qa-iter-sft-step1
   results: []
@@ -21,9 +17,9 @@ should probably proofread and complete it, then remove this comment. -->
 # mistral-7b-wo-live_qa-iter-sft-step1
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the HuggingFaceH4/deita-10k-v0-sft dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.8004
 ## Model description
@@ -60,14 +56,14 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 2.2107        | 0.96  | 16   | 1.5384          |
-| 1.4572        | 1.97  | 33   | 1.6461          |
-| 0.9565        | 2.87  | 48   | 1.8004          |
 ### Framework versions
-- Transformers 4.39.0.dev0
-- Pytorch 2.1.2
 - Datasets 2.14.6
 - Tokenizers 0.15.2

 license: apache-2.0
 base_model: mistralai/Mistral-7B-v0.1
 tags:
 - trl
 - sft
 - generated_from_trainer
 datasets:
+- generator
 model-index:
 - name: mistral-7b-wo-live_qa-iter-sft-step1
   results: []
 # mistral-7b-wo-live_qa-iter-sft-step1
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.3446
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.0022        | 0.97  | 17   | 1.3495          |
+| 0.7519        | 2.0   | 35   | 1.3250          |
+| 0.5685        | 2.91  | 51   | 1.3446          |
 ### Framework versions
+- Transformers 4.38.2
+- Pytorch 2.1.2+cu121
 - Datasets 2.14.6
 - Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
-    "epoch": 2.87,
-    "eval_loss": 1.8004332780838013,
-    "eval_runtime": 1.8174,
-    "eval_samples": 100,
-    "eval_samples_per_second": 3.852,
-    "eval_steps_per_second": 0.55,
-    "train_loss": 1.592680846651395,
-    "train_runtime": 972.6889,
     "train_samples": 4848,
-    "train_samples_per_second": 3.3,
-    "train_steps_per_second": 0.049
 }

 {
+    "epoch": 2.91,
+    "train_loss": 0.807617746147455,
+    "train_runtime": 901.1485,
     "train_samples": 4848,
+    "train_samples_per_second": 3.685,
+    "train_steps_per_second": 0.057
 }

config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.39.0.dev0",
-  "use_cache": true,
   "vocab_size": 32000
 }

   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.38.2",
+  "use_cache": false,
   "vocab_size": 32000
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "transformers_version": "4.39.0.dev0"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "transformers_version": "4.38.2"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed42368472ceff8e046b5df6a192e73b5833219c86863f16b7258a93ecc9d6a8
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a82d850e450056ae8b1963991c10eee8a3e644103163b7176bb8f307e82a80d
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45b0caea5d046e61cfc3ad8651e4b9d85f8454bbe22fb65b71729f0bec9e8aab
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b120958fbdea318f7a96b8f13a322a5d815a87b3b372598e5558f1ff979054d
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd6a9ac5306af2d4d20adbac7a4ce8f84bd95b0ef63efb80d256d6fd25630121
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:eabe1b6021d809fff031c25c2e6afe1ef64b7b910c280df2004fa7fcd3f228ef
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.87,
-    "train_loss": 1.592680846651395,
-    "train_runtime": 972.6889,
     "train_samples": 4848,
-    "train_samples_per_second": 3.3,
-    "train_steps_per_second": 0.049
 }

 {
+    "epoch": 2.91,
+    "train_loss": 0.807617746147455,
+    "train_runtime": 901.1485,
     "train_samples": 4848,
+    "train_samples_per_second": 3.685,
+    "train_steps_per_second": 0.057
 }

trainer_state.json CHANGED Viewed

@@ -1,123 +1,130 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.8656716417910446,
   "eval_steps": 500,
-  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06,
-      "grad_norm": 7.837143285917327,
-      "learning_rate": 4.000000000000001e-06,
-      "loss": 2.2354,
       "step": 1
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 9.311491863709907,
-      "learning_rate": 2e-05,
-      "loss": 2.1965,
       "step": 5
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 4.970375942777289,
-      "learning_rate": 1.9340161087325483e-05,
-      "loss": 2.1045,
       "step": 10
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 3.5227839335545066,
-      "learning_rate": 1.744772182743782e-05,
-      "loss": 2.2107,
       "step": 15
     },
     {
-      "epoch": 0.96,
-      "eval_loss": 1.5384026765823364,
-      "eval_runtime": 1.7145,
-      "eval_samples_per_second": 4.083,
-      "eval_steps_per_second": 0.583,
-      "step": 16
     },
     {
-      "epoch": 1.19,
-      "grad_norm": 4.57009081553093,
-      "learning_rate": 1.4572423233046386e-05,
-      "loss": 1.8611,
       "step": 20
     },
     {
-      "epoch": 1.49,
-      "grad_norm": 5.062546542837419,
-      "learning_rate": 1.1093712083778748e-05,
-      "loss": 1.533,
       "step": 25
     },
     {
-      "epoch": 1.79,
-      "grad_norm": 3.8164674548597004,
-      "learning_rate": 7.470666176083193e-06,
-      "loss": 1.4572,
       "step": 30
     },
     {
-      "epoch": 1.97,
-      "eval_loss": 1.646084189414978,
-      "eval_runtime": 1.7409,
-      "eval_samples_per_second": 4.021,
-      "eval_steps_per_second": 0.574,
-      "step": 33
     },
     {
-      "epoch": 2.09,
-      "grad_norm": 9.370778150439074,
-      "learning_rate": 4.181410844420473e-06,
-      "loss": 1.342,
       "step": 35
     },
     {
-      "epoch": 2.39,
-      "grad_norm": 4.2248384357705895,
-      "learning_rate": 1.660021821101222e-06,
-      "loss": 1.0214,
       "step": 40
     },
     {
-      "epoch": 2.69,
-      "grad_norm": 4.735590938981405,
-      "learning_rate": 2.392412244407294e-07,
-      "loss": 0.9565,
       "step": 45
     },
     {
-      "epoch": 2.87,
-      "eval_loss": 1.8004332780838013,
-      "eval_runtime": 1.6722,
-      "eval_samples_per_second": 4.186,
-      "eval_steps_per_second": 0.598,
-      "step": 48
     },
     {
-      "epoch": 2.87,
-      "step": 48,
-      "total_flos": 9997878558720.0,
-      "train_loss": 1.592680846651395,
-      "train_runtime": 972.6889,
-      "train_samples_per_second": 3.3,
-      "train_steps_per_second": 0.049
     }
   ],
   "logging_steps": 5,
-  "max_steps": 48,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 9997878558720.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.914285714285714,
   "eval_steps": 500,
+  "global_step": 51,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06,
+      "grad_norm": 7.817991325483718,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.965,
       "step": 1
     },
     {
+      "epoch": 0.29,
+      "grad_norm": 49.73347603245408,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.1198,
       "step": 5
     },
     {
+      "epoch": 0.57,
+      "grad_norm": 4.523926056457663,
+      "learning_rate": 1.961261695938319e-05,
+      "loss": 1.0209,
       "step": 10
     },
     {
+      "epoch": 0.86,
+      "grad_norm": 3.8093568875972696,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 1.0022,
       "step": 15
     },
     {
+      "epoch": 0.97,
+      "eval_loss": 1.349517822265625,
+      "eval_runtime": 2.9563,
+      "eval_samples_per_second": 7.78,
+      "eval_steps_per_second": 0.677,
+      "step": 17
     },
     {
+      "epoch": 1.14,
+      "grad_norm": 2.9739767130682138,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.8913,
       "step": 20
     },
     {
+      "epoch": 1.43,
+      "grad_norm": 2.5183506153336306,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.8043,
       "step": 25
     },
     {
+      "epoch": 1.71,
+      "grad_norm": 2.193683108302545,
+      "learning_rate": 8.954715367323468e-06,
+      "loss": 0.7194,
       "step": 30
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 2.3903108778369,
+      "learning_rate": 5.616288532109225e-06,
+      "loss": 0.7519,
+      "step": 35
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 1.3249517679214478,
+      "eval_runtime": 2.7504,
+      "eval_samples_per_second": 8.363,
+      "eval_steps_per_second": 0.727,
       "step": 35
     },
     {
+      "epoch": 2.29,
+      "grad_norm": 3.1793272954159764,
+      "learning_rate": 2.8066019966134907e-06,
+      "loss": 0.6556,
       "step": 40
     },
     {
+      "epoch": 2.57,
+      "grad_norm": 3.802719468935368,
+      "learning_rate": 8.645454235739903e-07,
+      "loss": 0.6099,
       "step": 45
     },
     {
+      "epoch": 2.86,
+      "grad_norm": 2.3574393295768283,
+      "learning_rate": 2.4359497401758026e-08,
+      "loss": 0.5685,
+      "step": 50
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 1.3446100950241089,
+      "eval_runtime": 2.6623,
+      "eval_samples_per_second": 8.639,
+      "eval_steps_per_second": 0.751,
+      "step": 51
     },
     {
+      "epoch": 2.91,
+      "step": 51,
+      "total_flos": 10626017525760.0,
+      "train_loss": 0.807617746147455,
+      "train_runtime": 901.1485,
+      "train_samples_per_second": 3.685,
+      "train_steps_per_second": 0.057
     }
   ],
   "logging_steps": 5,
+  "max_steps": 51,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 10626017525760.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b697b879fe9b55b1274599bb1b46f70520cdd827378acc80bc6c66c6049a47a3
 size 6200

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c50b82c9463e352609d63e82a468a5a19e8523f8a053072ef0e24d85b76eb28
 size 6200