Model save

Files changed (9) hide show

README.md CHANGED Viewed

@@ -2,15 +2,12 @@
 license: apache-2.0
 base_model: BioMistral/BioMistral-7B
 tags:
-- alignment-handbook
-- trl
-- sft
-- generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
 datasets:
-- HuggingFaceH4/deita-10k-v0-sft
 model-index:
 - name: biomistral-7b-wo-healthsearch_qa-sft
   results: []
@@ -21,7 +18,7 @@ should probably proofread and complete it, then remove this comment. -->
 # biomistral-7b-wo-healthsearch_qa-sft
-This model is a fine-tuned version of [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B) on the HuggingFaceH4/deita-10k-v0-sft dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.2861
@@ -60,7 +57,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.5267        | 0.89  | 2    | 1.6524          |
 | 1.5267        | 1.78  | 4    | 1.3368          |
 | 1.5314        | 2.67  | 6    | 1.2861          |

 license: apache-2.0
 base_model: BioMistral/BioMistral-7B
 tags:
 - trl
 - sft
+- alignment-handbook
 - generated_from_trainer
 datasets:
+- generator
 model-index:
 - name: biomistral-7b-wo-healthsearch_qa-sft
   results: []
 # biomistral-7b-wo-healthsearch_qa-sft
+This model is a fine-tuned version of [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B) on the generator dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.2861
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.5267        | 0.89  | 2    | 1.6525          |
 | 1.5267        | 1.78  | 4    | 1.3368          |
 | 1.5314        | 2.67  | 6    | 1.2861          |

all_results.json CHANGED Viewed

@@ -5,9 +5,9 @@
     "eval_samples": 3843,
     "eval_samples_per_second": 11.835,
     "eval_steps_per_second": 0.758,
-    "train_loss": 1.4867323637008667,
-    "train_runtime": 191.0473,
     "train_samples": 1871,
-    "train_samples_per_second": 2.057,
     "train_steps_per_second": 0.031
 }

     "eval_samples": 3843,
     "eval_samples_per_second": 11.835,
     "eval_steps_per_second": 0.758,
+    "train_loss": 1.4867139259974163,
+    "train_runtime": 195.2794,
     "train_samples": 1871,
+    "train_samples_per_second": 2.013,
     "train_steps_per_second": 0.031
 }

config.json CHANGED Viewed

@@ -21,6 +21,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
-  "use_cache": true,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
+  "use_cache": false,
   "vocab_size": 32000
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9512359b5fc03fc04777fb4b7f58aa2c9b55e08c9aa121041cc3a09a7502f802
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f5dab019f4da12c5fcb99a4cd6abcbd8f12bfd480ec6c3b36cd11836e41c852
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe51800a842b017054bfb48a5611803232414f404f3c389d52bec679f121da9b
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:db9c109a98d0a79dbffe8222c00dcd016dcc0e0f3d57a3fba2936fd5badfba02
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:802e45799c453c295c8255dc51040397ba9e6d703fb6371cc2d2c1218b42ea55
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:3891a6a75dfb0cd0c4a4111f895cd85c147fcde522fac6d52e05928fcbe7c17c
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.67,
-    "train_loss": 1.4867323637008667,
-    "train_runtime": 191.0473,
     "train_samples": 1871,
-    "train_samples_per_second": 2.057,
     "train_steps_per_second": 0.031
 }

 {
     "epoch": 2.67,
+    "train_loss": 1.4867139259974163,
+    "train_runtime": 195.2794,
     "train_samples": 1871,
+    "train_samples_per_second": 2.013,
     "train_steps_per_second": 0.031
 }

trainer_state.json CHANGED Viewed

@@ -10,49 +10,49 @@
   "log_history": [
     {
       "epoch": 0.44,
-      "grad_norm": 13.443144378615262,
       "learning_rate": 2e-05,
       "loss": 1.5267,
       "step": 1
     },
     {
       "epoch": 0.89,
-      "eval_loss": 1.6524367332458496,
-      "eval_runtime": 29.0711,
-      "eval_samples_per_second": 11.283,
-      "eval_steps_per_second": 0.722,
       "step": 2
     },
     {
       "epoch": 1.78,
-      "eval_loss": 1.3368104696273804,
-      "eval_runtime": 27.8081,
-      "eval_samples_per_second": 11.795,
-      "eval_steps_per_second": 0.755,
       "step": 4
     },
     {
       "epoch": 2.22,
-      "grad_norm": 9.134734061552859,
       "learning_rate": 1.9098300562505266e-06,
       "loss": 1.5314,
       "step": 5
     },
     {
       "epoch": 2.67,
-      "eval_loss": 1.286088466644287,
-      "eval_runtime": 27.7873,
-      "eval_samples_per_second": 11.804,
-      "eval_steps_per_second": 0.756,
       "step": 6
     },
     {
       "epoch": 2.67,
       "step": 6,
       "total_flos": 1203933020160.0,
-      "train_loss": 1.4867323637008667,
-      "train_runtime": 191.0473,
-      "train_samples_per_second": 2.057,
       "train_steps_per_second": 0.031
     }
   ],

   "log_history": [
     {
       "epoch": 0.44,
+      "grad_norm": 13.444029529439474,
       "learning_rate": 2e-05,
       "loss": 1.5267,
       "step": 1
     },
     {
       "epoch": 0.89,
+      "eval_loss": 1.6524723768234253,
+      "eval_runtime": 28.2635,
+      "eval_samples_per_second": 11.605,
+      "eval_steps_per_second": 0.743,
       "step": 2
     },
     {
       "epoch": 1.78,
+      "eval_loss": 1.3368109464645386,
+      "eval_runtime": 28.0066,
+      "eval_samples_per_second": 11.712,
+      "eval_steps_per_second": 0.75,
       "step": 4
     },
     {
       "epoch": 2.22,
+      "grad_norm": 9.140588088271421,
       "learning_rate": 1.9098300562505266e-06,
       "loss": 1.5314,
       "step": 5
     },
     {
       "epoch": 2.67,
+      "eval_loss": 1.2860867977142334,
+      "eval_runtime": 27.9435,
+      "eval_samples_per_second": 11.738,
+      "eval_steps_per_second": 0.752,
       "step": 6
     },
     {
       "epoch": 2.67,
       "step": 6,
       "total_flos": 1203933020160.0,
+      "train_loss": 1.4867139259974163,
+      "train_runtime": 195.2794,
+      "train_samples_per_second": 2.013,
       "train_steps_per_second": 0.031
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bba6609134f32fd0d8984f9e69c8d24653594f7a0a0fa6e84f1bcdb1be3861ec
 size 6200

 version https://git-lfs.github.com/spec/v1
+oid sha256:7672476996b85d5e3f3f24dbd1401139f95d5a0c7e887a0919fd15eed0fb199c
 size 6200