llm-wizard/llama381binstruct_summarize_short_merged

Browse files

Files changed (7) hide show

.gitattributes +1 -0
README.md +29 -29
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
runs/Oct29_22-47-53_271f9d0a4177/events.out.tfevents.1730242079.271f9d0a4177.3118.0 +3 -0
tokenizer.json +0 -0
training_args.bin +2 -2

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [NousResearch/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/NousResearch/Meta-Llama-3.1-8B-Instruct) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.4530
 ## Model description
@@ -43,41 +43,41 @@ The following hyperparameters were used during training:
 - train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 30
 - training_steps: 500
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss |
-|:-------------:|:-----:|:----:|:---------------:|
-| 1.6176        | 1.25  | 25   | 1.4646          |
-| 0.7045        | 2.5   | 50   | 1.5828          |
-| 0.3188        | 3.75  | 75   | 1.7073          |
-| 0.1796        | 5.0   | 100  | 1.8367          |
-| 0.0882        | 6.25  | 125  | 2.0182          |
-| 0.038         | 7.5   | 150  | 2.3088          |
-| 0.0196        | 8.75  | 175  | 2.2476          |
-| 0.0256        | 10.0  | 200  | 2.1310          |
-| 0.0117        | 11.25 | 225  | 2.1974          |
-| 0.0066        | 12.5  | 250  | 2.2862          |
-| 0.0058        | 13.75 | 275  | 2.3694          |
-| 0.0071        | 15.0  | 300  | 2.2468          |
-| 0.0063        | 16.25 | 325  | 2.2986          |
-| 0.0031        | 17.5  | 350  | 2.3789          |
-| 0.0024        | 18.75 | 375  | 2.4145          |
-| 0.003         | 20.0  | 400  | 2.4298          |
-| 0.0025        | 21.25 | 425  | 2.4402          |
-| 0.0021        | 22.5  | 450  | 2.4474          |
-| 0.0022        | 23.75 | 475  | 2.4513          |
-| 0.0019        | 25.0  | 500  | 2.4530          |
 ### Framework versions
-- PEFT 0.12.0
-- Transformers 4.44.2
-- Pytorch 2.4.0+cu121
-- Datasets 3.0.0
-- Tokenizers 0.19.1

 This model is a fine-tuned version of [NousResearch/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/NousResearch/Meta-Llama-3.1-8B-Instruct) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.4158
 ## Model description
 - train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 30
 - training_steps: 500
 ### Training results
+| Training Loss | Epoch   | Step | Validation Loss |
+|:-------------:|:-------:|:----:|:---------------:|
+| 1.6861        | 1.1905  | 25   | 0.9223          |
+| 0.7859        | 2.3810  | 50   | 0.8779          |
+| 0.3887        | 3.5714  | 75   | 0.9867          |
+| 0.1412        | 4.7619  | 100  | 1.0822          |
+| 0.0911        | 5.9524  | 125  | 1.2118          |
+| 0.0391        | 7.1429  | 150  | 1.3553          |
+| 0.0309        | 8.3333  | 175  | 1.2825          |
+| 0.0188        | 9.5238  | 200  | 1.2512          |
+| 0.0145        | 10.7143 | 225  | 1.2936          |
+| 0.0091        | 11.9048 | 250  | 1.3109          |
+| 0.0058        | 13.0952 | 275  | 1.2768          |
+| 0.0042        | 14.2857 | 300  | 1.2963          |
+| 0.0032        | 15.4762 | 325  | 1.3539          |
+| 0.0021        | 16.6667 | 350  | 1.3810          |
+| 0.0024        | 17.8571 | 375  | 1.3974          |
+| 0.0021        | 19.0476 | 400  | 1.4047          |
+| 0.002         | 20.2381 | 425  | 1.4103          |
+| 0.0018        | 21.4286 | 450  | 1.4133          |
+| 0.0017        | 22.6190 | 475  | 1.4152          |
+| 0.0015        | 23.8095 | 500  | 1.4158          |
 ### Framework versions
+- PEFT 0.13.2
+- Transformers 4.46.1
+- Pytorch 2.5.0+cu121
+- Datasets 3.0.2
+- Tokenizers 0.20.1

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "q_proj",
     "v_proj",
     "up_proj",
-    "k_proj",
-    "down_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "o_proj",
+    "k_proj",
     "v_proj",
     "up_proj",
+    "gate_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3ef1a808206a62c89f13526d8271b95ba4bf9a6dd4577fd2280dc7b4572e2bf
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:56440b90fcc80bb3c42505579c82b09bbb9dbe7463cd7ceab80119cbc07f45dd
 size 167832240

runs/Oct29_22-47-53_271f9d0a4177/events.out.tfevents.1730242079.271f9d0a4177.3118.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30a6b6535b997cd13a3ae437b4ca989810f0c3c02d6223f0b25a45db3c9e60cf
+size 22459

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecea9784aaf6b2bf5e16248cd6ff2f1781625e879e42c147341a9829970f6e50
-size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:b76220d30a88df6674f89af91dc9ce7dd13e737f81e8b5ae2ff6cb45cdffe9c1
+size 5560