End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -105,7 +105,7 @@ xformers_attention: null
 This model is a fine-tuned version of [tokyotech-llm/Llama-3-Swallow-8B-v0.1](https://huggingface.co/tokyotech-llm/Llama-3-Swallow-8B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.1792
 ## Model description
@@ -128,11 +128,8 @@ The following hyperparameters were used during training:
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
-- distributed_type: multi-GPU
-- num_devices: 2
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 8
-- total_eval_batch_size: 2
 - optimizer: Use OptimizerNames.ADAMW_HF with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
@@ -143,10 +140,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 2.3204        | 0.0054 | 1    | 2.2009          |
-| 2.2241        | 0.0162 | 3    | 2.1992          |
-| 2.4093        | 0.0324 | 6    | 2.1916          |
-| 2.2467        | 0.0486 | 9    | 2.1792          |
 ### Framework versions

 This model is a fine-tuned version of [tokyotech-llm/Llama-3-Swallow-8B-v0.1](https://huggingface.co/tokyotech-llm/Llama-3-Swallow-8B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.1841
 ## Model description
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 4
 - optimizer: Use OptimizerNames.ADAMW_HF with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 2.4235        | 0.0027 | 1    | 2.2008          |
+| 2.6546        | 0.0081 | 3    | 2.1996          |
+| 2.3495        | 0.0162 | 6    | 2.1935          |
+| 2.3295        | 0.0243 | 9    | 2.1841          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "up_proj",
-    "o_proj",
-    "down_proj",
-    "q_proj",
     "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
+    "q_proj",
+    "k_proj",
+    "down_proj",
+    "up_proj",
+    "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dd44e7c4608b202bc0f01c2f4a3f50f7ecd28e7fd03c4c0097240dbaadfaf2b
 size 84047370

 version https://git-lfs.github.com/spec/v1
+oid sha256:74735c2e63d406e7970a6509b86dea08dac56b622c28910801aff96f76320d50
 size 84047370

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd8d602b8c8217d2bad01c439cf265d8636e230eef9088012f7f0abb56d28cf2
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0304deb94d880a7178e25c4a9e95080cad45ede8dec464157f33bd332f16447
 size 83945296

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46bccd6964f4291101ddc4731a06bfcf4544fcbb608a5a0128bc2068c8364f7b
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5b80978b6cdcc9339ecc7931db757328a1ca9deca5507d6af70e88c187855a9
 size 6776