error577
/

05d59197-7c98-4818-9e6e-c77b6e385888

Generated from Trainer

4-bit precision

Model card Files Files and versions Community

error577 commited on 27 days ago

Commit

1fc2135

·

verified ·

1 Parent(s): d337824

End of training

Files changed (1) hide show

README.md +7 -6

README.md CHANGED Viewed

@@ -64,7 +64,7 @@ lora_model_dir: null
 lora_r: 8
 lora_target_linear: true
 lr_scheduler: cosine
-max_steps: 50
 max_samples: 10000
 micro_batch_size: 1
 mlflow_experiment_name: /tmp/723928d8104e1c8a_train_data.json
@@ -103,7 +103,7 @@ xformers_attention: false
 This model is a fine-tuned version of [Vikhrmodels/Vikhr-7B-instruct_0.4](https://huggingface.co/Vikhrmodels/Vikhr-7B-instruct_0.4) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.4571
 ## Model description
@@ -131,16 +131,17 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
-- training_steps: 50
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
 | 3.2142        | 0.0094 | 1    | 3.3359          |
-| 2.6355        | 0.1216 | 13   | 2.7053          |
-| 2.5479        | 0.2433 | 26   | 2.5243          |
-| 2.3921        | 0.3649 | 39   | 2.4571          |
 ### Framework versions

 lora_r: 8
 lora_target_linear: true
 lr_scheduler: cosine
+max_steps: 100
 max_samples: 10000
 micro_batch_size: 1
 mlflow_experiment_name: /tmp/723928d8104e1c8a_train_data.json
 This model is a fine-tuned version of [Vikhrmodels/Vikhr-7B-instruct_0.4](https://huggingface.co/Vikhrmodels/Vikhr-7B-instruct_0.4) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.3079
 ## Model description
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
+- training_steps: 100
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
 | 3.2142        | 0.0094 | 1    | 3.3359          |
+| 2.6052        | 0.2339 | 25   | 2.5259          |
+| 2.5168        | 0.4678 | 50   | 2.3896          |
+| 2.3779        | 0.7018 | 75   | 2.3247          |
+| 2.624         | 0.9357 | 100  | 2.3079          |
 ### Framework versions