afrias5
/

gemma-2-27b

Generated from Trainer

Model card Files Files and versions Community

afrias5 commited on Jul 22

Commit

447d22c

•

1 Parent(s): 5f83cfa

End of training

Files changed (1) hide show

README.md +10 -10

README.md CHANGED Viewed

@@ -6,7 +6,7 @@ tags:
 - axolotl
 - generated_from_trainer
 model-index:
-- name: gemma27b
   results: []
 ---
@@ -34,8 +34,8 @@ datasets:
 dataset_prepared_path: gemmadataset
 val_set_size: 0
 output_dir: models/gemma27b
-# lora_model_dir: models/Acodellama34bTestL4/checkpoint-80
-# auto_resume_from_checkpoints: true
 sequence_len: 4096
 sample_packing: true
 pad_to_sequence_len: true
@@ -59,7 +59,7 @@ wandb_log_model:
 gradient_accumulation_steps: 4
 micro_batch_size: 1
-num_epochs: 5
 optimizer: adamw_torch
 lr_scheduler: cosine
 learning_rate: 0.0002
@@ -69,20 +69,20 @@ group_by_length: false
 bf16: true
 fp16:
 tf32: false
-hub_model_id: afrias5/gemma27b
 gradient_checkpointing: true
 early_stopping_patience:
 resume_from_checkpoint:
 local_rank:
 logging_steps: 1
 xformers_attention:
-flash_attention: true
 s2_attention:
 logging_steps: 1
 warmup_steps: 10
 # eval_steps: 300
 saves_per_epoch: 1
-save_total_limit: 12
 debug:
 deepspeed:
 weight_decay: 0.0
@@ -96,8 +96,8 @@ special_tokens:
 </details><br>
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/afrias5/GemmaFeed/runs/wvkoyfy0)
-# gemma27b
 This model is a fine-tuned version of [google/gemma-2-27b](https://huggingface.co/google/gemma-2-27b) on the None dataset.
@@ -130,7 +130,7 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
-- num_epochs: 5
 ### Training results

 - axolotl
 - generated_from_trainer
 model-index:
+- name: gemma-2-27b
   results: []
 ---
 dataset_prepared_path: gemmadataset
 val_set_size: 0
 output_dir: models/gemma27b
+lora_model_dir: models/gemma27b/checkpoint-50
+auto_resume_from_checkpoints: true
 sequence_len: 4096
 sample_packing: true
 pad_to_sequence_len: true
 gradient_accumulation_steps: 4
 micro_batch_size: 1
+num_epochs: 10
 optimizer: adamw_torch
 lr_scheduler: cosine
 learning_rate: 0.0002
 bf16: true
 fp16:
 tf32: false
+hub_model_id: afrias5/gemma-2-27b
 gradient_checkpointing: true
 early_stopping_patience:
 resume_from_checkpoint:
 local_rank:
 logging_steps: 1
 xformers_attention:
+flash_attention: false
 s2_attention:
 logging_steps: 1
 warmup_steps: 10
 # eval_steps: 300
 saves_per_epoch: 1
+save_total_limit: 1
 debug:
 deepspeed:
 weight_decay: 0.0
 </details><br>
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/afrias5/GemmaFeed/runs/z6949qp5)
+# gemma-2-27b
 This model is a fine-tuned version of [google/gemma-2-27b](https://huggingface.co/google/gemma-2-27b) on the None dataset.
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
+- num_epochs: 10
 ### Training results