Model save

Browse files

Files changed (6) hide show

README.md +91 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
runs/Apr11_22-29-34_deep-diver-main-blue-cougar-1-0-0/events.out.tfevents.1712889077.deep-diver-main-blue-cougar-1-0-0.520.0 +2 -2
train_results.json +8 -0
trainer_state.json +396 -0

README.md ADDED Viewed

	@@ -0,0 +1,91 @@

+---
+license: gemma
+library_name: peft
+tags:
+- trl
+- sft
+- generated_from_trainer
+base_model: google/gemma-7b
+datasets:
+- generator
+model-index:
+- name: gemma-7b-sft-qlora-1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gemma-7b-sft-qlora-1
+This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.2095
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 25
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 23.6212       | 0.91  | 5    | 8.0020          |
+| 14.6688       | 2.0   | 11   | 6.8099          |
+| 10.8277       | 2.91  | 16   | 6.4585          |
+| 10.965        | 4.0   | 22   | 5.2759          |
+| 8.3233        | 4.91  | 27   | 1.6939          |
+| 2.2795        | 6.0   | 33   | 1.4540          |
+| 1.5047        | 6.91  | 38   | 1.3612          |
+| 1.3243        | 8.0   | 44   | 1.2886          |
+| 1.1264        | 8.91  | 49   | 1.2783          |
+| 0.9122        | 10.0  | 55   | 1.2740          |
+| 0.8184        | 10.91 | 60   | 1.2854          |
+| 0.6918        | 12.0  | 66   | 1.3135          |
+| 0.6194        | 12.91 | 71   | 1.3431          |
+| 0.5176        | 14.0  | 77   | 1.4737          |
+| 0.4514        | 14.91 | 82   | 1.7112          |
+| 0.3759        | 16.0  | 88   | 1.8429          |
+| 0.3464        | 16.91 | 93   | 1.8994          |
+| 0.2681        | 18.0  | 99   | 1.9583          |
+| 0.2487        | 18.91 | 104  | 2.1623          |
+| 0.2122        | 20.0  | 110  | 2.2136          |
+| 0.2036        | 20.91 | 115  | 2.2150          |
+| 0.2098        | 22.0  | 121  | 2.2189          |
+| 0.1955        | 22.73 | 125  | 2.2095          |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.39.3
+- Pytorch 2.2.2+cu121
+- Datasets 2.18.0
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2d18eaf6448fefa1db82c12822de8961d66f6d5c272f70d78eb59746888ac07
 size 100060536

 version https://git-lfs.github.com/spec/v1
+oid sha256:5df096199927ddbdde200b1c71b8c291651dc6e208429f57711ce6ceef6530b2
 size 100060536

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 22.73,
+    "train_loss": 3.2900945229530336,
+    "train_runtime": 472.0874,
+    "train_samples": 926,
+    "train_samples_per_second": 4.66,
+    "train_steps_per_second": 0.265
+}

runs/Apr11_22-29-34_deep-diver-main-blue-cougar-1-0-0/events.out.tfevents.1712889077.deep-diver-main-blue-cougar-1-0-0.520.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30d93495b768e37538b10fcb4c6dc2770d5b599d274a53238f5cc0176024b5c5
-size 14483

 version https://git-lfs.github.com/spec/v1
+oid sha256:43992c407a6a78bf211428c86efcd2a5c2896815831aeeb05f20acc0153f6a58
+size 17196

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 22.73,
+    "train_loss": 3.2900945229530336,
+    "train_runtime": 472.0874,
+    "train_samples": 926,
+    "train_samples_per_second": 4.66,
+    "train_steps_per_second": 0.265
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,396 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 22.727272727272727,
+  "eval_steps": 500,
+  "global_step": 125,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18,
+      "grad_norm": 220.0,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 24.9691,
+      "step": 1
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 90.0,
+      "learning_rate": 7.692307692307693e-05,
+      "loss": 23.6212,
+      "step": 5
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 8.00199031829834,
+      "eval_runtime": 0.5608,
+      "eval_samples_per_second": 3.566,
+      "eval_steps_per_second": 1.783,
+      "step": 5
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 14.8125,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 14.6688,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 6.809861183166504,
+      "eval_runtime": 0.5624,
+      "eval_samples_per_second": 3.556,
+      "eval_steps_per_second": 1.778,
+      "step": 11
+    },
+    {
+      "epoch": 2.73,
+      "grad_norm": 5.625,
+      "learning_rate": 0.00019984268150178167,
+      "loss": 10.8277,
+      "step": 15
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 6.458514213562012,
+      "eval_runtime": 0.5773,
+      "eval_samples_per_second": 3.465,
+      "eval_steps_per_second": 1.732,
+      "step": 16
+    },
+    {
+      "epoch": 3.64,
+      "grad_norm": 7.65625,
+      "learning_rate": 0.00019807852804032305,
+      "loss": 10.965,
+      "step": 20
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 5.275852203369141,
+      "eval_runtime": 0.5667,
+      "eval_samples_per_second": 3.529,
+      "eval_steps_per_second": 1.765,
+      "step": 22
+    },
+    {
+      "epoch": 4.55,
+      "grad_norm": 32.75,
+      "learning_rate": 0.00019438833303083678,
+      "loss": 8.3233,
+      "step": 25
+    },
+    {
+      "epoch": 4.91,
+      "eval_loss": 1.6938855648040771,
+      "eval_runtime": 0.5862,
+      "eval_samples_per_second": 3.412,
+      "eval_steps_per_second": 1.706,
+      "step": 27
+    },
+    {
+      "epoch": 5.45,
+      "grad_norm": 2.890625,
+      "learning_rate": 0.00018884456359788724,
+      "loss": 2.2795,
+      "step": 30
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.4539892673492432,
+      "eval_runtime": 0.5675,
+      "eval_samples_per_second": 3.524,
+      "eval_steps_per_second": 1.762,
+      "step": 33
+    },
+    {
+      "epoch": 6.36,
+      "grad_norm": 35.25,
+      "learning_rate": 0.00018155608689592604,
+      "loss": 1.5047,
+      "step": 35
+    },
+    {
+      "epoch": 6.91,
+      "eval_loss": 1.3612087965011597,
+      "eval_runtime": 0.5882,
+      "eval_samples_per_second": 3.4,
+      "eval_steps_per_second": 1.7,
+      "step": 38
+    },
+    {
+      "epoch": 7.27,
+      "grad_norm": 1.65625,
+      "learning_rate": 0.0001726660322034027,
+      "loss": 1.3243,
+      "step": 40
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.288640022277832,
+      "eval_runtime": 0.5698,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.755,
+      "step": 44
+    },
+    {
+      "epoch": 8.18,
+      "grad_norm": 1.015625,
+      "learning_rate": 0.00016234898018587337,
+      "loss": 1.1264,
+      "step": 45
+    },
+    {
+      "epoch": 8.91,
+      "eval_loss": 1.2782788276672363,
+      "eval_runtime": 0.59,
+      "eval_samples_per_second": 3.39,
+      "eval_steps_per_second": 1.695,
+      "step": 49
+    },
+    {
+      "epoch": 9.09,
+      "grad_norm": 2.1875,
+      "learning_rate": 0.00015080753452465296,
+      "loss": 1.0387,
+      "step": 50
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.9765625,
+      "learning_rate": 0.000138268343236509,
+      "loss": 0.9122,
+      "step": 55
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.2739648818969727,
+      "eval_runtime": 0.5659,
+      "eval_samples_per_second": 3.534,
+      "eval_steps_per_second": 1.767,
+      "step": 55
+    },
+    {
+      "epoch": 10.91,
+      "grad_norm": 0.6953125,
+      "learning_rate": 0.0001249776478167227,
+      "loss": 0.8184,
+      "step": 60
+    },
+    {
+      "epoch": 10.91,
+      "eval_loss": 1.2853541374206543,
+      "eval_runtime": 0.5892,
+      "eval_samples_per_second": 3.395,
+      "eval_steps_per_second": 1.697,
+      "step": 60
+    },
+    {
+      "epoch": 11.82,
+      "grad_norm": 0.96875,
+      "learning_rate": 0.00011119644761033078,
+      "loss": 0.6918,
+      "step": 65
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 1.31352698802948,
+      "eval_runtime": 0.5674,
+      "eval_samples_per_second": 3.525,
+      "eval_steps_per_second": 1.762,
+      "step": 66
+    },
+    {
+      "epoch": 12.73,
+      "grad_norm": 0.92578125,
+      "learning_rate": 9.719537437241312e-05,
+      "loss": 0.6194,
+      "step": 70
+    },
+    {
+      "epoch": 12.91,
+      "eval_loss": 1.343058705329895,
+      "eval_runtime": 0.7364,
+      "eval_samples_per_second": 2.716,
+      "eval_steps_per_second": 1.358,
+      "step": 71
+    },
+    {
+      "epoch": 13.64,
+      "grad_norm": 1.1875,
+      "learning_rate": 8.324937766952638e-05,
+      "loss": 0.5176,
+      "step": 75
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.4736580848693848,
+      "eval_runtime": 0.5693,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.757,
+      "step": 77
+    },
+    {
+      "epoch": 14.55,
+      "grad_norm": 0.9296875,
+      "learning_rate": 6.963232548903853e-05,
+      "loss": 0.4514,
+      "step": 80
+    },
+    {
+      "epoch": 14.91,
+      "eval_loss": 1.7112184762954712,
+      "eval_runtime": 0.6242,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 82
+    },
+    {
+      "epoch": 15.45,
+      "grad_norm": 1.34375,
+      "learning_rate": 5.6611626088244194e-05,
+      "loss": 0.3759,
+      "step": 85
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.8429330587387085,
+      "eval_runtime": 0.5694,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.756,
+      "step": 88
+    },
+    {
+      "epoch": 16.36,
+      "grad_norm": 0.84375,
+      "learning_rate": 4.444297669803981e-05,
+      "loss": 0.3464,
+      "step": 90
+    },
+    {
+      "epoch": 16.91,
+      "eval_loss": 1.899384617805481,
+      "eval_runtime": 0.5863,
+      "eval_samples_per_second": 3.411,
+      "eval_steps_per_second": 1.706,
+      "step": 93
+    },
+    {
+      "epoch": 17.27,
+      "grad_norm": 0.8203125,
+      "learning_rate": 3.336534220479961e-05,
+      "loss": 0.2681,
+      "step": 95
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.9583137035369873,
+      "eval_runtime": 0.5683,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.76,
+      "step": 99
+    },
+    {
+      "epoch": 18.18,
+      "grad_norm": 0.73828125,
+      "learning_rate": 2.3596262417839255e-05,
+      "loss": 0.2487,
+      "step": 100
+    },
+    {
+      "epoch": 18.91,
+      "eval_loss": 2.162316083908081,
+      "eval_runtime": 0.5845,
+      "eval_samples_per_second": 3.422,
+      "eval_steps_per_second": 1.711,
+      "step": 104
+    },
+    {
+      "epoch": 19.09,
+      "grad_norm": 0.875,
+      "learning_rate": 1.5327580077171587e-05,
+      "loss": 0.2322,
+      "step": 105
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.6484375,
+      "learning_rate": 8.72167349386811e-06,
+      "loss": 0.2122,
+      "step": 110
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 2.213620901107788,
+      "eval_runtime": 0.5651,
+      "eval_samples_per_second": 3.539,
+      "eval_steps_per_second": 1.769,
+      "step": 110
+    },
+    {
+      "epoch": 20.91,
+      "grad_norm": 0.50390625,
+      "learning_rate": 3.908267805490051e-06,
+      "loss": 0.2036,
+      "step": 115
+    },
+    {
+      "epoch": 20.91,
+      "eval_loss": 2.2149863243103027,
+      "eval_runtime": 0.5812,
+      "eval_samples_per_second": 3.441,
+      "eval_steps_per_second": 1.721,
+      "step": 115
+    },
+    {
+      "epoch": 21.82,
+      "grad_norm": 0.458984375,
+      "learning_rate": 9.818874663554357e-07,
+      "loss": 0.2098,
+      "step": 120
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 2.2188880443573,
+      "eval_runtime": 0.5673,
+      "eval_samples_per_second": 3.525,
+      "eval_steps_per_second": 1.763,
+      "step": 121
+    },
+    {
+      "epoch": 22.73,
+      "grad_norm": 0.6171875,
+      "learning_rate": 0.0,
+      "loss": 0.1955,
+      "step": 125
+    },
+    {
+      "epoch": 22.73,
+      "eval_loss": 2.209489345550537,
+      "eval_runtime": 0.5657,
+      "eval_samples_per_second": 3.536,
+      "eval_steps_per_second": 1.768,
+      "step": 125
+    },
+    {
+      "epoch": 22.73,
+      "step": 125,
+      "total_flos": 1.917235948819579e+17,
+      "train_loss": 3.2900945229530336,
+      "train_runtime": 472.0874,
+      "train_samples_per_second": 4.66,
+      "train_steps_per_second": 0.265
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 125,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 25,
+  "save_steps": 100,
+  "total_flos": 1.917235948819579e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}