End of training

Browse files

Files changed (5) hide show

README.md +32 -0
all_results.json +7 -0
completed +0 -0
train_results.json +7 -0
trainer_state.json +145 -0

README.md ADDED Viewed

	@@ -0,0 +1,32 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.4.0.dev0
+- PEFT 0.4.0.dev0

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 6.27,
+    "train_loss": 1.5663859701156617,
+    "train_runtime": 4414.9851,
+    "train_samples_per_second": 1.45,
+    "train_steps_per_second": 0.045
+}

completed ADDED Viewed

File without changes

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 6.27,
+    "train_loss": 1.5663859701156617,
+    "train_runtime": 4414.9851,
+    "train_samples_per_second": 1.45,
+    "train_steps_per_second": 0.045
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,145 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.2745098039215685,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0002,
+      "loss": 2.0663,
+      "step": 10
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0002,
+      "loss": 2.0741,
+      "step": 20
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0002,
+      "loss": 1.9687,
+      "step": 30
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0002,
+      "loss": 1.9634,
+      "step": 40
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0002,
+      "loss": 1.8635,
+      "step": 50
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0002,
+      "loss": 1.8845,
+      "step": 60
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0002,
+      "loss": 1.7803,
+      "step": 70
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0002,
+      "loss": 1.6615,
+      "step": 80
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0002,
+      "loss": 1.7173,
+      "step": 90
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 0.0002,
+      "loss": 1.6624,
+      "step": 100
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 0.0002,
+      "loss": 1.3819,
+      "step": 110
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 0.0002,
+      "loss": 1.5122,
+      "step": 120
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.0002,
+      "loss": 1.5129,
+      "step": 130
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 0.0002,
+      "loss": 1.3089,
+      "step": 140
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 0.0002,
+      "loss": 1.2554,
+      "step": 150
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 0.0002,
+      "loss": 1.3004,
+      "step": 160
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 0.0002,
+      "loss": 1.1838,
+      "step": 170
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 0.0002,
+      "loss": 1.0549,
+      "step": 180
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 0.0002,
+      "loss": 1.1998,
+      "step": 190
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 0.0002,
+      "loss": 0.9754,
+      "step": 200
+    },
+    {
+      "epoch": 6.27,
+      "step": 200,
+      "total_flos": 1.7550743484911616e+17,
+      "train_loss": 1.5663859701156617,
+      "train_runtime": 4414.9851,
+      "train_samples_per_second": 1.45,
+      "train_steps_per_second": 0.045
+    }
+  ],
+  "max_steps": 200,
+  "num_train_epochs": 7,
+  "total_flos": 1.7550743484911616e+17,
+  "trial_name": null,
+  "trial_params": null
+}