Training in progress, step 100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/README.md +0 -19
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step100/mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/README.md CHANGED Viewed

@@ -217,23 +217,4 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
-- PEFT 0.6.2
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: True
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: float16
-### Framework versions
 - PEFT 0.6.2


217	### Framework versions
218
219



















220	- PEFT 0.6.2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02b49cafa17099fb3f799866f293f74c7421276b1b678b94cf3e64d676ebf640
 size 42002136

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc6ff8066082ef557afccbd11fb614aa147c34dbb495a11a9b6571c45231a755
 size 42002136

last-checkpoint/global_step100/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c9382c6920279a7fafbc8ce7da74c141bfa7a777ea6bcf1b8964804673154e6
+size 8182659910

last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:441b1f27ab6f96995daf94a031614a4425be0a30f8cf007101c6085e9a7f2024
+size 251710893

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step50~~


1	+ global_step100

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95108ce3daae0de505fcc447f4742cf96275124742d94331b4e3e1cbe5b3334d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:21e76ce417a2453046e6a33726c8f3832834739201b50fea30214604b61d7e69
 size 14244

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0012437810945273632,
   "eval_steps": 1000,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,13 +307,313 @@
       "learning_rate": 0.00011666666666666668,
       "loss": 1.3727,
       "step": 50
     }
   ],
   "logging_steps": 1,
   "max_steps": 101,
   "num_train_epochs": 1,
   "save_steps": 50,
-  "total_flos": 3065802843488256.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0024875621890547263,
   "eval_steps": 1000,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00011666666666666668,
       "loss": 1.3727,
       "step": 50
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00011458333333333333,
+      "loss": 1.7153,
+      "step": 51
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00011250000000000001,
+      "loss": 1.6515,
+      "step": 52
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00011041666666666668,
+      "loss": 1.6403,
+      "step": 53
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00010833333333333333,
+      "loss": 1.4329,
+      "step": 54
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00010625000000000001,
+      "loss": 1.6322,
+      "step": 55
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00010416666666666667,
+      "loss": 1.5179,
+      "step": 56
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00010208333333333333,
+      "loss": 1.8221,
+      "step": 57
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0001,
+      "loss": 1.486,
+      "step": 58
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.791666666666667e-05,
+      "loss": 1.5899,
+      "step": 59
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.583333333333334e-05,
+      "loss": 1.9237,
+      "step": 60
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.375e-05,
+      "loss": 1.5147,
+      "step": 61
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 1.7256,
+      "step": 62
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.958333333333335e-05,
+      "loss": 1.3188,
+      "step": 63
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.75e-05,
+      "loss": 1.7062,
+      "step": 64
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.541666666666666e-05,
+      "loss": 1.6038,
+      "step": 65
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 1.3076,
+      "step": 66
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 8.125000000000001e-05,
+      "loss": 1.5869,
+      "step": 67
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.916666666666666e-05,
+      "loss": 1.5563,
+      "step": 68
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.708333333333334e-05,
+      "loss": 1.7162,
+      "step": 69
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.8046,
+      "step": 70
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.291666666666667e-05,
+      "loss": 1.8195,
+      "step": 71
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.083333333333334e-05,
+      "loss": 1.7427,
+      "step": 72
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.875e-05,
+      "loss": 1.164,
+      "step": 73
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 1.6653,
+      "step": 74
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.458333333333334e-05,
+      "loss": 1.6099,
+      "step": 75
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.25e-05,
+      "loss": 1.6574,
+      "step": 76
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 6.041666666666667e-05,
+      "loss": 1.6743,
+      "step": 77
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.833333333333334e-05,
+      "loss": 1.5,
+      "step": 78
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.6250000000000005e-05,
+      "loss": 1.8009,
+      "step": 79
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.4166666666666664e-05,
+      "loss": 1.5946,
+      "step": 80
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.208333333333334e-05,
+      "loss": 1.7701,
+      "step": 81
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5e-05,
+      "loss": 1.3302,
+      "step": 82
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.791666666666667e-05,
+      "loss": 1.7082,
+      "step": 83
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 1.3644,
+      "step": 84
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.375e-05,
+      "loss": 1.1494,
+      "step": 85
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.7472,
+      "step": 86
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.958333333333333e-05,
+      "loss": 1.4859,
+      "step": 87
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.5887,
+      "step": 88
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.541666666666667e-05,
+      "loss": 1.6093,
+      "step": 89
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.814,
+      "step": 90
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.125e-05,
+      "loss": 1.5288,
+      "step": 91
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 1.3786,
+      "step": 92
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.7083333333333332e-05,
+      "loss": 1.3912,
+      "step": 93
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.5e-05,
+      "loss": 1.6132,
+      "step": 94
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.2916666666666667e-05,
+      "loss": 1.7836,
+      "step": 95
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.5794,
+      "step": 96
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.6676,
+      "step": 97
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.4828,
+      "step": 98
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 1.5134,
+      "step": 99
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.25e-05,
+      "loss": 1.8423,
+      "step": 100
     }
   ],
   "logging_steps": 1,
   "max_steps": 101,
   "num_train_epochs": 1,
   "save_steps": 50,
+  "total_flos": 6150946682830848.0,
   "trial_name": null,
   "trial_params": null
 }