End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -34,15 +34,15 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
-- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 3
-- total_train_batch_size: 12
 - optimizer: Use paged_adamw_8bit with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 2
-- num_epochs: 150
 ### Training results
@@ -50,8 +50,8 @@ The following hyperparameters were used during training:
 ### Framework versions
-- PEFT 0.13.2
-- Transformers 4.46.2
-- Pytorch 2.2.0+cu121
 - Datasets 3.2.0
-- Tokenizers 0.20.3

 The following hyperparameters were used during training:
 - learning_rate: 2e-05
+- train_batch_size: 3
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 3
+- total_train_batch_size: 9
 - optimizer: Use paged_adamw_8bit with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 2
+- num_epochs: 3
 ### Training results
 ### Framework versions
+- PEFT 0.14.0
+- Transformers 4.47.1
+- Pytorch 2.2.2+cu121
 - Datasets 3.2.0
+- Tokenizers 0.21.0

adapter_config.json CHANGED Viewed

@@ -3,6 +3,8 @@
   "auto_mapping": null,
   "base_model_name_or_path": "google/paligemma2-3b-pt-224",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
@@ -11,6 +13,7 @@
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 8,
   "lora_dropout": 0.0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
@@ -20,15 +23,16 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "q_proj",
-    "k_proj",
-    "o_proj",
     "v_proj",
     "up_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
-  "use_dora": false,
   "use_rslora": false
 }

   "auto_mapping": null,
   "base_model_name_or_path": "google/paligemma2-3b-pt-224",
   "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 8,
+  "lora_bias": false,
   "lora_dropout": 0.0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "o_proj",
+    "down_proj",
     "up_proj",
+    "lora_megnitude_vector",
+    "gate_proj",
+    "k_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
+  "use_dora": true,
   "use_rslora": false
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:998663b75920da316ab2f84c4f6130de65fc889e14ee935fbf5482815b7fd28e
-size 47584968

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8a57276d3e02cfb4518098c7b218396bd264ad2c86f3a16bb0640dc2d0f29b3
+size 50821720

runs/Dec24_02-21-38_ml-ubuntu/events.out.tfevents.1735006899.ml-ubuntu.4154398.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1402ee453b655c0c7befa68c93362527fdaacc1e139bab21ac537a7689dcf7c
+size 7190

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21edc0ed0c562910d8349b92ee972d2158e061211270df84de89744eee90f489
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:36722898d630add90d6f0726f1c4692a70ad1fdd7867d0471b204d882553bf09
+size 5368