jucamohedano/paligemma-cord-demo

Files changed (6) hide show

README.md CHANGED Viewed

@@ -1,9 +1,8 @@
 ---
-base_model: google/paligemma-3b-pt-224
 library_name: peft
-license: gemma
 tags:
 - generated_from_trainer
 model-index:
 - name: paligemma_a-okvqa
   results: []
@@ -14,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 # paligemma_a-okvqa
-This model is a fine-tuned version of [google/paligemma-3b-pt-224](https://huggingface.co/google/paligemma-3b-pt-224) on an unknown dataset.
 ## Model description
@@ -39,10 +38,10 @@ The following hyperparameters were used during training:
 - seed: 42
 - gradient_accumulation_steps: 4
 - total_train_batch_size: 16
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 2
-- num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Training results
@@ -51,8 +50,8 @@ The following hyperparameters were used during training:
 ### Framework versions
-- PEFT 0.12.0
-- Transformers 4.45.0.dev0
-- Pytorch 2.2.1+cu121
-- Datasets 3.0.0
-- Tokenizers 0.19.1

 ---
 library_name: peft
 tags:
 - generated_from_trainer
+base_model: paligemma-3b-pt-224
 model-index:
 - name: paligemma_a-okvqa
   results: []
 # paligemma_a-okvqa
+This model was trained from scratch on an unknown dataset.
 ## Model description
 - seed: 42
 - gradient_accumulation_steps: 4
 - total_train_batch_size: 16
+- optimizer: Use adamw_hf with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 2
+- num_epochs: 2
 - mixed_precision_training: Native AMP
 ### Training results
 ### Framework versions
+- PEFT 0.13.2
+- Transformers 4.47.0.dev0
+- Pytorch 2.5.0+cu121
+- Datasets 3.1.0
+- Tokenizers 0.20.3

adapter_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "google/paligemma-3b-pt-224",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "k_proj",
-    "v_proj",
     "gate_proj",
-    "down_proj",
     "up_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "paligemma-3b-pt-224",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
+    "k_proj",
     "up_proj",
+    "v_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7b6f72750a0f058aa3d2b3dcd8b72891dea5b406796cafac498bc465a274bb9
 size 45258384

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcdeebbca753ad4a195dedde8e66553cd36a586aea7456d705c4b16bd23a7cbe
 size 45258384

runs/Nov15_16-52-40_9683d2a0f900/events.out.tfevents.1731689563.9683d2a0f900.4475.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:18f9f23320c7367a075ed5c167bf5f8d9e63a5a673f1aefdb7c95b2ca7a9c166
+size 6216

runs/Nov15_17-00-22_9683d2a0f900/events.out.tfevents.1731690023.9683d2a0f900.4475.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f55916c3405d2e044a73c024279f2c49ea3ffd0bf64d85fc8c639314b81feed
+size 6214

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c7b425e69c9459b48f2e9cc9373afa30374a8530940854f1861b2910e30fbdc
-size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c4b33c0691c5dfb0020710e04b6a24f820c0a4f287871c0145a05756dc02c8e
+size 5304