palicoqiqi
/

paligemma_ocr_final

Generated from Trainer

Model card Files Files and versions Metrics Training metrics Community

palicoqiqi commited on Dec 2, 2024

Commit

30e1c14

·

verified ·

1 Parent(s): 26475d5

palicoqiqi/paligemma_ocr_final

Files changed (2) hide show

README.md +12 -13
adapter_model.safetensors +1 -1

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 library_name: peft
 license: gemma
-base_model: google/paligemma-3b-pt-224
 tags:
 - generated_from_trainer
 model-index:
@@ -14,9 +14,9 @@ should probably proofread and complete it, then remove this comment. -->
 # paligemma_ocr_final
-This model is a fine-tuned version of [google/paligemma-3b-pt-224](https://huggingface.co/google/paligemma-3b-pt-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.9992
 ## Model description
@@ -36,11 +36,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 4
-- eval_batch_size: 4
 - seed: 42
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 16
 - optimizer: Use OptimizerNames.ADAMW_HF with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 2
@@ -50,12 +50,11 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 9.8687        | 0.2996 | 20   | 2.1657          |
-| 8.7674        | 0.5993 | 40   | 2.1023          |
-| 8.4692        | 0.8989 | 60   | 2.0533          |
-| 8.1101        | 1.1985 | 80   | 2.0188          |
-| 8.1163        | 1.4981 | 100  | 2.0047          |
-| 8.0924        | 1.7978 | 120  | 1.9992          |
 ### Framework versions

 ---
 library_name: peft
 license: gemma
+base_model: google/paligemma-3b-mix-448
 tags:
 - generated_from_trainer
 model-index:
 # paligemma_ocr_final
+This model is a fine-tuned version of [google/paligemma-3b-mix-448](https://huggingface.co/google/paligemma-3b-mix-448) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6634
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 2
+- eval_batch_size: 2
 - seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 4
 - optimizer: Use OptimizerNames.ADAMW_HF with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 2
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 2.4537        | 0.3745 | 100  | 0.8158          |
+| 1.5798        | 0.7491 | 200  | 0.7222          |
+| 1.7108        | 1.1236 | 300  | 0.6713          |
+| 1.2932        | 1.4981 | 400  | 0.6523          |
+| 1.203         | 1.8727 | 500  | 0.6634          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9fc1e7f4818f882594ab482bdf8f0ea12ba215a5a6da32ae2dd022d08da5d75
 size 45258384

 version https://git-lfs.github.com/spec/v1
+oid sha256:8908f41c5d6e39ccb9c88b12b781995d63bae36ea54dda6c04dd5f9b5a2205e5
 size 45258384