flax-community
/

clip-spanish

@@ -1,8 +1,8 @@
 python run_hybrid_clip.py \
     --output_dir "./output_141230_training_examples" \
-    --text_model_name_or_path="dccuchile/bert-base-spanish-wwm-cased" \
     --vision_model_name_or_path="openai/clip-vit-base-patch32" \
-    --tokenizer_name="dccuchile/bert-base-spanish-wwm-cased" \
     --train_file="/home/${USER}/data/wit_scale_converted/train_dataset_scale_converted_98_1_1_split.json" \
     --validation_file="/home/${USER}/data/wit_scale_converted/valid_dataset_scale_converted_98_1_1_split.json" \
     --do_train \

 python run_hybrid_clip.py \
     --output_dir "./output_141230_training_examples" \
+    --text_model_name_or_path="bertin-project/bertin-roberta-base-spanish" \
     --vision_model_name_or_path="openai/clip-vit-base-patch32" \
+    --tokenizer_name="bertin-project/bertin-roberta-base-spanish" \
     --train_file="/home/${USER}/data/wit_scale_converted/train_dataset_scale_converted_98_1_1_split.json" \
     --validation_file="/home/${USER}/data/wit_scale_converted/valid_dataset_scale_converted_98_1_1_split.json" \
     --do_train \

test_on_image.py CHANGED Viewed

@@ -23,15 +23,15 @@ def prepare_text(text, tokenizer):
 def run_inference(image_path, text, model, tokenizer):
     pixel_values = prepare_image(image_path, model)
     input_text = prepare_text(text, tokenizer)
-    model_output = model(input_text["input_ids"], pixel_values, attention_mask=input_text["attention_mask"], token_type_ids=input_text["token_type_ids"], train=False, return_dict=True)
     logits = model_output["logits_per_image"]
     score = jax.nn.sigmoid(logits)[0][0]
     return score
 if __name__ == "__main__":
-    model = FlaxHybridCLIP.from_pretrained("clip_spanish_141230_samples")
-    tokenizer = AutoTokenizer.from_pretrained("dccuchile/bert-base-spanish-wwm-cased")
     image_path = f"/home/{os.environ['USER']}/data/wit_scale_converted/Santuar.jpg"
     text = "Fachada del Santuario"

 def run_inference(image_path, text, model, tokenizer):
     pixel_values = prepare_image(image_path, model)
     input_text = prepare_text(text, tokenizer)
+    model_output = model(input_text["input_ids"], pixel_values, attention_mask=input_text["attention_mask"], train=False, return_dict=True)
     logits = model_output["logits_per_image"]
     score = jax.nn.sigmoid(logits)[0][0]
     return score
 if __name__ == "__main__":
+    model = FlaxHybridCLIP.from_pretrained("./")
+    tokenizer = AutoTokenizer.from_pretrained("bertin-project/bertin-roberta-base-spanish")
     image_path = f"/home/{os.environ['USER']}/data/wit_scale_converted/Santuar.jpg"
     text = "Fachada del Santuario"