jinaai
/

jina-clip-implementation

@@ -222,7 +222,7 @@ class JinaCLIPModel(JinaCLIPPreTrainedModel):
             self.visual_projection = nn.Identity()
             self.text_projection = nn.Identity()
-        self.tokenizer = AutoTokenizer.from_pretrained(config._name_or_path)
         self.post_init()
     def get_text_features(
@@ -247,6 +247,12 @@ class JinaCLIPModel(JinaCLIPPreTrainedModel):
         )
         return self.visual_projection(self.vision_model(x=x))
     @torch.inference_mode()
     def encode_text(
         self,
@@ -291,7 +297,10 @@ class JinaCLIPModel(JinaCLIPPreTrainedModel):
             If convert_to_tensor, a stacked tensor is returned.
             If convert_to_numpy, a numpy matrix is returned.
         """
         self.eval()
         if show_progress_bar is None:
             show_progress_bar = (
@@ -362,6 +371,7 @@ class JinaCLIPModel(JinaCLIPPreTrainedModel):
         if input_was_string:
             all_embeddings = all_embeddings[0]
         return all_embeddings
     def encode_image(

             self.visual_projection = nn.Identity()
             self.text_projection = nn.Identity()
+        self.tokenizer = None
         self.post_init()
     def get_text_features(
         )
         return self.visual_projection(self.vision_model(x=x))
+    @property
+    def get_tokenizer(self):
+        if not self.tokenizer:
+            self.tokenizer = AutoTokenizer.from_pretrained(config._name_or_path)
+        return self.tokenizer
     @torch.inference_mode()
     def encode_text(
         self,
             If convert_to_tensor, a stacked tensor is returned.
             If convert_to_numpy, a numpy matrix is returned.
         """
+        is_training = self.training
         self.eval()
+        self.tokenizer = self.get_tokenizer()
         if show_progress_bar is None:
             show_progress_bar = (
         if input_was_string:
             all_embeddings = all_embeddings[0]
+        self.train(is_training)
         return all_embeddings
     def encode_image(