jinaai
/

jina-clip-v1

@@ -5,6 +5,7 @@ tags:
   - mteb
   - clip
   - vision
 language: en
 inference: false
 license: apache-2.0
@@ -77,6 +78,44 @@ print(cos_sim(text_embeddings[1], image_embeddings[0])) # text-image cross-modal
 print(cos_sim(text_embeddings[1], image_embeddings[1])) # text-image cross-modal similarity
 ```
 ## Performance

   - mteb
   - clip
   - vision
+  - transformers.js
 language: en
 inference: false
 license: apache-2.0
 print(cos_sim(text_embeddings[1], image_embeddings[1])) # text-image cross-modal similarity
 ```
+3. JavaScript developers can use Jina CLIP via the [Transformers.js](https://huggingface.co/docs/transformers.js) library. Note that to use this model, you need to install Transformers.js [v3](https://github.com/xenova/transformers.js/tree/v3) from source using `npm install xenova/transformers.js#v3`.
+```js
+import { AutoTokenizer, CLIPTextModelWithProjection, AutoProcessor, CLIPVisionModelWithProjection, RawImage, cos_sim } from '@xenova/transformers';
+// Load tokenizer and text model
+const tokenizer = await AutoTokenizer.from_pretrained('jinaai/jina-clip-v1');
+const text_model = await CLIPTextModelWithProjection.from_pretrained('jinaai/jina-clip-v1');
+// Load processor and vision model
+const processor = await AutoProcessor.from_pretrained('Xenova/clip-vit-base-patch32');
+const vision_model = await CLIPVisionModelWithProjection.from_pretrained('jinaai/jina-clip-v1');
+// Run tokenization
+const texts = ['Bridge close-shot', 'Bridge in far away'];
+const text_inputs = tokenizer(texts, { padding: true, truncation: true });
+// Compute text embeddings
+const { text_embeds } = await text_model(text_inputs);
+// Read images and run processor
+const urls = [
+    'https://fastly.picsum.photos/id/74/4288/2848.jpg?hmac=q02MzzHG23nkhJYRXR-_RgKTr6fpfwRgcXgE0EKvNB8',
+    'https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s',
+];
+const image = await Promise.all(urls.map(url => RawImage.read(url)));
+const image_inputs = await processor(image);
+// Compute vision embeddings
+const { image_embeds } = await vision_model(image_inputs);
+//  Compute similarities
+console.log(cos_sim(text_embeds[0].data, text_embeds[1].data)) // text embedding similarity
+console.log(cos_sim(text_embeds[0].data, image_embeds[0].data)) // text-image cross-modal similarity
+console.log(cos_sim(text_embeds[0].data, image_embeds[1].data)) // text-image cross-modal similarity
+console.log(cos_sim(text_embeds[1].data, image_embeds[0].data)) // text-image cross-modal similarity
+console.log(cos_sim(text_embeds[1].data, image_embeds[1].data)) // text-image cross-modal similarity
+```
 ## Performance