mixedbread-ai
/

mxbai-embed-large-v1

Feature Extraction

sentence-transformers

ONNX

text-embeddings-inference

Inference Endpoints

Model card Files Files and versions Community

SeanLee97

michaelfeil commited on Nov 26, 2024

Commit

e785744

verified ·

1 Parent(s): b5d1f23

Update Readme: formatting and usage with infinity (#20)

Browse files

- Update Readme: formatting and usage with infinity (be66459b0b8d7f26d21f260f58ae34c1edca8b95)

Co-authored-by: Michael <michaelfeil@users.noreply.huggingface.co>

Files changed (1) hide show

README.md +17 -8

README.md CHANGED Viewed

@@ -2665,11 +2665,11 @@ binary_docs_embeddings = quantize_embeddings(docs_embeddings, precision="ubinary
 similarities = cos_sim(query_embedding, docs_embeddings)
 print('similarities:', similarities)
 ### Transformers
 from typing import Dict
 import torch
@@ -2717,18 +2717,19 @@ embeddings = pooling(outputs, inputs, 'cls')
 similarities = cos_sim(embeddings[0], embeddings[1:])
 print('similarities:', similarities)
 ### Transformers.js
 If you haven't already, you can install the [Transformers.js](https://huggingface.co/docs/transformers.js) JavaScript library from [NPM](https://www.npmjs.com/package/@xenova/transformers) using:
 npm i @xenova/transformers
 You can then use the model to compute embeddings like this:
 import { pipeline, cos_sim } from '@xenova/transformers';
 // Create a feature extraction pipeline
@@ -2750,13 +2751,13 @@ const output = await extractor(docs, { pooling: 'cls' });
 const [source_embeddings, ...document_embeddings ] = output.tolist();
 const similarities = document_embeddings.map(x => cos_sim(source_embeddings, x));
 console.log(similarities); // [0.7919578577247139, 0.6369278664248345, 0.16512018371357193, 0.3620778366720027]
 ### Using API
 You can use the model via our API as follows:
 from mixedbread_ai.client import MixedbreadAI, EncodingFormat
 from sklearn.metrics.pairwise import cosine_similarity
 import os
@@ -2778,9 +2779,17 @@ res = mxbai.embeddings(
 encoded_embeddings = res.data[0].embedding
 print(res.dimensions, encoded_embeddings.ubinary, encoded_embeddings.float_, encoded_embeddings.int_8)
 The API comes with native int8 and binary quantization support! Check out the [docs](https://mixedbread.ai/docs) for more information.
 ## Evaluation
 As of March 2024, our model archives SOTA performance for Bert-large sized models on the [MTEB](https://huggingface.co/spaces/mteb/leaderboard). It ourperforms commercial models like OpenAIs text-embedding-3-large and matches the performance of model 20x it's size like the [echo-mistral-7b](https://huggingface.co/jspringer/echo-mistral-7b-instruct-lasttoken). Our model was trained with no overlap of the MTEB data, which indicates that our model generalizes well across several domains, tasks and text length. We know there are some limitations with this model, which will be fixed in v2.

 similarities = cos_sim(query_embedding, docs_embeddings)
 print('similarities:', similarities)
+```
 ### Transformers
+```python
 from typing import Dict
 import torch
 similarities = cos_sim(embeddings[0], embeddings[1:])
 print('similarities:', similarities)
+```
 ### Transformers.js
 If you haven't already, you can install the [Transformers.js](https://huggingface.co/docs/transformers.js) JavaScript library from [NPM](https://www.npmjs.com/package/@xenova/transformers) using:
+```
 npm i @xenova/transformers
+```
 You can then use the model to compute embeddings like this:
+```javascript
 import { pipeline, cos_sim } from '@xenova/transformers';
 // Create a feature extraction pipeline
 const [source_embeddings, ...document_embeddings ] = output.tolist();
 const similarities = document_embeddings.map(x => cos_sim(source_embeddings, x));
 console.log(similarities); // [0.7919578577247139, 0.6369278664248345, 0.16512018371357193, 0.3620778366720027]
+```
 ### Using API
 You can use the model via our API as follows:
+```python
 from mixedbread_ai.client import MixedbreadAI, EncodingFormat
 from sklearn.metrics.pairwise import cosine_similarity
 import os
 encoded_embeddings = res.data[0].embedding
 print(res.dimensions, encoded_embeddings.ubinary, encoded_embeddings.float_, encoded_embeddings.int_8)
+```
 The API comes with native int8 and binary quantization support! Check out the [docs](https://mixedbread.ai/docs) for more information.
+### Infinity
+```bash
+docker run --gpus all -v $PWD/data:/app/.cache -p "7997":"7997" \
+michaelf34/infinity:0.0.68 \
+v2 --model-id mixedbread-ai/mxbai-embed-large-v1 --revision "main" --dtype float16 --engine torch --port 7997
+```
 ## Evaluation
 As of March 2024, our model archives SOTA performance for Bert-large sized models on the [MTEB](https://huggingface.co/spaces/mteb/leaderboard). It ourperforms commercial models like OpenAIs text-embedding-3-large and matches the performance of model 20x it's size like the [echo-mistral-7b](https://huggingface.co/jspringer/echo-mistral-7b-instruct-lasttoken). Our model was trained with no overlap of the MTEB data, which indicates that our model generalizes well across several domains, tasks and text length. We know there are some limitations with this model, which will be fixed in v2.