Alibaba-NLP
/

gte-Qwen2-7B-instruct

Sentence Similarity

sentence-transformers

Safetensors

text-embeddings-inference

Inference Endpoints

Model card Files Files and versions Community

thenlper

michaelfeil commited on 9 days ago

Commit

a883b02

•

1 Parent(s): f47e3b5

update readme for instructions for usage with infinity (#39)

Browse files

- update readme for instructions for usage with infinity (a70a1b22455b13f27202aecaa41dc8fc7f3f46df)

Co-authored-by: Michael <michaelfeil@users.noreply.huggingface.co>

Files changed (1) hide show

README.md +12 -0

README.md CHANGED Viewed

@@ -5622,6 +5622,18 @@ scores = (embeddings[:2] @ embeddings[2:].T) * 100
 print(scores.tolist())
 ```
 ## Evaluation
 ### MTEB & C-MTEB

 print(scores.tolist())
 ```
+## Infinity_emb
+Usage via [infinity](https://github.com/michaelfeil/infinity), a MIT Licensed inference server.
+```
+# requires ~16-32GB VRAM NVIDIA Compute Capability >= 8.0
+docker run \
+-v $PWD/data:/app/.cache --gpus "0" -p "7997":"7997" \
+michaelf34/infinity:0.0.68-trt-onnx \
+v2 --model-id Alibaba-NLP/gte-Qwen2-7B-instruct --revision "refs/pr/38" --dtype bfloat16 --batch-size 8 --device cuda --engine torch --port 7997 --no-bettertransformer
+```
 ## Evaluation
 ### MTEB & C-MTEB