Conditional ViT - B/16 - Categories

Introduced in LRVSF-Fashion: Extending Visual Search with Referring Instructions, Lepage et al. 2023

Data	Code	Models	Spaces
Full Dataset	Training Code	Categorical Model	LRVS-F Leaderboard
Test set	Benchmark Code	Textual Model	Demo

General Infos

Model finetuned from CLIP ViT-B/16 on LRVSF at 224x224. The conditioning categories are the following :

Bags
Feet
Hands
Head
Lower Body
Neck
Outwear
Upper Body
Waist
Whole Body

Research use only.

How to Use

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel
import torch

model = AutoModel.from_pretrained("Slep/CondViT-B16-cat")
processor = AutoProcessor.from_pretrained("Slep/CondViT-B16-cat")

url = "https://huggingface.co/datasets/Slep/LAION-RVS-Fashion/resolve/main/assets/108856.0.jpg"
img = Image.open(requests.get(url, stream=True).raw)
cat = "Bags"

inputs = processor(images=[img], categories=[cat])
raw_embedding = model(**inputs)
normalized_embedding = torch.nn.functional.normalize(raw_embedding, dim=-1)

Downloads last month: 52

Safetensors

Model size

86.2M params

Tensor type

F32

Dataset used to train Slep/CondViT-B16-cat

Space using Slep/CondViT-B16-cat 1

Paper for Slep/CondViT-B16-cat

Weakly-Supervised Conditional Embedding for Referred Visual Search

Paper • 2306.02928 • Published Jun 5, 2023 • 2

Evaluation results

R@1 +10K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

93.44 ± 0.83
R@5 +10K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

98.07 ± 0.37
R@10 +10K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

98.69 ± 0.38
R@20 +10K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

98.98 ± 0.34
R@50 +10K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

99.55 ± 0.18
R@1 +100K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

85.90 ± 1.37
R@5 +100K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

94.22 ± 0.87
R@10 +100K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

96.04 ± 0.68
R@20 +100K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

97.18 ± 0.56
R@50 +100K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

98.28 ± 0.34
R@1 +500K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

78.19 ± 1.59
R@5 +500K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

88.70 ± 1.15
R@10 +500K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

91.46 ± 1.02
R@20 +500K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

94.07 ± 0.86
R@50 +500K Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

96.11 ± 0.64
R@1 +1M Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

74.49 ± 1.23
R@5 +1M Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

85.38 ± 1.29
R@10 +1M Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

88.95 ± 1.15
R@20 +1M Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

91.35 ± 0.93
R@50 +1M Dist. on LAION - Referred Visual Search - Fashion
test set LRVSF Leaderboard

94.75 ± 0.75