关于clip处理数据
您好,感谢您们出色的工作!
我们在尝试使用封神榜的中文clip去处理wokong数据集,采用的策略和封神榜中文stable diffusion一样。
我们用相同方法去算了所有收集到数据的clip cosine similarity,发现阈值大于0.08的数据也只有600多万数据,想问下为什么您们阈值大于0.2能过滤到2千万数据呢?下面是我们的计算方法:
- 太乙clip:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
- 计算clip cosine similarity的代码:
同时,我们测试过你们给的例子(query_texts = ["一只猫", "一只狗",'两只猫', '两只老虎','一只老虎']),最高cosine similarity也不到0.2
您好,感谢您们出色的工作!
我们在尝试使用封神榜的中文clip去处理wokong数据集,采用的策略和封神榜中文stable diffusion一样。
我们用相同方法去算了所有收集到数据的clip cosine similarity,发现阈值大于0.08的数据也只有600多万数据,想问下为什么您们阈值大于0.2能过滤到2千万数据呢?下面是我们的计算方法:
- 太乙clip:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
- 计算clip cosine similarity的代码:
同时,我们测试过你们给的例子(query_texts = ["一只猫", "一只狗",'两只猫', '两只老虎','一只老虎']),最高cosine similarity也不到0.2
大概率是图像数据没做预处理?
您好,感谢您们出色的工作!
我们在尝试使用封神榜的中文clip去处理wokong数据集,采用的策略和封神榜中文stable diffusion一样。
我们用相同方法去算了所有收集到数据的clip cosine similarity,发现阈值大于0.08的数据也只有600多万数据,想问下为什么您们阈值大于0.2能过滤到2千万数据呢?下面是我们的计算方法:
- 太乙clip:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
- 计算clip cosine similarity的代码:
同时,我们测试过你们给的例子(query_texts = ["一只猫", "一只狗",'两只猫', '两只老虎','一只老虎']),最高cosine similarity也不到0.2
大概率是图像数据没做预处理?
和您们给的例子一样,用了clip的预处理
self.clip_model, _, self.processor = open_clip.create_model_and_transforms('ViT-L-14', pretrained='openai')