BAAI
/

Safetensors
xlm-roberta
MonteXiaofeng commited on
Commit
d17a951
1 Parent(s): df97c25

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +6 -3
README.md CHANGED
@@ -4,9 +4,12 @@ base_model:
4
  - BAAI/bge-m3
5
  ---
6
 
7
- 本模型为数据集[BAAI/IndustryCorpus2](https://huggingface.co/datasets/BAAI/IndustryCorpus2)的质量评估模型,用于从语义一致性,信息密度,教育属性等维度评估预训练数据的质量。
8
-
9
- 按照我们的定义并经过实验,3分以上是相对高质量数据,4分以上绝对高质量数据,可以根据数据量按需所取。
 
 
 
10
 
11
  ## 为什么要筛选低质量的数据
12
 
 
4
  - BAAI/bge-m3
5
  ---
6
 
7
+
8
+ 本模型为数据集[BAAI/IndustryCorpus2](https://huggingface.co/datasets/BAAI/IndustryCorpus2)的质量评估模型,用于从语义一致性,信息密度,教育属性等维度评估预训练数据的质量。
9
+
10
+ 按照我们的定义并经过实验,3分以上是相对高质量数据,4分以上绝对高质量数据,可以根据数据量按需所取。
11
+
12
+
13
 
14
  ## 为什么要筛选低质量的数据
15