MonteXiaofeng
commited on
Commit
•
d17a951
1
Parent(s):
df97c25
Update README.md
Browse files
README.md
CHANGED
@@ -4,9 +4,12 @@ base_model:
|
|
4 |
- BAAI/bge-m3
|
5 |
---
|
6 |
|
7 |
-
|
8 |
-
|
9 |
-
|
|
|
|
|
|
|
10 |
|
11 |
## 为什么要筛选低质量的数据
|
12 |
|
|
|
4 |
- BAAI/bge-m3
|
5 |
---
|
6 |
|
7 |
+
|
8 |
+
本模型为数据集[BAAI/IndustryCorpus2](https://huggingface.co/datasets/BAAI/IndustryCorpus2)的质量评估模型,用于从语义一致性,信息密度,教育属性等维度评估预训练数据的质量。
|
9 |
+
|
10 |
+
按照我们的定义并经过实验,3分以上是相对高质量数据,4分以上绝对高质量数据,可以根据数据量按需所取。
|
11 |
+
|
12 |
+
|
13 |
|
14 |
## 为什么要筛选低质量的数据
|
15 |
|