Update README.md
Browse files
README.md
CHANGED
@@ -12,18 +12,19 @@ license: apache-2.0
|
|
12 |
🦉 <a href="https://github.com/Tele-AI/TeleSpeech-ASR" target="_blank">github</a>️ • 🐾 <a href="https://gitee.com/Tele-AI/TeleSpeech-ASR" target="_blank">gitee</a>️
|
13 |
</p>
|
14 |
|
15 |
-
星辰超多方言语音识别大模型v1.0,由
|
16 |
|
17 |
|
18 |
-
|
19 |
|
20 |
-
| 模型版本 | 参数量 | 下载链接 | 字典 |
|
21 |
-
|
22 |
-
| pretrain_base | 0.09 B | [TeleSpeech-ASR1.0-base](https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0/blob/main/base.pt) | ✗ |
|
23 |
-
| pretrain_large | 0.3 B | [TeleSpeech-ASR1.0-large](https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0/blob/main/large.pt) | ✗ |
|
24 |
-
| finetune_large_kespeech | 0.3 B | [TeleSpeech-ASR1.0-large-kespeech](https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0/blob/main/finetune_large_kespeech.pt) | [dict.char7531.txt](https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0/blob/main/dict.chr7531.txt) |
|
25 |
|
26 |
-
finetune
|
|
|
27 |
|
28 |
|
29 |
# 环境配置
|
@@ -139,14 +140,15 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
|
|
139 |
* Babel为NIST(美国国家标准与技术研究院)举办的低资源粤语电话识别任务数据集,我们使用其提供的训练集与测试集统计CER
|
140 |
* KeSpeech为中文多方言测试集,我们使用1396小时训练集作为有监督数据进行训练,选择提供的Test测试集统计CER
|
141 |
|
142 |
-
| 模型版本 | Aishell-1 | WenetSpeech
|
143 |
| ----------| -------- | ------- | ---- | ---- |
|
144 |
| pretrain_base | 4.7 | 18.3 / 16.4 | 22.1 | 10.9 |
|
145 |
| pretrain_large | 4.0 | 14.3 / 13.0 | 19.1 | 8.1 |
|
146 |
|
147 |
*WenetSpeech中的结果为分别使用 `train_s/train_m`训练后,在Test_Meeting上的CER
|
148 |
|
149 |
-
KeSpeech各方言上结果
|
|
|
150 |
| 模型版本 | 普通话 | 北京 | 西南 | 中原 | 东北 | 兰银 | 江淮 | 冀鲁 | 胶辽 |
|
151 |
| ---------| ------ | ---- | ---- | ---- |---- | ---- | ---- | ---- | ---- |
|
152 |
| pretrain_large | 4.61 | 8.23 | 8.74 | 7.62 | 7.89 | 9.72 | 12.89 | 8.91 | 9.30 |
|
|
|
12 |
🦉 <a href="https://github.com/Tele-AI/TeleSpeech-ASR" target="_blank">github</a>️ • 🐾 <a href="https://gitee.com/Tele-AI/TeleSpeech-ASR" target="_blank">gitee</a>️
|
13 |
</p>
|
14 |
|
15 |
+
星辰超多方言语音识别大模型v1.0,由30万小时无标注多方言语音数据进行预训练,并利用内部30种有标注数据进行微调,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30种方言
|
16 |
|
17 |
|
18 |
+
本次开源三个模型:两个30万小时无标注语音预训练模型和一个KeSpeech数据集8种方言微调模型。发布版本和下载链接见下表
|
19 |
|
20 |
+
| 模型版本 | 参数量 | 下载链接 | 字典 | 备注 |
|
21 |
+
|---------------------|-------|---------------------|-------|-------|
|
22 |
+
| pretrain_base | 0.09 B | [TeleSpeech-ASR1.0-base](https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0/blob/main/base.pt) | ✗ | 30万小时无标注语音预训练模型 |
|
23 |
+
| pretrain_large | 0.3 B | [TeleSpeech-ASR1.0-large](https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0/blob/main/large.pt) | ✗ | 30万小时无标注语音预训练模型 |
|
24 |
+
| finetune_large_kespeech | 0.3 B | [TeleSpeech-ASR1.0-large-kespeech](https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0/blob/main/finetune_large_kespeech.pt) | [dict.char7531.txt](https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0/blob/main/dict.chr7531.txt) | 基于pretrain_large,采用KeSpeech数据集[8种方言](#KeSpeech各方言上结果)微调训练|
|
25 |
|
26 |
+
* finetune模型为已经在特定数据集微调过的模型,可直接使用
|
27 |
+
* pretrain模型为无监督预训练模型,**无法直接进行ASR任务**,需要用少量标注数据进行有监督训练后使用。相比于直接训练的方言识别模型,基于预训练模型可以利用更少的有标注数据获得更好的方言识别性能。我们提供了两种有监督训练框架,用于下游ASR任务:1) 基于fairseq的预训练模型微调; 2) 基于wenet的表征提取(特征提取器)训练下游ASR模型
|
28 |
|
29 |
|
30 |
# 环境配置
|
|
|
140 |
* Babel为NIST(美国国家标准与技术研究院)举办的低资源粤语电话识别任务数据集,我们使用其提供的训练集与测试集统计CER
|
141 |
* KeSpeech为中文多方言测试集,我们使用1396小时训练集作为有监督数据进行训练,选择提供的Test测试集统计CER
|
142 |
|
143 |
+
| 模型版本 | Aishell-1 (%)| WenetSpeech* (%)| Babel (%) | KeSpeech (%) |
|
144 |
| ----------| -------- | ------- | ---- | ---- |
|
145 |
| pretrain_base | 4.7 | 18.3 / 16.4 | 22.1 | 10.9 |
|
146 |
| pretrain_large | 4.0 | 14.3 / 13.0 | 19.1 | 8.1 |
|
147 |
|
148 |
*WenetSpeech中的结果为分别使用 `train_s/train_m`训练后,在Test_Meeting上的CER
|
149 |
|
150 |
+
<a id="KeSpeech各方言上结果"></a>
|
151 |
+
KeSpeech各方言上结果(CER%)
|
152 |
| 模型版本 | 普通话 | 北京 | 西南 | 中原 | 东北 | 兰银 | 江淮 | 冀鲁 | 胶辽 |
|
153 |
| ---------| ------ | ---- | ---- | ---- |---- | ---- | ---- | ---- | ---- |
|
154 |
| pretrain_large | 4.61 | 8.23 | 8.74 | 7.62 | 7.89 | 9.72 | 12.89 | 8.91 | 9.30 |
|