TTTdas commited on
Commit
e8adfc5
1 Parent(s): a1aa275

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -6
README.md CHANGED
@@ -8,6 +8,10 @@ license: apache-2.0
8
  </h1>
9
  </div>
10
 
 
 
 
 
11
  星辰超多方言语音识别大模型v1.0,由30w小时无标注多方言语音数据进行训练,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30多种方言
12
 
13
 
@@ -65,7 +69,7 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
65
 
66
  ## 字典准备
67
 
68
- * 微调阶段,需要准备fairseq格式的 `dict.${label}.txt`,例如
69
  ```
70
  是 2
71
  好 3
@@ -91,7 +95,8 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
91
  $ ln -s /path/to/dev/data.list /path/to/train/dev.tsv
92
  ```
93
  * 进入data2vec_dialect路径,修改`path.sh`文件中`/path/to/fairseq`为fairseq安装路径
94
- * 将`run_scripts/run_d2v_finetune.sh`中`/path/to/fairseq`和`/path/to/data2vec_dialect`路径替换;修改`task.data`为`.tsv`保存路径,如`task.data=/data/wenetspeech/train`
 
95
  * 执行
96
  ```shell script
97
  $ bash run_scripts/run_d2v_finetune.sh
@@ -131,12 +136,12 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
131
  * Babel为NIST(美国国家标准与技术研究院)举办的低资源粤语电话识别任务数据集,我们使用其提供的训练集与测试集统计CER
132
  * KeSpeech为中文多方言测试集,我们使用1396小时训练集作为有监督数据进行训练,选择提供的Test测试集统计CER
133
 
134
- | | Aishell-1 | WenetSpeech*| Babel | KeSpeech |
135
  | ----------| -------- | ------- | ---- | ---- |
136
- | base_300k | 4.7 | 18.3 / 16.4 | 22.1 | 10.9 |
137
- | large_300k | 4.0 | 14.3 / 13.0 | 19.1 | 8.1 |
138
 
139
- *WenetSpeech中的结果为分别使用 `train_s/train_m`,在Test_Meeting上的CER
140
 
141
  # 声明与协议
142
  ## 声明
 
8
  </h1>
9
  </div>
10
 
11
+ <p align="center">
12
+ 🦉 <a href="https://github.com/Tele-AI/TeleSpeech-ASR" target="_blank">github</a>️
13
+ </p>
14
+
15
  星辰超多方言语音识别大模型v1.0,由30w小时无标注多方言语音数据进行训练,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30多种方言
16
 
17
 
 
69
 
70
  ## 字典准备
71
 
72
+ * 微调阶段,需要准备fairseq格式的 `dict.${label}.txt`,`${label}`为建模单元类型,如ltr, bpe等。以`dict.ltr.txt`为例:
73
  ```
74
  是 2
75
  好 3
 
95
  $ ln -s /path/to/dev/data.list /path/to/train/dev.tsv
96
  ```
97
  * 进入data2vec_dialect路径,修改`path.sh`文件中`/path/to/fairseq`为fairseq安装路径
98
+ * 将`run_scripts/run_d2v_finetune.sh`中`/path/to/fairseq`和`/path/to/data2vec_dialect`路径替换
99
+ * 修改`task.data`为`.tsv`保存路径,如`task.data=/data/wenetspeech/train`
100
  * 执行
101
  ```shell script
102
  $ bash run_scripts/run_d2v_finetune.sh
 
136
  * Babel为NIST(美国国家标准与技术研究院)举办的低资源粤语电话识别任务数据集,我们使用其提供的训练集与测试集统计CER
137
  * KeSpeech为中文多方言测试集,我们使用1396小时训练集作为有监督数据进行训练,选择提供的Test测试集统计CER
138
 
139
+ | 模型版本 | Aishell-1 | WenetSpeech*| Babel | KeSpeech |
140
  | ----------| -------- | ------- | ---- | ---- |
141
+ | pretrain_base | 4.7 | 18.3 / 16.4 | 22.1 | 10.9 |
142
+ | pretrain_large | 4.0 | 14.3 / 13.0 | 19.1 | 8.1 |
143
 
144
+ *WenetSpeech中的结果为分别使用 `train_s/train_m`训练后,在Test_Meeting上的CER
145
 
146
  # 声明与协议
147
  ## 声明