Spaces:
Build error
Build error
Update train.py
Browse files
train.py
CHANGED
@@ -1,14 +1,11 @@
|
|
1 |
-
# train.py
|
2 |
-
|
3 |
import os
|
4 |
import shutil
|
5 |
from espnet2.bin.tts_train import TTSTrainer
|
6 |
from espnet2.tasks.tts import TTSTask
|
7 |
-
from espnet_model_zoo.downloader import ModelDownloader
|
8 |
from datasets import load_dataset
|
9 |
import yaml
|
10 |
|
11 |
-
# تحميل بيانات sada2022
|
12 |
dataset = load_dataset("m6011/sada2022")
|
13 |
|
14 |
# تقسيم البيانات إلى تدريب وتحقق
|
@@ -19,7 +16,7 @@ valid_data = dataset['test']
|
|
19 |
os.makedirs('data/train', exist_ok=True)
|
20 |
os.makedirs('data/valid', exist_ok=True)
|
21 |
|
22 |
-
# حفظ البيانات في ملفات نصية
|
23 |
with open('data/train/wav.scp', 'w', encoding='utf-8') as wav_scp, \
|
24 |
open('data/train/text', 'w', encoding='utf-8') as text_file:
|
25 |
for idx, sample in enumerate(train_data):
|
@@ -42,7 +39,7 @@ with open('data/valid/wav.scp', 'w', encoding='utf-8') as wav_scp, \
|
|
42 |
config_path = 'conf/train.yaml'
|
43 |
os.makedirs('conf', exist_ok=True)
|
44 |
|
45 |
-
#
|
46 |
config = {
|
47 |
'output_dir': 'exp/tts_fastspeech2',
|
48 |
'token_type': 'char',
|
@@ -77,9 +74,10 @@ def generate_token_list(text_files, output_file):
|
|
77 |
for token in tokens:
|
78 |
f.write(f'{token}\n')
|
79 |
|
|
|
80 |
generate_token_list(['data/train/text', 'data/valid/text'], 'tokens.txt')
|
81 |
|
82 |
-
#
|
83 |
train_args = [
|
84 |
'--config', 'conf/train.yaml',
|
85 |
'--use_preprocessor', 'true',
|
@@ -92,4 +90,5 @@ train_args = [
|
|
92 |
'--output_dir', 'exp/tts_fastspeech2',
|
93 |
]
|
94 |
|
|
|
95 |
TTSTask.main(train_args)
|
|
|
|
|
|
|
1 |
import os
|
2 |
import shutil
|
3 |
from espnet2.bin.tts_train import TTSTrainer
|
4 |
from espnet2.tasks.tts import TTSTask
|
|
|
5 |
from datasets import load_dataset
|
6 |
import yaml
|
7 |
|
8 |
+
# تحميل بيانات sada2022 من Hugging Face Datasets
|
9 |
dataset = load_dataset("m6011/sada2022")
|
10 |
|
11 |
# تقسيم البيانات إلى تدريب وتحقق
|
|
|
16 |
os.makedirs('data/train', exist_ok=True)
|
17 |
os.makedirs('data/valid', exist_ok=True)
|
18 |
|
19 |
+
# حفظ البيانات في ملفات نصية (wav.scp و text)
|
20 |
with open('data/train/wav.scp', 'w', encoding='utf-8') as wav_scp, \
|
21 |
open('data/train/text', 'w', encoding='utf-8') as text_file:
|
22 |
for idx, sample in enumerate(train_data):
|
|
|
39 |
config_path = 'conf/train.yaml'
|
40 |
os.makedirs('conf', exist_ok=True)
|
41 |
|
42 |
+
# إعدادات التدريب
|
43 |
config = {
|
44 |
'output_dir': 'exp/tts_fastspeech2',
|
45 |
'token_type': 'char',
|
|
|
74 |
for token in tokens:
|
75 |
f.write(f'{token}\n')
|
76 |
|
77 |
+
# توليد قائمة التوكينات (tokens.txt)
|
78 |
generate_token_list(['data/train/text', 'data/valid/text'], 'tokens.txt')
|
79 |
|
80 |
+
# إعداد التدريب
|
81 |
train_args = [
|
82 |
'--config', 'conf/train.yaml',
|
83 |
'--use_preprocessor', 'true',
|
|
|
90 |
'--output_dir', 'exp/tts_fastspeech2',
|
91 |
]
|
92 |
|
93 |
+
# بدء عملية التدريب
|
94 |
TTSTask.main(train_args)
|