m6011 commited on
Commit
771feaa
1 Parent(s): e2e4659

Update train.py

Browse files
Files changed (1) hide show
  1. train.py +6 -7
train.py CHANGED
@@ -1,14 +1,11 @@
1
- # train.py
2
-
3
  import os
4
  import shutil
5
  from espnet2.bin.tts_train import TTSTrainer
6
  from espnet2.tasks.tts import TTSTask
7
- from espnet_model_zoo.downloader import ModelDownloader
8
  from datasets import load_dataset
9
  import yaml
10
 
11
- # تحميل بيانات sada2022
12
  dataset = load_dataset("m6011/sada2022")
13
 
14
  # تقسيم البيانات إلى تدريب وتحقق
@@ -19,7 +16,7 @@ valid_data = dataset['test']
19
  os.makedirs('data/train', exist_ok=True)
20
  os.makedirs('data/valid', exist_ok=True)
21
 
22
- # حفظ البيانات في ملفات نصية
23
  with open('data/train/wav.scp', 'w', encoding='utf-8') as wav_scp, \
24
  open('data/train/text', 'w', encoding='utf-8') as text_file:
25
  for idx, sample in enumerate(train_data):
@@ -42,7 +39,7 @@ with open('data/valid/wav.scp', 'w', encoding='utf-8') as wav_scp, \
42
  config_path = 'conf/train.yaml'
43
  os.makedirs('conf', exist_ok=True)
44
 
45
- # يمكنك تخصيص إعدادات التدريب هنا أو استخدام الإعدادات الافتراضية
46
  config = {
47
  'output_dir': 'exp/tts_fastspeech2',
48
  'token_type': 'char',
@@ -77,9 +74,10 @@ def generate_token_list(text_files, output_file):
77
  for token in tokens:
78
  f.write(f'{token}\n')
79
 
 
80
  generate_token_list(['data/train/text', 'data/valid/text'], 'tokens.txt')
81
 
82
- # بدء عملية التدريب
83
  train_args = [
84
  '--config', 'conf/train.yaml',
85
  '--use_preprocessor', 'true',
@@ -92,4 +90,5 @@ train_args = [
92
  '--output_dir', 'exp/tts_fastspeech2',
93
  ]
94
 
 
95
  TTSTask.main(train_args)
 
 
 
1
  import os
2
  import shutil
3
  from espnet2.bin.tts_train import TTSTrainer
4
  from espnet2.tasks.tts import TTSTask
 
5
  from datasets import load_dataset
6
  import yaml
7
 
8
+ # تحميل بيانات sada2022 من Hugging Face Datasets
9
  dataset = load_dataset("m6011/sada2022")
10
 
11
  # تقسيم البيانات إلى تدريب وتحقق
 
16
  os.makedirs('data/train', exist_ok=True)
17
  os.makedirs('data/valid', exist_ok=True)
18
 
19
+ # حفظ البيانات في ملفات نصية (wav.scp و text)
20
  with open('data/train/wav.scp', 'w', encoding='utf-8') as wav_scp, \
21
  open('data/train/text', 'w', encoding='utf-8') as text_file:
22
  for idx, sample in enumerate(train_data):
 
39
  config_path = 'conf/train.yaml'
40
  os.makedirs('conf', exist_ok=True)
41
 
42
+ # إعدادات التدريب
43
  config = {
44
  'output_dir': 'exp/tts_fastspeech2',
45
  'token_type': 'char',
 
74
  for token in tokens:
75
  f.write(f'{token}\n')
76
 
77
+ # توليد قائمة التوكينات (tokens.txt)
78
  generate_token_list(['data/train/text', 'data/valid/text'], 'tokens.txt')
79
 
80
+ # إعداد التدريب
81
  train_args = [
82
  '--config', 'conf/train.yaml',
83
  '--use_preprocessor', 'true',
 
90
  '--output_dir', 'exp/tts_fastspeech2',
91
  ]
92
 
93
+ # بدء عملية التدريب
94
  TTSTask.main(train_args)