Persian_Piper_TTS

Running

gyroing commited on Jan 26

Commit

a82f51b

•

1 Parent(s): 4e24051

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,43 @@ from io import BytesIO
 from huggingface_hub import hf_hub_download
 from piper import PiperVoice
 from transformers import pipeline
-import hazm_correction
 def synthesize_speech(text):

 from huggingface_hub import hf_hub_download
 from piper import PiperVoice
 from transformers import pipeline
+import hazm
+import typing
+normalizer = hazm.Normalizer()
+sent_tokenizer = hazm.SentenceTokenizer()
+word_tokenizer = hazm.WordTokenizer()
+tagger = hazm.POSTagger(
+            model=str("gyroing/PersianTextCorrection_Hazm/pos_tagger.model")
+        )
+def preprocess_text(text: str) -> typing.List[typing.List[str]]:
+        """Split/normalize text into sentences/words with hazm"""
+        text = normalizer.normalize(text)
+        processed_sentences = []
+        for sentence in sent_tokenizer.tokenize(text):
+            words = word_tokenizer.tokenize(sentence)
+            processed_words = fix_words(words)
+            processed_sentences.append(" ".join(processed_words))
+        return  " ".join(processed_sentences)
+def fix_words(words: typing.List[str]) -> typing.List[str]:
+        fixed_words = []
+        for word, pos in tagger.tag(words):
+            if pos[-1] == "Z":
+                if word[-1] != "ِ":
+                    if (word[-1] == "ه") and (word[-2] != "ا"):
+                        word += "‌ی"
+                word += "ِ"
+            fixed_words.append(word)
+        return fixed_words
 def synthesize_speech(text):