Spaces:

microhum
/

Nurse_LLM_Demo

Sleeping

App Files Files Community

microhum commited on Dec 12, 2024

Commit

4bd456c

1 Parent(s): 0551729

fix tts

Browse files

Files changed (5) hide show

.env_template +1 -0
.gitignore +3 -1
poetry.lock +51 -1
pyproject.toml +1 -0
tts/tts.py +52 -35

.env_template CHANGED Viewed

@@ -1,4 +1,5 @@
 TYPHOON_CHAT_API = *
 DEBUG_MODE = false
 OPENTHAIGPT_CHAT_API = *
 BOTNOI_API_TOKEN = *

 TYPHOON_CHAT_API = *
+GROQ_CHAT_KEY = *
 DEBUG_MODE = false
 OPENTHAIGPT_CHAT_API = *
 BOTNOI_API_TOKEN = *

.gitignore CHANGED Viewed

@@ -8,4 +8,6 @@ __pycache__
 # Files
 speedtest.py
-*.csv

 # Files
 speedtest.py
+*.csv
+*.wav
+*.mp3

poetry.lock CHANGED Viewed

@@ -1994,6 +1994,56 @@ files = [
 [package.extras]
 windows-terminal = ["colorama (>=0.4.6)"]
 [[package]]
 name = "python-dateutil"
 version = "2.9.0.post0"
@@ -2820,4 +2870,4 @@ propcache = ">=0.2.0"
 [metadata]
 lock-version = "2.0"
 python-versions = "^3.10"
-content-hash = "fc3fccebdc1dad30f562185560b085f474738badd36f1a674b28d11c1fe7ed23"

 [package.extras]
 windows-terminal = ["colorama (>=0.4.6)"]
+[[package]]
+name = "pythainlp"
+version = "5.0.4"
+description = "Thai Natural Language Processing library"
+optional = false
+python-versions = ">=3.7"
+files = [
+    {file = "pythainlp-5.0.4-py3-none-any.whl", hash = "sha256:5f036d558f673215c142c6e32fd38b111d674d94d64f1b03b409fdfed0fa8dcd"},
+    {file = "pythainlp-5.0.4.tar.gz", hash = "sha256:2cd8e088d722617c6065225fffbaf2522bc20b8a3eff5bd2bcb251c40eccdce0"},
+]
+[package.dependencies]
+requests = ">=2.22.0"
+tzdata = {version = "*", markers = "sys_platform == \"win32\""}
+[package.extras]
+abbreviation = ["khamyo (>=0.2.0)"]
+attacut = ["attacut (>=1.0.6)"]
+benchmarks = ["PyYAML (>=5.3.1)", "numpy (>=1.22)", "pandas (>=0.24)"]
+coreference-resolution = ["fastcoref (>=2.1.5)", "spacy (>=3.0)"]
+dependency-parsing = ["spacy-thai (>=0.7.1)", "transformers (>=4.22.1)", "ufal.chu-liu-edmonds (>=1.0.2)"]
+el = ["multiel (>=0.5)"]
+esupar = ["esupar (>=1.3.8)", "numpy", "transformers (>=4.22.1)"]
+full = ["PyYAML (>=5.3.1)", "attacut (>=1.0.4)", "bpemb (>=0.3.2)", "emoji (>=0.5.1)", "epitran (>=1.1)", "fairseq (>=0.10.0)", "fastai (<2.0)", "fastcoref (>=2.1.5)", "gensim (>=4.0.0)", "khamyo (>=0.2.0)", "nlpo3 (>=1.2.2)", "nltk (>=3.3)", "numpy (>=1.22)", "onnxruntime (>=1.10.0)", "oskut (>=1.3)", "pandas (>=0.24)", "panphon (>=0.20.0)", "phunspell (>=0.1.6)", "pyicu (>=2.3)", "sacremoses (>=0.0.41)", "sefr-cut (>=1.1)", "sentence-transformers (>=2.2.2)", "sentencepiece (>=0.1.91)", "spacy (>=3.0)", "spacy-thai (>=0.7.1)", "spylls (>=0.1.5)", "ssg (>=0.0.8)", "symspellpy (>=6.7.6)", "thai-nner", "torch (>=1.0.0)", "transformers (>=4.22.1)", "ufal.chu-liu-edmonds (>=1.0.2)", "wtpsplit (>=1.0.1)", "wunsen (>=0.0.3)"]
+generate = ["fastai (<2.0)"]
+icu = ["pyicu (>=2.3)"]
+ipa = ["epitran (>=1.1)"]
+ml = ["numpy (>=1.22)", "torch (>=1.0.0)"]
+mt5 = ["sentencepiece (>=0.1.91)", "transformers (>=4.6.0)"]
+nlpo3 = ["nlpo3 (>=1.2.2)"]
+onnx = ["numpy (>=1.22)", "onnxruntime (>=1.10.0)", "sentencepiece (>=0.1.91)"]
+oskut = ["oskut (>=1.3)"]
+sefr-cut = ["sefr-cut (>=1.1)"]
+spacy-thai = ["spacy-thai (>=0.7.1)"]
+spell = ["phunspell (>=0.1.6)", "spylls (>=0.1.5)", "symspellpy (>=6.7.6)"]
+ssg = ["ssg (>=0.0.8)"]
+textaugment = ["bpemb", "gensim (>=4.0.0)"]
+thai-nner = ["thai-nner"]
+thai2fit = ["emoji (>=0.5.1)", "gensim (>=4.0.0)", "numpy (>=1.22)"]
+thai2rom = ["numpy (>=1.22)", "torch (>=1.0.0)"]
+transformers-ud = ["transformers (>=4.22.1)", "ufal.chu-liu-edmonds (>=1.0.2)"]
+translate = ["fairseq (>=0.10.0)", "sacremoses (>=0.0.41)", "sentencepiece (>=0.1.91)", "torch (>=1.0.0)", "transformers (>=4.6.0)"]
+wangchanberta = ["sentencepiece (>=0.1.91)", "transformers (>=4.6.0)"]
+wangchanglm = ["pandas (>=0.24)", "sentencepiece (>=0.1.91)", "transformers (>=4.6.0)"]
+word-approximation = ["panphon (>=0.20.0)"]
+wordnet = ["nltk (>=3.3)"]
+wsd = ["sentence-transformers (>=2.2.2)"]
+wtp = ["transformers (>=4.6.0)", "wtpsplit (>=1.0.1)"]
+wunsen = ["wunsen (>=0.0.1)"]
 [[package]]
 name = "python-dateutil"
 version = "2.9.0.post0"
 [metadata]
 lock-version = "2.0"
 python-versions = "^3.10"
+content-hash = "e0d24b26c313871a6ec8a9d37d495f8a11ca13efa6e2e82cfa872f77935955e9"

pyproject.toml CHANGED Viewed

@@ -16,6 +16,7 @@ fastapi = "^0.115.5"
 uvicorn = "^0.32.0"
 gradio = "^5.8.0"
 langchain-groq = "^0.2.1"
 [build-system]

 uvicorn = "^0.32.0"
 gradio = "^5.8.0"
 langchain-groq = "^0.2.1"
+pythainlp = "^5.0.4"
 [build-system]

tts/tts.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from fastapi import FastAPI, HTTPException
 from pythainlp.tokenize import sent_tokenize
 from pydantic import BaseModel , Field
@@ -7,6 +8,8 @@ import uuid
 from dotenv import load_dotenv
 import os
 # Load environment variables
 load_dotenv()
@@ -62,8 +65,8 @@ def generate_voice(audio_id, text, text_delay, speaker, volume, speed, type_medi
 def download_mp3(url, output_path):
     headers = {
         "Accept-Encoding": "identity;q=1, *;q=0",
-        "Range": "bytes=0-",
         "Referer": "https://voice.botnoi.ai/",
     }
     response = requests.get(url, headers=headers, stream=True)
@@ -73,12 +76,15 @@ def download_mp3(url, output_path):
                 if chunk:  # Filter out keep-alive chunks
                     file.write(chunk)
     else:
-        raise HTTPException(status_code=response.status_code, detail="Failed to download MP3")
 # FastAPI endpoint to generate and download voice
 @app.post("/generate_voice_botnoi/")
 def generate_voice_endpoint(request: VoiceRequest):
-    text_delay = auto_generate_text_delay_with_pythainlp(request.text)
     audio_url = generate_voice(
         audio_id=request.audio_id,
         text=request.text,
@@ -92,7 +98,10 @@ def generate_voice_endpoint(request: VoiceRequest):
     )
     # Generate unique filename for the MP3
-    output_file = f"{uuid.uuid4()}.mp3"
     download_mp3(audio_url, output_file)
     return FileResponse(output_file, media_type="audio/mpeg", filename="output.mp3")
@@ -105,10 +114,6 @@ class Vaja9Request(BaseModel):
     phrase_break: int = 0
     audiovisual: int = 0
-def split_text_into_chunks(text: str, chunk_size: int = 20) -> list:
-    words = text.split()
-    return [' '.join(words[i:i + chunk_size]) for i in range(0, len(words), chunk_size)]
 def generate_vaja9_voice(text: str, speaker: int, phrase_break: int, audiovisual: int):
     url = 'https://api.aiforthai.in.th/vaja9/synth_audiovisual'
     headers = {
@@ -136,7 +141,10 @@ def generate_vaja9_voice(text: str, speaker: int, phrase_break: int, audiovisual
         raise HTTPException(status_code=502, detail=f"Bad Gateway - Connection error: {str(e)}")
 def download_vaja9_wav(url: str, output_path: str):
-    headers = {'Apikey': os.getenv("VAJA9_API_KEY")}
     try:
         response = requests.get(url, headers=headers, timeout=60)  # Increased timeout to 60 seconds
         if response.status_code == 200:
@@ -153,34 +161,43 @@ def download_vaja9_wav(url: str, output_path: str):
 @app.post("/generate_voice_vaja9/")
 def generate_voice_vaja9_endpoint(request: Vaja9Request):
     try:
-        # Split text into chunks of 20 words if needed
-        text_chunks = split_text_into_chunks(request.text)
-        output_files = []
-        # Process each chunk
-        for chunk in text_chunks:
-            audio_url = generate_vaja9_voice(
-                text=chunk,
-                speaker=request.speaker,
-                phrase_break=request.phrase_break,
-                audiovisual=request.audiovisual
-            )
-            # Generate unique filename for each chunk
-            output_file = f"{uuid.uuid4()}.wav"
-            download_vaja9_wav(audio_url, output_file)
-            output_files.append(output_file)
-        # If only one chunk, return it directly
-        if len(output_files) == 1:
-            return FileResponse(output_files[0], media_type="audio/wav", filename="output.wav")
-        # TODO: If multiple chunks, they should be combined into a single audio file
-        # For now, return the first chunk
-        return FileResponse(output_files[0], media_type="audio/wav", filename="output.wav")
-    except HTTPException:
-        raise
     except Exception as e:
-        raise HTTPException(status_code=502, detail=f"Bad Gateway - Unexpected error: {str(e)}")

+import time
 from fastapi import FastAPI, HTTPException
 from pythainlp.tokenize import sent_tokenize
 from pydantic import BaseModel , Field
 from dotenv import load_dotenv
 import os
+import uvicorn
 # Load environment variables
 load_dotenv()
 def download_mp3(url, output_path):
     headers = {
         "Accept-Encoding": "identity;q=1, *;q=0",
         "Referer": "https://voice.botnoi.ai/",
+        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
     }
     response = requests.get(url, headers=headers, stream=True)
                 if chunk:  # Filter out keep-alive chunks
                     file.write(chunk)
     else:
+        raise HTTPException(status_code=response.status_code, detail=f"{response.status_code} Failed to download MP3")
 # FastAPI endpoint to generate and download voice
 @app.post("/generate_voice_botnoi/")
 def generate_voice_endpoint(request: VoiceRequest):
+    text_delay = request.text
+    # text_delay = auto_generate_text_delay_with_pythainlp(request.text)
+    print("Text delay:", text_delay)
     audio_url = generate_voice(
         audio_id=request.audio_id,
         text=request.text,
     )
     # Generate unique filename for the MP3
+    print("botnoi url: ", audio_url)
+    output_dir = "generated_voice/botnoi"
+    os.makedirs(output_dir, exist_ok=True)
+    output_file = os.path.join(output_dir, f"{int(time.time())}.mp3")
     download_mp3(audio_url, output_file)
     return FileResponse(output_file, media_type="audio/mpeg", filename="output.mp3")
     phrase_break: int = 0
     audiovisual: int = 0
 def generate_vaja9_voice(text: str, speaker: int, phrase_break: int, audiovisual: int):
     url = 'https://api.aiforthai.in.th/vaja9/synth_audiovisual'
     headers = {
         raise HTTPException(status_code=502, detail=f"Bad Gateway - Connection error: {str(e)}")
 def download_vaja9_wav(url: str, output_path: str):
+    api_key = os.getenv("VAJA9_API_KEY")
+    if not api_key:
+        raise HTTPException(status_code=500, detail="VAJA9_API_KEY environment variable not set")
+    headers = {'Apikey': api_key}
     try:
         response = requests.get(url, headers=headers, timeout=60)  # Increased timeout to 60 seconds
         if response.status_code == 200:
 @app.post("/generate_voice_vaja9/")
 def generate_voice_vaja9_endpoint(request: Vaja9Request):
+    """
+    Generate a voice file using the Vaja9 endpoint.
+    - text (str): ข้อความที่ต้องการสังเคราะห์เสียง (สูงสุดไม่เกิน 300 ตัวอักษร)
+    - speaker (int): ประเภทของเสียงที่ต้องการ
+        0 : เสียงผู้ชาย
+        1 : เสียงผู้หญิง
+        2 : เสียงเด็กผู้ชาย
+        3 : เสียงเด็กผู้หญิง
+    - phrase_break (int): ประเภทของการหยุดเว้นวรรค
+        0 : หยุดเว้นวรรคแบบอัตโนมัติ
+        1 : ไม่หยุดเว้นวรรค
+    - audiovisual (int): ประเภทของโมเดล
+        0 : โมเดลสังเคราะห์เสียง
+        1 : โมเดลสังเคราะห์เสียง และภาพ
+    """
     try:
+        audio_url = generate_vaja9_voice(
+            text=request.text,
+            speaker=request.speaker,
+            phrase_break=request.phrase_break,
+            audiovisual=request.audiovisual
+        )
+        # Generate unique filename for the WAV file
+        output_dir = "generated_voice/vaja9"
+        os.makedirs(output_dir, exist_ok=True)
+        output_file = os.path.join(output_dir, f"{int(time.time())}.wav")
+        download_vaja9_wav(audio_url, output_file)
+        return FileResponse(output_file, media_type="audio/wav", filename="output.wav")
+    except HTTPException as e:
+        raise e
     except Exception as e:
+        raise HTTPException(status_code=502, detail=f"Bad Gateway - Unexpected error: {str(e)}")
+if __name__ == "__main__":
+    uvicorn.run("tts:app", host="0.0.0.0", port=8001, reload=True)