Spaces:

amu-cai
/

amu-bigos-audio-recorder

Running

App Files Files Community

mj-new commited on Sep 22, 2023

Commit

d136bc2

1 Parent(s): 423e823

Improved voice collection app

Browse files

Files changed (2) hide show

__pycache__/helpers.cpython-310.pyc +0 -0
app.py +51 -29

__pycache__/helpers.cpython-310.pyc CHANGED Viewed

Binary files a/__pycache__/helpers.cpython-310.pyc and b/__pycache__/helpers.cpython-310.pyc differ

app.py CHANGED Viewed

@@ -12,7 +12,7 @@ import uuid
 from datetime import date,datetime
 from huggingface_hub import Repository, upload_file
 import shutil
-from helpers import dict_origin
 HF_TOKEN_WRITE = os.environ.get("HF_TOKEN_WRITE")
 print("HF_TOKEN_WRITE", HF_TOKEN_WRITE)
@@ -44,16 +44,19 @@ def get_unique_name():
     return ''.join([random.choice(string.ascii_letters
             + string.digits) for n in range(32)])
-def get_prompts(domain, type, size, language_code):
     print(f"Retrieving prompts for domain {domain} with method: {type} for language_code {language_code} of size {size}")
-    return(promptset[domain], promptset[domain][0])
-def save_recording_and_meta(project_name, recording, transcript, language_code, spk_age, spk_accent, spk_city, spk_gender, spk_nativity, promptset, prompt_number):
     #, name, age, gender):
     # TODO save user data in the next version
     speaker_metadata={}
     speaker_metadata['gender'] = spk_gender if spk_gender !='' else 'unknown'
     speaker_metadata['age'] = spk_age if spk_age !='' else 'unknown'
     speaker_metadata['accent'] = spk_accent if spk_accent !='' else 'unknown'
@@ -61,9 +64,9 @@ def save_recording_and_meta(project_name, recording, transcript, language_code,
     speaker_metadata['nativity'] = spk_nativity if spk_nativity !='' else 'unknown'
     # TODO get ISO-693-1 codes
-    transcript =transcript.strip()
-    SAVE_ROOT_DIR = os.path.join(LOCAL_DIR, project_name, today_ymd)
     SAVE_DIR_AUDIO = os.path.join(SAVE_ROOT_DIR, "audio")
     SAVE_DIR_META = os.path.join(SAVE_ROOT_DIR, "meta")
@@ -81,23 +84,29 @@ def save_recording_and_meta(project_name, recording, transcript, language_code,
     shutil.copy2(recording, audio_output_fp)
     # Write metadata.json to file
-    meta_fn = uuid_name + 'metadata.jsonl'
     json_file_path = os.path.join(SAVE_DIR_META, meta_fn)
     now = datetime.now()
     timestamp_str = now.strftime("%d/%m/%Y %H:%M:%S")
-    metadata= {'id':uuid_name,'audio_file': audio_fn,
-        'language_code':language_code,
-        'transcript':transcript,'age': speaker_metadata['age'],
-        'gender': speaker_metadata['gender'],'accent': speaker_metadata['accent'],
-        'nativity': speaker_metadata['nativity'],'city': speaker_metadata['city'],
-        "date":today_ymd, "timestamp": timestamp_str }
     dump_json(metadata, json_file_path)
     # Simply upload the audio file and metadata using the hub's upload_file
     # Upload the audio
-    repo_audio_path = os.path.join(REPOSITORY_DIR, project_name, today_ymd, "audio", audio_fn)
     _ = upload_file(path_or_fileobj = audio_output_fp,
                         path_in_repo = repo_audio_path,
@@ -107,7 +116,7 @@ def save_recording_and_meta(project_name, recording, transcript, language_code,
                     )
             # Upload the metadata
-    repo_json_path = os.path.join(REPOSITORY_DIR, project_name, today_ymd, "meta", meta_fn)
     _ = upload_file(path_or_fileobj = json_file_path,
                         path_in_repo = repo_json_path,
                         repo_id = REPO_NAME,
@@ -117,9 +126,20 @@ def save_recording_and_meta(project_name, recording, transcript, language_code,
     output = print(f"Recording {audio_fn} and meta file {meta_fn} successfully saved to repo!")
-    # None resets the audio component
-    prompt_number = prompt_number + 1
-    prompt = promptset[prompt_number]
     return [prompt, prompt_number, None]
@@ -285,7 +305,7 @@ with block:
     gr.Markdown(markdown)
     with gr.Tabs():
-        with gr.TabItem('General settings'):
             radio_lang = gr.Radio(["Polish", "English"], label="Language", info="If none is selected, Polish is used")
             radio_asr_type = gr.Radio(["Local", "Cloud"], label="Select ASR type", info="Cloud models are faster and more accurate, but costs money")
             with gr.Accordion(label="Local ASR settings", open=False):
@@ -306,9 +326,10 @@ with block:
                 azure_api_key = gr.Textbox(label="", elem_id="pw")
             with gr.Accordion(label="Chat GPT settings",open=False):
                 slider_temp = gr.Slider(minimum=0, maximum= 2, step=0.2, label="ChatGPT temperature")
         with gr.TabItem('Speaker information'):
             with gr.Row():
                 dropdown_spk_nativity = gr.Dropdown(["Polish", "Other"], label="Your native language", info="")
                 dropdown_spk_gender = gr.Dropdown(["Male", "Female", "Other", "Prefer not to say"], label="Your gender", info="")
                 dropdown_spk_age = gr.Dropdown(["under 20", "20-29", "30-39", "40-49", "50-59", "over 60"], label="Your age range", info="")
@@ -319,7 +340,7 @@ with block:
             dropdown_spk_age.change(fn=change_age, inputs=dropdown_spk_age, outputs=spk_age)
             dropdown_spk_origin_city.change(fn=change_city, inputs=dropdown_spk_origin_city, outputs=spk_city)
-        with gr.TabItem('Voicebot playground'):
             mic_recording = gr.Audio(source="microphone", type="filepath", label='Record your voice')
             with gr.Row():
                 button_transcribe = gr.Button("Transcribe speech")
@@ -353,12 +374,12 @@ with block:
             radio_lang.change(fn=change_language, inputs=radio_lang, outputs=language_code)
             radio_whisper_model.change(fn=change_whisper_model, inputs=radio_whisper_model, outputs=[whisper_model_type, whisper_model])
         with gr.TabItem('Batch audio collection'):
             with gr.Accordion(label="Promptset settings"):
-                radio_prompts_domain = gr.Dropdown(["Bridge"], label="Select promptset domain", info="")
-                radio_promptset_type = gr.Radio(["New promptset generation", "Existing promptset use"], label="Language", value ="Existing promptset use", info="New promptset is generated using. Requires providing open AI key in general settings tab")
                 var_promptset_size = gr.Textbox(label="Specify number of prompts (min 10, max 200)")
                 button_get_prompts = gr.Button("Save settings and get first prompt to record")
@@ -366,11 +387,12 @@ with block:
             speech_recording = gr.Audio(source="microphone",label="Select 'record from microphone' and read prompt displayed above", type="filepath")
             radio_prompts_domain.change(fn=change_domain, inputs=radio_prompts_domain, outputs=domain)
-            radio_promptset_type.change(fn=change_prompts_type, inputs=radio_promptset_type, outputs=prompts_type)
             button_save_and_next = gr.Button("Save audio recording and move to the next prompt")
-            button_get_prompts.click(get_prompts, inputs=[radio_prompts_domain, radio_promptset_type, var_promptset_size, language_code], outputs = [promptset, prompt_text])
-            button_save_and_next.click(save_recording_and_meta, inputs=[project_name, speech_recording, prompt_text, language_code, spk_age, spk_accent, spk_city, spk_gender, spk_nativity, promptset, prompt_number], outputs=[prompt_text, prompt_number, speech_recording])
 block.launch()

 from datetime import date,datetime
 from huggingface_hub import Repository, upload_file
 import shutil
+from helpers import dict_origin, dict_promptset
 HF_TOKEN_WRITE = os.environ.get("HF_TOKEN_WRITE")
 print("HF_TOKEN_WRITE", HF_TOKEN_WRITE)
     return ''.join([random.choice(string.ascii_letters
             + string.digits) for n in range(32)])
+def get_prompts(domain, size, language_code):
     print(f"Retrieving prompts for domain {domain} with method: {type} for language_code {language_code} of size {size}")
+    size = int(size)
+    promptset = dict_promptset[domain][0:size]
+    return(promptset, promptset[0])
+def save_recording_and_meta(project_name, recording, prompt_text, language_code, spk_name, spk_age, spk_accent, spk_city, spk_gender, spk_nativity, promptset, prompt_number):
     #, name, age, gender):
     # TODO save user data in the next version
     speaker_metadata={}
+    speaker_metadata['name'] = spk_name if spk_name !='' else 'unknown'
     speaker_metadata['gender'] = spk_gender if spk_gender !='' else 'unknown'
     speaker_metadata['age'] = spk_age if spk_age !='' else 'unknown'
     speaker_metadata['accent'] = spk_accent if spk_accent !='' else 'unknown'
     speaker_metadata['nativity'] = spk_nativity if spk_nativity !='' else 'unknown'
     # TODO get ISO-693-1 codes
+    prompt_text =prompt_text.strip()
+    SAVE_ROOT_DIR = os.path.join(LOCAL_DIR, project_name, today_ymd, spk_name)
     SAVE_DIR_AUDIO = os.path.join(SAVE_ROOT_DIR, "audio")
     SAVE_DIR_META = os.path.join(SAVE_ROOT_DIR, "meta")
     shutil.copy2(recording, audio_output_fp)
     # Write metadata.json to file
+    meta_fn = uuid_name + '.metadata.jsonl'
     json_file_path = os.path.join(SAVE_DIR_META, meta_fn)
     now = datetime.now()
     timestamp_str = now.strftime("%d/%m/%Y %H:%M:%S")
+    metadata= {'id':uuid_name,
+                'audio_file': audio_fn,
+                'language_code':language_code,
+                'prompt':prompt_text,
+                'name': speaker_metadata['name'],
+                'age': speaker_metadata['age'],
+                'gender': speaker_metadata['gender'],
+                'accent': speaker_metadata['accent'],
+                'nativity': speaker_metadata['nativity'],
+                'city': speaker_metadata['city'],
+                "date":today_ymd,
+                "timestamp": timestamp_str }
     dump_json(metadata, json_file_path)
     # Simply upload the audio file and metadata using the hub's upload_file
     # Upload the audio
+    repo_audio_path = os.path.join(REPOSITORY_DIR, project_name, today_ymd, spk_name, "audio", audio_fn)
     _ = upload_file(path_or_fileobj = audio_output_fp,
                         path_in_repo = repo_audio_path,
                     )
             # Upload the metadata
+    repo_json_path = os.path.join(REPOSITORY_DIR, project_name, today_ymd, spk_name, "meta", meta_fn)
     _ = upload_file(path_or_fileobj = json_file_path,
                         path_in_repo = repo_json_path,
                         repo_id = REPO_NAME,
     output = print(f"Recording {audio_fn} and meta file {meta_fn} successfully saved to repo!")
+    # check if prompt number is not set
+    # if set already - increment value
+    if prompt_number == None:
+        prompt_number = 1
+    else:
+        prompt_number = prompt_number + 1
+    # check if this is the last prompt
+    if prompt_number == len(promptset):
+        prompt_number = 0
+        prompt = "All prompts recorded. Thank you! You can close the app now:)"
+    else:
+        # get next prompt
+        prompt = promptset[prompt_number]
     return [prompt, prompt_number, None]
     gr.Markdown(markdown)
     with gr.Tabs():
+        """with gr.TabItem('General settings'):
             radio_lang = gr.Radio(["Polish", "English"], label="Language", info="If none is selected, Polish is used")
             radio_asr_type = gr.Radio(["Local", "Cloud"], label="Select ASR type", info="Cloud models are faster and more accurate, but costs money")
             with gr.Accordion(label="Local ASR settings", open=False):
                 azure_api_key = gr.Textbox(label="", elem_id="pw")
             with gr.Accordion(label="Chat GPT settings",open=False):
                 slider_temp = gr.Slider(minimum=0, maximum= 2, step=0.2, label="ChatGPT temperature")
+        """
         with gr.TabItem('Speaker information'):
             with gr.Row():
+                spk_name = gr.Textbox(placeholder="Your name", label="Your name", info="Please provide your name")
                 dropdown_spk_nativity = gr.Dropdown(["Polish", "Other"], label="Your native language", info="")
                 dropdown_spk_gender = gr.Dropdown(["Male", "Female", "Other", "Prefer not to say"], label="Your gender", info="")
                 dropdown_spk_age = gr.Dropdown(["under 20", "20-29", "30-39", "40-49", "50-59", "over 60"], label="Your age range", info="")
             dropdown_spk_age.change(fn=change_age, inputs=dropdown_spk_age, outputs=spk_age)
             dropdown_spk_origin_city.change(fn=change_city, inputs=dropdown_spk_origin_city, outputs=spk_city)
+        """with gr.TabItem('Voicebot playground'):
             mic_recording = gr.Audio(source="microphone", type="filepath", label='Record your voice')
             with gr.Row():
                 button_transcribe = gr.Button("Transcribe speech")
             radio_lang.change(fn=change_language, inputs=radio_lang, outputs=language_code)
             radio_whisper_model.change(fn=change_whisper_model, inputs=radio_whisper_model, outputs=[whisper_model_type, whisper_model])
+        """
         with gr.TabItem('Batch audio collection'):
             with gr.Accordion(label="Promptset settings"):
+                radio_prompts_domain = gr.Dropdown(["bridge"], label="Select promptset domain", info="")
+                #radio_promptset_type = gr.Radio(["New promptset generation", "Existing promptset use"], label="Language", value ="Existing promptset use", info="New promptset is generated using. Requires providing open AI key in general settings tab")
                 var_promptset_size = gr.Textbox(label="Specify number of prompts (min 10, max 200)")
                 button_get_prompts = gr.Button("Save settings and get first prompt to record")
             speech_recording = gr.Audio(source="microphone",label="Select 'record from microphone' and read prompt displayed above", type="filepath")
             radio_prompts_domain.change(fn=change_domain, inputs=radio_prompts_domain, outputs=domain)
+            #radio_promptset_type.change(fn=change_prompts_type, inputs=radio_promptset_type, outputs=prompts_type)
             button_save_and_next = gr.Button("Save audio recording and move to the next prompt")
+            # TODO - add option to generate new promptset on the fly for new domains
+            button_get_prompts.click(get_prompts, inputs=[radio_prompts_domain, var_promptset_size, language_code], outputs = [promptset, prompt_text])
+            button_save_and_next.click(save_recording_and_meta, inputs=[project_name, speech_recording, prompt_text, language_code, spk_name, spk_age, spk_accent, spk_city, spk_gender, spk_nativity, promptset, prompt_number], outputs=[prompt_text, prompt_number, speech_recording])
 block.launch()