text-to-speech

Sleeping

App Files Files Community

text-to-speech / app.py

DHEIVER

Update app.py

9e20056 verified 10 months ago

raw

history blame

6.88 kB

	import logging
	import os
	import time
	import uuid
	import gradio as gr
	import soundfile as sf
	from model import get_pretrained_model, language_to_models

	title = "# Conversão de texto para fala (TTS)"

	description = """
	Projeto Open Source de Text-to-Speech para Produção de Conteúdo com Inteligência Artificial: Voz Inteligente para Criadores de Cursos e Podcasters

	---

	Visão Geral do Projeto:

	O projeto Text-to-Speech (TTS) de código aberto visa capacitar criadores de cursos online e podcasters a produzirem conteúdo de alta qualidade através da aplicação de tecnologias avançadas de inteligência artificial. Ao oferecer uma solução robusta e flexível, o projeto busca democratizar o acesso a vozes naturais e envolventes, eliminando barreiras linguísticas e proporcionando uma experiência de aprendizado ou entretenimento mais inclusiva.

	---

	Principais Recursos:

	1. Voz Natural e Expressiva: Utiliza modelos de síntese de voz avançados para gerar vozes que soam naturais, expressivas e adaptáveis ao contexto do conteúdo.

	2. Suporte Multilíngue: Incorpora diversos idiomas para atender a uma audiência global, permitindo aos criadores atingir uma ampla variedade de públicos.

	3. Personalização de Voz: Oferece ferramentas para ajustar a entonação, velocidade e estilo da voz, permitindo que os criadores personalizem a experiência auditiva de acordo com suas preferências e o tom do conteúdo.

	4. Integração de Acentos e Dialeto: Inclui suporte para diferentes acentos e dialetos, enriquecendo a autenticidade da experiência de audição.

	5. Controle de Emoções: Permite a inserção de nuances emocionais na voz, tornando possível transmitir entusiasmo, empatia ou seriedade conforme necessário.

	6. API Amigável: Disponibiliza uma API intuitiva para facilitar a integração com plataformas de criação de conteúdo, ambientes de aprendizado online e ferramentas de produção de podcasts.

	7. Modelo de Treinamento Aberto: Encoraja a contribuição da comunidade para a melhoria contínua do modelo, permitindo que a inteligência artificial se aprimore com o tempo e a diversidade de dados.

	---

	Objetivos do Projeto:

	1. Acessibilidade Global: Tornar a produção de conteúdo acessível a todos, independentemente do idioma ou localização geográfica.

	2. Facilitar a Criação de Cursos Online: Capacitar educadores a criar cursos envolventes e interativos, melhorando a experiência de aprendizado dos alunos.

	3. Aprimorar Produções de Podcast: Permitir que podcasters forneçam narrativas cativantes e experiências auditivas excepcionais aos ouvintes.

	4. Desenvolvimento Sustentável: Fomentar uma comunidade aberta e colaborativa para garantir a evolução contínua do projeto.

	---

	Como Contribuir:

	O projeto Text-to-Speech é totalmente aberto à contribuição da comunidade. Se você é um desenvolvedor, designer, linguista ou entusiasta da inteligência artificial, sua participação é bem-vinda. Contribua com códigos, sugestões de recursos, correções de bugs ou simplesmente compartilhe suas experiências para enriquecer a diversidade de perspectivas.

	Junte-se a nós na missão de tornar a produção de conteúdo mais acessível, envolvente e impactante com a magia da inteligência artificial aplicada à síntese de voz!
	"""

	css = """.result {display:flex;flex-direction:column}.result_item {padding:15px;margin-bottom:8px;border-radius:15px;width:100%}.result_item_success {background-color:mediumaquamarine;color:white;align-self:start}.result_item_error {background-color:#ff7070;color:white;align-self:start}"""

	examples = [["Portuguese", "csukuangfj/vits-mms-por", "Computação é arte.", 0, 1.0]]

	language_choices = ["Portuguese"]

	def update_model_dropdown(language):
	return gr.Dropdown(choices=language_to_models.get(language, []), value=language_to_models.get(language, [""])[0], interactive=True)

	def build_html_output(s, style="result_item_success"):
	return f"""<div class='result'><div class='result_item {style}'>{s}</div></div>"""

	def process(language, repo_id, text, sid, speed):
	logging.info(f"Input text: {text}. sid: {sid}, speed: {speed}")
	sid = int(sid)
	tts = get_pretrained_model(repo_id, speed)
	start = time.time()
	audio = tts.generate(text, sid=sid)
	end = time.time()
	if len(audio.samples) == 0:
	raise ValueError("Error in generating audios. Please read previous error messages.")
	duration = len(audio.samples) / audio.sample_rate
	elapsed_seconds = end - start
	rtf = elapsed_seconds / duration
	info = f"""Wave duration : {duration:.3f} s <br/>Processing time: {elapsed_seconds:.3f} s <br/>RTF: {elapsed_seconds:.3f}/{duration:.3f} = {rtf:.3f} <br/>"""
	logging.info(info)
	logging.info(f"\nrepo_id: {repo_id}\ntext: {text}\nsid: {sid}\nspeed: {speed}")
	filename = str(uuid.uuid4()) + ".wav"
	sf.write(filename, audio.samples, samplerate=audio.sample_rate, subtype="PCM_16")
	return filename, build_html_output(info)

	demo = gr.Blocks(css=css)

	with demo:
	gr.Markdown(title)
	language_radio = gr.Radio(label="Language", choices=language_choices, value=language_choices[0])
	model_dropdown = gr.Dropdown(choices=language_to_models["Portuguese"], label="Select a model", value=language_to_models["Portuguese"][0])
	language_radio.change(update_model_dropdown, inputs=language_radio, outputs=model_dropdown)

	with gr.Tabs():
	with gr.TabItem("Please input your text"):
	input_text = gr.Textbox(label="Input text", info="Your text", lines=3, placeholder="Please input your text here")
	input_sid = gr.Textbox(label="Speaker ID", info="Speaker ID", lines=1, max_lines=1, value="0", placeholder="Speaker ID. Valid only for mult-speaker model")
	input_speed = gr.Slider(minimum=0.1, maximum=10, value=1, step=0.1, label="Speed (larger->faster; smaller->slower)")
	input_button = gr.Button("Submit")
	output_audio = gr.Audio(label="Output")
	output_info = gr.HTML(label="Info")
	gr.Examples(examples=examples, fn=process, inputs=[language_radio, model_dropdown, input_text, input_sid, input_speed], outputs=[output_audio, output_info])

	input_button.click(process, inputs=[language_radio, model_dropdown, input_text, input_sid, input_speed], outputs=[output_audio, output_info])

	gr.Markdown(description)

	def download_espeak_ng_data():
	os.system("""cd /tmp; wget -qq https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/espeak-ng-data.tar.bz2; tar xf espeak-ng-data.tar.bz2""")

	if __name__ == "__main__":
	download_espeak_ng_data()
	formatter = "%(asctime)s %(levelname)s [%(filename)s:%(lineno)d] %(message)s"
	logging.basicConfig(format=formatter, level=logging.INFO)
	demo.launch()