Spaces:

Ahmad-01
/

Text_to_Speech_Generator

Sleeping

App Files Files Community

Ahmad-01 commited on Sep 29

Commit

8827fc3

verified ·

1 Parent(s): 66e7adc

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -53

app.py CHANGED Viewed

@@ -1,67 +1,23 @@
 import gradio as gr
 import soundfile as sf
 import tempfile
-from voxcpm import VoxCPM
-from modelscope import snapshot_download
-# ===============================
-# Pre-download models to cache
-# ===============================
-snapshot_download('iic/speech_zipenhancer_ans_multiloss_16k_base', cache_dir="./models")
-snapshot_download('iic/SenseVoiceSmall', cache_dir="./models")
-# ===============================
-# Load VoxCPM model (only once)
-# ===============================
 model = VoxCPM.from_pretrained("openbmb/VoxCPM-0.5B")
-# ===============================
-# TTS function
-# ===============================
-def tts_generate(text, cfg_value, inference_steps, normalize, denoise, fast_mode):
-    # Fast mode: reduce quality but speed up inference
-    if fast_mode:
-        cfg_value = 1.5
-        inference_steps = 6
-        normalize = False
-        denoise = False
-    wav = model.generate(
-        text=text,
-        cfg_value=cfg_value,
-        inference_timesteps=inference_steps,
-        normalize=normalize,
-        denoise=denoise
-    )
     tmp_wav = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
     sf.write(tmp_wav.name, wav, 16000)
     return tmp_wav.name
-# ===============================
-# Gradio UI
-# ===============================
-tts_app = gr.Interface(
     fn=tts_generate,
-    inputs=[
-        gr.Textbox(label="Enter text", value="Hello, this is a test of VoxCPM!", lines=3),
-        gr.Slider(0.5, 5.0, value=2.0, step=0.1, label="CFG Value"),
-        gr.Slider(5, 50, value=10, step=1, label="Inference timesteps"),
-        gr.Checkbox(value=True, label="Enable Normalization"),
-        gr.Checkbox(value=True, label="Enable Denoise"),
-        gr.Checkbox(value=False, label="Enable Fast Mode (lower quality, faster)"),
-    ],
-    outputs=gr.Audio(type="filepath", label="Generated Audio"),
-    title="🎙️ VoxCPM Text-to-Speech Generator",
-    description=(
-        "Generate expressive speech from text using VoxCPM TTS. "
-        "Adjust CFG for text accuracy vs naturalness, and inference timesteps for speed vs quality. "
-        "Use 'Fast Mode' for quick previews."
-    )
 )
-# ===============================
-# Launch App
-# ===============================
 if __name__ == "__main__":
-    tts_app.launch()

 import gradio as gr
+from voxcpm import VoxCPM
 import soundfile as sf
 import tempfile
+# Load model once
 model = VoxCPM.from_pretrained("openbmb/VoxCPM-0.5B")
+def tts_generate(text):
+    wav = model.generate(text=text)
     tmp_wav = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
     sf.write(tmp_wav.name, wav, 16000)
     return tmp_wav.name
+app = gr.Interface(
     fn=tts_generate,
+    inputs=gr.Textbox(label="Enter text", value="Hello Hugging Face!"),
+    outputs=gr.Audio(type="filepath"),
+    title="VoxCPM TTS Test"
 )
 if __name__ == "__main__":
+    app.launch()