Yash1

Running

App Files Files Community

tuf601121 commited on 19 days ago

Commit

271a505

verified ·

1 Parent(s): 3e68d9b

Upload 5 files

Browse files

Files changed (5) hide show

README.md +10 -0
app.py +87 -0
gitattributes.txt +35 -0
requirements.txt +6 -0
speakers.json +71 -0

README.md ADDED Viewed

	@@ -0,0 +1,10 @@

+---
+license: apache-2.0
+title: 12lab
+sdk: gradio
+emoji: 🚀
+colorFrom: yellow
+colorTo: red
+pinned: false
+short_description: nothing
+---

app.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import os
+import torch
+import gradio as gr
+import soundfile as sf
+import numpy as np
+from pathlib import Path
+import json
+import traceback
+# Token MUST be added via HuggingFace Space Secrets
+HF_TOKEN = os.getenv("HF_TOKEN")
+if not HF_TOKEN:
+    print("WARNING: HF_TOKEN missing. Add it in Space → Settings → Variables & Secrets.")
+MODEL_ID = "ai4bharat/indic-parler-tts"
+try:
+    from parler_tts import ParlerTTSForConditionalGeneration
+    from transformers import AutoTokenizer
+except Exception as e:
+    raise RuntimeError("Missing required libraries. Install dependencies from requirements.txt. Error: " + str(e))
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print("Loading model…")
+model = ParlerTTSForConditionalGeneration.from_pretrained(MODEL_ID).to(device)
+text_tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+try:
+    desc_encoder_name = model.config.text_encoder._name_or_path
+    desc_tokenizer = AutoTokenizer.from_pretrained(desc_encoder_name)
+except:
+    desc_tokenizer = text_tokenizer
+sampling_rate = getattr(model.config, "sampling_rate", 22050)
+sp_file = Path(__file__).parent / "speakers.json"
+if sp_file.exists():
+    SPEAKERS = json.load(open(sp_file, "r", encoding="utf-8"))
+else:
+    SPEAKERS = ["Default"]
+def synthesize(text, speaker, emotion="Neutral"):
+    if not text.strip():
+        return None
+    desc = f"{speaker}'s voice. Tone: {emotion}. Natural, clear speech, close mic."
+    try:
+        desc_ids = desc_tokenizer(desc, return_tensors="pt").to(device)
+        text_ids = text_tokenizer(text, return_tensors="pt").to(device)
+    except:
+        desc_ids = desc_tokenizer(desc, return_tensors="pt")
+        text_ids = text_tokenizer(text, return_tensors="pt")
+    with torch.no_grad():
+        try:
+            audio = model.generate(
+                input_ids=desc_ids.input_ids,
+                attention_mask=desc_ids.attention_mask,
+                prompt_input_ids=text_ids.input_ids,
+                prompt_attention_mask=text_ids.attention_mask,
+                max_length=20000,
+            )
+        except:
+            audio = model.generate(description=desc, text=text)
+    arr = audio.cpu().numpy().squeeze()
+    if np.issubdtype(arr.dtype, np.integer):
+        arr = arr.astype("float32") / np.iinfo(arr.dtype).max
+    out_path = f"/tmp/out_{abs(hash(text))}.wav"
+    sf.write(out_path, arr, sampling_rate)
+    return out_path
+with gr.Blocks() as demo:
+    gr.Markdown("# Indic Parler-TTS (69 Speakers)")
+    txt = gr.Textbox(value="नमस्ते, यह एक परीक्षण वाक्य है।", label="Text")
+    sp = gr.Dropdown(SPEAKERS, value=SPEAKERS[0], label="Speaker")
+    emo = gr.Dropdown(["Neutral","Happy","Sad","Angry","Narration"], value="Neutral", label="Emotion")
+    btn = gr.Button("Generate")
+    out = gr.Audio()
+    btn.click(fn=synthesize, inputs=[txt, sp, emo], outputs=out)
+if __name__ == '__main__':
+    demo.launch(server_name="0.0.0.0", server_port=7860)

gitattributes.txt ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+torch
+transformers
+parler-tts @ git+https://github.com/huggingface/parler-tts.git
+soundfile
+numpy
+gradio

speakers.json ADDED Viewed

	@@ -0,0 +1,71 @@

+[
+  "Aakash",
+  "Aditi",
+  "Amit",
+  "Amrita",
+  "Anjali",
+  "Anu",
+  "Arjun",
+  "Aryan",
+  "Asha",
+  "Bhanu",
+  "Bikram",
+  "Chetan",
+  "Debjani",
+  "Deepak",
+  "Dinesh",
+  "Divya",
+  "Divjot",
+  "Gauri",
+  "Gurpreet",
+  "Hardeep",
+  "Harish",
+  "Isha",
+  "Jaya",
+  "Jatin",
+  "Jon",
+  "Kabir",
+  "Karan",
+  "Kavitha",
+  "Kavya",
+  "Kiran",
+  "Kunal",
+  "Laishram",
+  "Lalitha",
+  "Lea",
+  "Maya",
+  "Meera",
+  "Milan",
+  "Mina",
+  "Mohit",
+  "Nikhil",
+  "Neha",
+  "Nisha",
+  "Poonam",
+  "Prakash",
+  "Priya",
+  "Puneet",
+  "Radha",
+  "Rakesh",
+  "Ranjit",
+  "Ravi",
+  "Riya",
+  "Rohit",
+  "Rohini",
+  "Sanjay",
+  "Saurav",
+  "Shalini",
+  "Shweta",
+  "Sita",
+  "Sneha",
+  "Suresh",
+  "Sunita",
+  "Swapna",
+  "Tapan",
+  "Tarun",
+  "Tisha",
+  "Varun",
+  "Vikas",
+  "Vidya",
+  "Yash"
+]