Spaces:

vikram-iitm
/

indic-asr-diarization

Sleeping

App Files Files Community

vikram-iitm commited on Jun 9

Commit

c44777b

1 Parent(s): 79b555b

Add app and requirements

Browse files

Files changed (2) hide show

app.py +40 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,40 @@

+import os, torchaudio, torch, gradio as gr
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+from pyctcdecode import build_ctcdecoder
+from huggingface_hub import hf_hub_download
+from pyannote.audio import Pipeline
+MODEL_ID = "vikram-iitm/indic-asr-hi-kenlm4"
+HF_TOKEN = os.getenv("HF_TOKEN")
+processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
+model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID).eval()
+lm_path = hf_hub_download(repo_id=MODEL_ID, filename="lm.binary")
+labels = [t for t,_ in sorted(processor.tokenizer.get_vocab().items(), key=lambda x:
+x[1])]
+decoder = build_ctcdecoder(labels, kenlm_model_path=lm_path)
+pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.0", use_auth_token=HF_TOKEN)
+def diarize_asr(path):
+    diar = pipeline(path)
+    wav, sr = torchaudio.load(path)
+    if sr != 16000:
+        wav = torchaudio.functional.resample(wav, sr, 16000)
+    out = []
+    for turn, _, speaker in diar.itertracks(yield_label=True):
+        s = int(turn.start * 16000)
+        e = int(turn.end * 16000)
+        seg = wav[:, s:e]
+        iv = processor(seg.squeeze(), sampling_rate=16000, return_tensors="pt", padding=True)
+        with torch.no_grad():
+            logits = model(**iv).logits[0].cpu().numpy()
+        text = decoder.decode(logits.argmax(-1))
+        out.append(f"[{turn.start:.1f}-{turn.end:.1f}] Speaker {speaker}: {text}")
+    return "\n".join(out)
+gr.Interface(
+    diarize_asr,
+    inputs=gr.Audio(sources=["microphone","upload"], type="filepath"),
+    outputs="text",
+    title="Hindi ASR + Speaker Diarization"
+).launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+torch
+torchaudio
+transformers
+pyctcdecode
+kenlm
+soundfile
+gradio
+pyannote.audio