transcriptor

Build error

App Files Files Community

transcriptor / app.py

xangcastle

adding translation

e3eb20a about 3 years ago

raw

history blame contribute delete

5.43 kB

	import os.path
	import pathlib
	from io import StringIO
	import gradio as gr
	import whisper
	import numpy as np
	import pytube as pt
	import ffmpeg
	import textwrap
	import cv2
	from transformers import pipeline

	APP_DIR = pathlib.Path(__file__).parent.absolute()

	LOCAL_DIR = APP_DIR / "local"
	LOCAL_DIR.mkdir(exist_ok=True)
	save_dir = LOCAL_DIR / "output"
	save_dir.mkdir(exist_ok=True)

	transcriber = whisper.load_model("base")
	print(
	f"Model is {'multilingual' if transcriber.is_multilingual else 'English-only'} "
	f"and has {sum(np.prod(p.shape) for p in transcriber.parameters()):,} parameters."
	)

	options = dict(language='en', beam_size=5, best_of=5)
	transcribe_options = dict(task="translate", **options)

	translator = pipeline("translation_en_to_es", model="Helsinki-NLP/opus-mt-en-es")


	def translate(text):
	return translator(text)[0]["translation_text"]


	def format_timestamp(seconds, always_include_hours=False, fractional_seperator='.'):
	assert seconds >= 0, "non-negative timestamp expected"
	milliseconds = round(seconds * 1000.0)

	hours = milliseconds // 3_600_000
	milliseconds -= hours * 3_600_000

	minutes = milliseconds // 60_000
	milliseconds -= minutes * 60_000

	seconds = milliseconds // 1_000
	milliseconds -= seconds * 1_000

	hours_marker = f"{hours:02d}:" if always_include_hours or hours > 0 else ""
	return f"{hours_marker}{minutes:02d}:{seconds:02d}{fractional_seperator}{milliseconds:03d}"


	def process_text(text: str, max_line_width=None):
	if max_line_width is None or max_line_width < 0:
	return text

	lines = textwrap.wrap(text, width=max_line_width, tabsize=4)
	return '\n'.join(lines)


	def write_srt(transcript, file, max_line_width=None):
	for i, segment in enumerate(transcript, start=1):
	text = process_text(segment['text'].strip(), max_line_width).replace('-->', '->')

	# write srt lines
	print(
	f"{i}\n"
	f"{format_timestamp(segment['start'], always_include_hours=True, fractional_seperator=',')} --> "
	f"{format_timestamp(segment['end'], always_include_hours=True, fractional_seperator=',')}\n"
	f"{text}\n",
	file=file,
	flush=True,
	)


	def get_subs(segments, max_line_width):
	for sentence in segments:
	sentence['text'] = translate(sentence["text"])
	segment_stream = StringIO()
	write_srt(segments, file=segment_stream, max_line_width=max_line_width)
	segment_stream.seek(0)
	return segment_stream.read()


	def generate_subtitled_video(video, audio, transcript):
	video_file = ffmpeg.input(video)
	audio_file = ffmpeg.input(audio)
	ffmpeg.concat(video_file.filter(
	"subtitles", transcript
	), audio_file, v=1, a=1).output(f"{save_dir}/final.mp4").run(quiet=True, overwrite_output=True)
	return f"{save_dir}/final.mp4"


	def generate_subtitled_audio(audio, transcript):
	if not os.path.exists(f'{save_dir}/cover.jpg'):
	cover = np.zeros([320, 640, 3], dtype=np.uint8)
	cv2.imwrite(f'{save_dir}/cover.jpg', cover)
	os.system(f'ffmpeg -y -loop 1 -i {save_dir}/cover.jpg '
	f'-i {audio} -c:v libx264 '
	f'-tune stillimage -c:a aac -b:a 192k -pix_fmt yuv420p -shortest '
	f'-vf "subtitles={transcript}" {save_dir}/final.mp4')
	return f"{save_dir}/final.mp4"


	def transcribe(audio):
	transcription = transcriber.transcribe(audio, **transcribe_options)
	srt = get_subs(transcription["segments"], 80)
	with open(f"{save_dir}/transcript.srt", "w+", encoding='utf8') as f:
	f.writelines(srt)
	f.close()
	return transcription["text"], srt


	def transcribe_audio(audio):
	transcription, translation = transcribe(audio)
	return generate_subtitled_audio(audio, f"{save_dir}/transcript.srt"), transcription, translation


	def transcribe_video(video):
	audio = ffmpeg.input(video)
	audio = ffmpeg.output(audio, f"{save_dir}/output.wav", acodec="pcm_s16le", ac=1, ar="16k")
	ffmpeg.run(audio, overwrite_output=True)
	audio = whisper.load_audio(f"{save_dir}/output.wav")
	transcription, translation = transcribe(audio)
	return generate_subtitled_video(video, f"{save_dir}/output.wav",
	f"{save_dir}/transcript.srt"), transcription, translation


	def youtube_transcribe(url):
	yt = pt.YouTube(url)
	stream = yt.streams.filter(only_audio=True).first()
	audio = stream.download(filename='youtube.mp4')
	audio = whisper.load_audio(audio)
	return transcribe(audio)


	mic_interface = gr.Interface(
	fn=transcribe,
	inputs=gr.Audio(source="microphone", type="filepath"),
	outputs=["text", "text"],
	title="Transcribir y traducir audio",
	)

	audio_interface = gr.Interface(
	fn=transcribe_audio,
	inputs=gr.Audio(type="filepath"),
	outputs=["video", "text", "text"],
	title="Transcribir y traducir audio",
	)

	video_interface = gr.Interface(
	fn=transcribe_video,
	inputs="video",
	outputs=["video", "text", "text"],
	title="Transcribir y traducir audio",
	)

	youtuve_interface = gr.Interface(
	fn=youtube_transcribe,
	inputs="text",
	outputs=["text", "text"],
	title="Transcribir y traducir audio",
	)

	if __name__ == "__main__":
	gr.TabbedInterface(
	[mic_interface, audio_interface, video_interface, youtuve_interface],
	["Micrófono", "Audio", "Video", "YouTube"],
	).launch()