Spaces:

pszemraj
/

small-instruct-streaming

Sleeping

pszemraj commited on Oct 1, 2024

Commit

ea9c426

verified ·

1 Parent(s): bf2a5db

update model

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ import torch
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, TextIteratorStreamer
-model_id = "pszemraj/nanoT5-mid-2k-instruct"
 torch_device = "cuda" if torch.cuda.is_available() else "cpu"
 logging.info(f"Running on device:\t {torch_device}")
 logging.info(f"CPU threads:\t {torch.get_num_threads()}")
@@ -63,6 +63,7 @@ def run_generation(
         repetition_penalty=repetition_penalty,
         length_penalty=length_penalty,
         no_repeat_ngram_size=no_repeat_ngram_size,
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
@@ -152,14 +153,7 @@ with gr.Blocks() as demo:
                 interactive=True,
                 label="Length Penalty",
             )
-            # temperature = gr.Slider(
-            #     minimum=0.1,
-            #     maximum=5.0,
-            #     value=0.8,
-            #     step=0.1,
-            #     interactive=True,
-            #     label="Temperature",
-            # )
     user_text.submit(
         run_generation,
         [user_text, top_p, temperature, top_k, max_new_tokens, repetition_penalty, length_penalty],

 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, TextIteratorStreamer
+model_id = "BEE-spoke-data/tFINE-900m-e16-d32-instruct"
 torch_device = "cuda" if torch.cuda.is_available() else "cpu"
 logging.info(f"Running on device:\t {torch_device}")
 logging.info(f"CPU threads:\t {torch.get_num_threads()}")
         repetition_penalty=repetition_penalty,
         length_penalty=length_penalty,
         no_repeat_ngram_size=no_repeat_ngram_size,
+        renormalize_logits=True,
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
                 interactive=True,
                 label="Length Penalty",
             )
     user_text.submit(
         run_generation,
         [user_text, top_p, temperature, top_k, max_new_tokens, repetition_penalty, length_penalty],