Spaces:

Mungert
/

GradLLM

Running

App Files Files Community

johnbridges commited on Aug 16

Commit

2143c4b

1 Parent(s): ac7c5a8

.

Browse files

Files changed (2) hide show

app.py +28 -13
requirements.txt +3 -2

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 # app.py
-import asyncio, logging, os
 import gradio as gr
 from config import settings
@@ -7,7 +7,7 @@ from rabbit_base import RabbitBase
 from listener import RabbitListenerBase
 from rabbit_repo import RabbitRepo
 from oa_server import OpenAIServers
-from vllm_backend import VLLMChatBackend, StubImagesBackend   # ✅ our backend
 import state   # holds vllm_engine reference
 # ---- vLLM imports ----
@@ -20,31 +20,46 @@ logging.basicConfig(
 )
 log = logging.getLogger("app")
 try:
     import spaces
     @spaces.GPU(duration=60)
-    def gpu_entrypoint() -> str:
         return "gpu: ready"
 except Exception:
-    def gpu_entrypoint() -> str:
         return "gpu: not available (CPU only)"
 # ----------------- vLLM init -----------------
 async def init_vllm():
     if state.vllm_engine is not None:
         return state.vllm_engine
     model_id = getattr(settings, "LlmHFModelID", "Qwen/Qwen2.5-7B-Instruct")
     log.info(f"Loading vLLM model: {model_id}")
-    # Always use GPU (cuda) — Spaces provides GPU when @spaces.GPU is active
-    args = AsyncEngineArgs(
-        model=model_id,
-        trust_remote_code=True,
-        max_model_len=getattr(settings, "LlmOpenAICtxSize", 32768),
-        device="cuda",   # ✅ force GPU
-    )
-    state.vllm_engine = AsyncLLMEngine.from_engine_args(args)
     return state.vllm_engine
 # ----------------- RabbitMQ wiring -----------------
@@ -83,7 +98,7 @@ async def _startup_init():
         log.exception("Startup init failed")
         return f"ERROR: {e}"
-async def ping():
     return "ok"
 # ----------------- Gradio UI -----------------

 # app.py
+import asyncio, logging
 import gradio as gr
 from config import settings
 from listener import RabbitListenerBase
 from rabbit_repo import RabbitRepo
 from oa_server import OpenAIServers
+from vllm_backend import VLLMChatBackend, StubImagesBackend
 import state   # holds vllm_engine reference
 # ---- vLLM imports ----
 )
 log = logging.getLogger("app")
+# ----------------- Hugging Face Spaces helpers -----------------
 try:
     import spaces
     @spaces.GPU(duration=60)
+    def gpu_entrypoint() -> str:
         return "gpu: ready"
+    @spaces.GPU(duration=600)
+    def _build_vllm_engine_on_gpu(model_id: str, max_len: int):
+        args = AsyncEngineArgs(
+            model=model_id,
+            trust_remote_code=True,
+            max_model_len=max_len,
+        )
+        return AsyncLLMEngine.from_engine_args(args)
 except Exception:
+    def gpu_entrypoint() -> str:
         return "gpu: not available (CPU only)"
+    def _build_vllm_engine_on_gpu(model_id: str, max_len: int):
+        args = AsyncEngineArgs(
+            model=model_id,
+            trust_remote_code=True,
+            max_model_len=max_len,
+        )
+        return AsyncLLMEngine.from_engine_args(args)
 # ----------------- vLLM init -----------------
 async def init_vllm():
     if state.vllm_engine is not None:
         return state.vllm_engine
     model_id = getattr(settings, "LlmHFModelID", "Qwen/Qwen2.5-7B-Instruct")
+    max_len = int(getattr(settings, "LlmOpenAICtxSize", 32768))
     log.info(f"Loading vLLM model: {model_id}")
+    # Build inside a GPU context so Spaces ZeroGPU exposes CUDA
+    state.vllm_engine = _build_vllm_engine_on_gpu(model_id, max_len)
     return state.vllm_engine
 # ----------------- RabbitMQ wiring -----------------
         log.exception("Startup init failed")
         return f"ERROR: {e}"
+async def ping():
     return "ok"
 # ----------------- Gradio UI -----------------

requirements.txt CHANGED Viewed

@@ -3,8 +3,9 @@ fastapi>=0.116.1
 uvicorn>=0.35.0
 aio-pika>=9.5.7
-pydantic==2.11.1
-pydantic-settings==2.10.1
 spaces
 vllm>=0.10.0

 uvicorn>=0.35.0
 aio-pika>=9.5.7
+pydantic>=2.17.0
+pydantic-settings>=2.6.0
 spaces
 vllm>=0.10.0