Spaces:

Arif-Badhon
/

llm-data-analyzer

Sleeping

App Files Files Community

Arif commited on 7 days ago

Commit

89d2b21

1 Parent(s): 09c07f9

Docker model runner still error, trying to resolve

Browse files

Files changed (3) hide show

backend/app/config.py +7 -17
backend/app/main.py +2 -2
backend/app/services/llm_service.py +15 -15

backend/app/config.py CHANGED Viewed

@@ -60,15 +60,15 @@ class Settings(BaseSettings):
     # ===== DOCKER MODEL RUNNER MODE (DEBUG=false) =====
     # Metis pattern: stateless HTTP API to DMR on host
-    model_runner_url: str = Field(
-        default="http://host.docker.internal:11434/v1",
         env="MODEL_RUNNER_URL",
         description="Docker Model Runner API endpoint (from containers use host.docker.internal)"
     )
-    model_name: str = Field(
-        default="llama3.2:1B-Q4_0",
         env="MODEL_NAME",
-        description="Model name as shown in 'docker model ls'"
     )
     docker_timeout: int = Field(
         default=300,
@@ -76,18 +76,6 @@ class Settings(BaseSettings):
         description="Timeout for Docker Model Runner requests (seconds)"
     )
-    # ===== BACKWARDS COMPATIBILITY (deprecated) =====
-    # These are kept for backwards compatibility but use new names above
-    @property
-    def docker_model_runner_url(self) -> str:
-        """Backwards compatible alias for model_runner_url"""
-        return self.model_runner_url
-    @property
-    def llm_model_name_docker(self) -> str:
-        """Backwards compatible alias for model_name"""
-        return self.model_name
     # ===== DATA PROCESSING =====
     max_file_size_mb: int = Field(
         default=50,
@@ -102,6 +90,8 @@ class Settings(BaseSettings):
         env_file = ".env.local"
         case_sensitive = False
         extra = "allow"
 @lru_cache

     # ===== DOCKER MODEL RUNNER MODE (DEBUG=false) =====
     # Metis pattern: stateless HTTP API to DMR on host
+    runner_url: str = Field(
+        default="http://host.docker.internal:11434/engines/llama.cpp/v1",
         env="MODEL_RUNNER_URL",
         description="Docker Model Runner API endpoint (from containers use host.docker.internal)"
     )
+    llm_model: str = Field(
+        default="ai/llama3.2:1B-Q4_0",
         env="MODEL_NAME",
+        description="Model name as OCI reference (e.g., ai/llama3.2:1B-Q4_0)"
     )
     docker_timeout: int = Field(
         default=300,
         description="Timeout for Docker Model Runner requests (seconds)"
     )
     # ===== DATA PROCESSING =====
     max_file_size_mb: int = Field(
         default=50,
         env_file = ".env.local"
         case_sensitive = False
         extra = "allow"
+        # Fix Pydantic warning about protected namespaces
+        protected_namespaces = ('settings_',)
 @lru_cache

backend/app/main.py CHANGED Viewed

@@ -35,10 +35,10 @@ async def lifespan(app: FastAPI):
     }
     docker_config = {
-        "model_name": settings.llm_model_name_docker,
         "max_tokens": settings.llm_max_tokens,
         "temperature": settings.llm_temperature,
-        "docker_url": settings.docker_model_runner_url,
         "timeout": settings.docker_timeout
     }

     }
     docker_config = {
+        "model_name": settings.llm_model,
         "max_tokens": settings.llm_max_tokens,
         "temperature": settings.llm_temperature,
+        "docker_url": settings.runner_url,
         "timeout": settings.docker_timeout
     }

backend/app/services/llm_service.py CHANGED Viewed

@@ -152,11 +152,11 @@ class LLMServiceDockerModelRunner(BaseLLMService):
         model_name: str,
         max_tokens: int,
         temperature: float,
-        docker_url: str,
         timeout: int = 300
     ):
         super().__init__(model_name, max_tokens, temperature)
-        self.docker_url = docker_url.rstrip("/")  # Remove trailing slash
         self.timeout = timeout
         self.client = None
@@ -170,11 +170,11 @@ class LLMServiceDockerModelRunner(BaseLLMService):
             return True
         try:
-            self.logger.info(f"🔄 Connecting to Docker Model Runner: {self.docker_url}")
             self.client = httpx.AsyncClient(timeout=self.timeout)
             # OpenAI-compatible endpoint: GET /v1/models
-            response = await self.client.get(f"{self.docker_url}/models")
             if response.status_code == 200:
                 models = response.json()
@@ -208,7 +208,7 @@ class LLMServiceDockerModelRunner(BaseLLMService):
             # OpenAI-compatible endpoint: POST /v1/chat/completions
             response = await self.client.post(
-                f"{self.docker_url}/chat/completions",
                 json=payload
             )
@@ -285,7 +285,7 @@ def get_llm_service(debug: bool = None, mlx_config: dict = None, docker_config:
     # Determine debug mode
     if debug is None:
         debug = os.getenv("DEBUG", "false").lower() == "true"
-        if hasattr(settings, "debug"):
             debug = settings.debug
     # Try MLX first (if DEBUG=true)
@@ -303,23 +303,23 @@ def get_llm_service(debug: bool = None, mlx_config: dict = None, docker_config:
             logger.warning(f"⚠️  MLX failed: {e}, falling back to Docker Model Runner")
     # Try Docker Model Runner (Metis pattern)
-    docker_url = None
     if docker_config:
-        docker_url = docker_config.get("docker_url")
     elif settings:
-        docker_url = getattr(settings, "model_runner_url", None)
     else:
-        docker_url = os.getenv("MODEL_RUNNER_URL")
-    if docker_url:
         try:
             model_name = None
             if docker_config:
                 model_name = docker_config.get("model_name")
             elif settings:
-                model_name = getattr(settings, "model_name", None)
             else:
-                model_name = os.getenv("MODEL_NAME", "llama3.2:1B-Q4_0")
             config = {
                 "model_name": model_name,
@@ -327,11 +327,11 @@ def get_llm_service(debug: bool = None, mlx_config: dict = None, docker_config:
                     getattr(settings, "llm_max_tokens", 512) if settings else 512),
                 "temperature": (docker_config or {}).get("temperature",
                     getattr(settings, "llm_temperature", 0.7) if settings else 0.7),
-                "docker_url": docker_url,
                 "timeout": (docker_config or {}).get("timeout",
                     getattr(settings, "docker_timeout", 300) if settings else 300)
             }
-            logger.info(f"📌 Mode: Docker Model Runner at {docker_url}")
             logger.info(f"📌 Model: {config['model_name']}")
             logger.info(f"✅ Using host GPU acceleration (llama.cpp Metal backend)")
             return LLMServiceDockerModelRunner(**config)

         model_name: str,
         max_tokens: int,
         temperature: float,
+        runner_url: str,
         timeout: int = 300
     ):
         super().__init__(model_name, max_tokens, temperature)
+        self.runner_url = runner_url.rstrip("/")  # Remove trailing slash
         self.timeout = timeout
         self.client = None
             return True
         try:
+            self.logger.info(f"🔄 Connecting to Docker Model Runner: {self.runner_url}")
             self.client = httpx.AsyncClient(timeout=self.timeout)
             # OpenAI-compatible endpoint: GET /v1/models
+            response = await self.client.get(f"{self.runner_url}/models")
             if response.status_code == 200:
                 models = response.json()
             # OpenAI-compatible endpoint: POST /v1/chat/completions
             response = await self.client.post(
+                f"{self.runner_url}/chat/completions",
                 json=payload
             )
     # Determine debug mode
     if debug is None:
         debug = os.getenv("DEBUG", "false").lower() == "true"
+        if settings and hasattr(settings, "debug"):
             debug = settings.debug
     # Try MLX first (if DEBUG=true)
             logger.warning(f"⚠️  MLX failed: {e}, falling back to Docker Model Runner")
     # Try Docker Model Runner (Metis pattern)
+    runner_url = None
     if docker_config:
+        runner_url = docker_config.get("runner_url")
     elif settings:
+        runner_url = getattr(settings, "runner_url", None)
     else:
+        runner_url = os.getenv("MODEL_RUNNER_URL")
+    if runner_url:
         try:
             model_name = None
             if docker_config:
                 model_name = docker_config.get("model_name")
             elif settings:
+                model_name = getattr(settings, "llm_model", None)
             else:
+                model_name = os.getenv("MODEL_NAME", "ai/llama3.2:1B-Q4_0")
             config = {
                 "model_name": model_name,
                     getattr(settings, "llm_max_tokens", 512) if settings else 512),
                 "temperature": (docker_config or {}).get("temperature",
                     getattr(settings, "llm_temperature", 0.7) if settings else 0.7),
+                "runner_url": runner_url,
                 "timeout": (docker_config or {}).get("timeout",
                     getattr(settings, "docker_timeout", 300) if settings else 300)
             }
+            logger.info(f"📌 Mode: Docker Model Runner at {runner_url}")
             logger.info(f"📌 Model: {config['model_name']}")
             logger.info(f"✅ Using host GPU acceleration (llama.cpp Metal backend)")
             return LLMServiceDockerModelRunner(**config)