Spaces:

VincentGOURBIN
/

swift-mlx-qwen3-chatbot

Running on Zero

VincentGOURBIN commited on Aug 23

Commit

92b0f9d

verified ·

1 Parent(s): 9f90fad

Upload step03_chatbot.py with huggingface_hub

Files changed (1) hide show

step03_chatbot.py CHANGED Viewed

@@ -235,6 +235,7 @@ class Qwen3Reranker:
         elif self.is_cuda:
             # Configuration pour CUDA
             config["torch_dtype"] = torch.float16
             if self.use_flash_attention:
                 try:
                     config["attn_implementation"] = "flash_attention_2"
@@ -242,8 +243,6 @@ class Qwen3Reranker:
                 except Exception:
                     print("  - Flash Attention 2 non disponible, utilisation standard")
                     self.use_flash_attention = False
-            else:
-                config["device_map"] = "auto"
         else:
             # Configuration pour CPU
             config["torch_dtype"] = torch.float32
@@ -429,7 +428,7 @@ class GenericRAGChatbot:
         if self.is_zerogpu:
             print("🚀 Environnement ZeroGPU détecté - optimisations cloud")
-            self.use_flash_attention = True  # ZeroGPU supporte Flash Attention
         elif self.is_mps and use_flash_attention:
             print("🍎 Mac avec MPS détecté - désactivation automatique de Flash Attention")
             self.use_flash_attention = False
@@ -580,6 +579,7 @@ class GenericRAGChatbot:
                         self.config.embedding_model,
                         model_kwargs={
                             "attn_implementation": "flash_attention_2",
                             "device_map": "auto"
                         },
                         tokenizer_kwargs={"padding_side": "left"}

         elif self.is_cuda:
             # Configuration pour CUDA
             config["torch_dtype"] = torch.float16
+            config["device_map"] = "auto"  # Toujours utiliser auto pour CUDA
             if self.use_flash_attention:
                 try:
                     config["attn_implementation"] = "flash_attention_2"
                 except Exception:
                     print("  - Flash Attention 2 non disponible, utilisation standard")
                     self.use_flash_attention = False
         else:
             # Configuration pour CPU
             config["torch_dtype"] = torch.float32
         if self.is_zerogpu:
             print("🚀 Environnement ZeroGPU détecté - optimisations cloud")
+            self.use_flash_attention = False  # Désactiver Flash Attention temporairement sur ZeroGPU
         elif self.is_mps and use_flash_attention:
             print("🍎 Mac avec MPS détecté - désactivation automatique de Flash Attention")
             self.use_flash_attention = False
                         self.config.embedding_model,
                         model_kwargs={
                             "attn_implementation": "flash_attention_2",
+                            "torch_dtype": torch.float16,  # Requis pour Flash Attention
                             "device_map": "auto"
                         },
                         tokenizer_kwargs={"padding_side": "left"}