Spaces:

MCP-1st-Birthday
/

Round_2

Running

App Files Files Community

Chris4K commited on 24 days ago

Commit

c60cf73

verified ·

1 Parent(s): a7a26f6

Update llm_engine.py

Browse files

Files changed (1) hide show

llm_engine.py +488 -473

llm_engine.py CHANGED Viewed

@@ -1,474 +1,489 @@
-# llmEngine.py
-# IMPROVED: Multi-provider LLM engine with CACHING to prevent reloading
-# This version fixes the critical issue where LocalLLM was reloading on every call
-# Features:
-# - Provider caching (models stay in memory)
-# - Unified OpenAI-style chat() API
-# - Providers: OpenAI, Anthropic, HuggingFace, Nebius, SambaNova, Local (transformers)
-# - Automatic fallback to local model on errors
-# - JSON-based credit tracking
-import json
-import os
-import traceback
-from typing import List, Dict, Optional
-###########################################################
-# SIMPLE JSON CREDIT STORE
-###########################################################
-CREDITS_DB_PATH = "credits.json"
-DEFAULT_CREDITS = {
-    "openai": 25,
-    "anthropic": 25000,
-    "huggingface": 25,
-    "nebius": 50,
-    "modal": 250,
-    "blaxel": 250,
-    "elevenlabs": 44,
-    "sambanova": 25,
-    "local": 9999999
-}
-def load_credits():
-    if not os.path.exists(CREDITS_DB_PATH):
-        with open(CREDITS_DB_PATH, "w") as f:
-            json.dump(DEFAULT_CREDITS, f)
-        return DEFAULT_CREDITS.copy()
-    with open(CREDITS_DB_PATH, "r") as f:
-        return json.load(f)
-def save_credits(data):
-    with open(CREDITS_DB_PATH, "w") as f:
-        json.dump(data, f, indent=2)
-###########################################################
-# BASE PROVIDER INTERFACE
-###########################################################
-class BaseProvider:
-    def chat(self, model: str, messages: List[Dict], **kwargs) -> str:
-        raise NotImplementedError
-###########################################################
-# PROVIDER: OPENAI
-###########################################################
-try:
-    from openai import OpenAI
-except Exception:
-    OpenAI = None
-class OpenAIProvider(BaseProvider):
-    def __init__(self):
-        if OpenAI is None:
-            raise RuntimeError("openai library not installed or not importable")
-        self.client = OpenAI(api_key=os.getenv("OPENAI_API_KEY", ""))
-    def chat(self, model, messages, **kwargs):
-        try:
-            from openai.types.chat import (
-                ChatCompletionUserMessageParam,
-                ChatCompletionAssistantMessageParam,
-                ChatCompletionSystemMessageParam,
-            )
-        except Exception:
-            ChatCompletionUserMessageParam = dict
-            ChatCompletionAssistantMessageParam = dict
-            ChatCompletionSystemMessageParam = dict
-        if not isinstance(messages, list) or not all(isinstance(m, dict) for m in messages):
-            raise TypeError("messages must be a list of dicts with 'role' and 'content'")
-        safe_messages = []
-        for m in messages:
-            role = str(m.get("role", "user"))
-            content = str(m.get("content", ""))
-            if role == "user":
-                safe_messages.append(ChatCompletionUserMessageParam(role="user", content=content))
-            elif role == "assistant":
-                safe_messages.append(ChatCompletionAssistantMessageParam(role="assistant", content=content))
-            elif role == "system":
-                safe_messages.append(ChatCompletionSystemMessageParam(role="system", content=content))
-            else:
-                safe_messages.append({"role": role, "content": content})
-        response = self.client.chat.completions.create(model=model, messages=safe_messages)
-        try:
-            return response.choices[0].message.content
-        except Exception:
-            return str(response)
-###########################################################
-# PROVIDER: ANTHROPIC
-###########################################################
-try:
-    from anthropic import Anthropic
-except Exception:
-    Anthropic = None
-class AnthropicProvider(BaseProvider):
-    def __init__(self):
-        if Anthropic is None:
-            raise RuntimeError("anthropic library not installed or not importable")
-        self.client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY", ""))
-    def chat(self, model, messages, **kwargs):
-        if not isinstance(messages, list) or not all(isinstance(m, dict) for m in messages):
-            raise TypeError("messages must be a list of dicts with 'role' and 'content'")
-        user_text = "\n".join([m.get("content", "") for m in messages if m.get("role") == "user"])
-        reply = self.client.messages.create(
-            model=model,
-            max_tokens=300,
-            messages=[{"role": "user", "content": user_text}]
-        )
-        if hasattr(reply, "content"):
-            content = reply.content
-            if isinstance(content, list) and content and len(content) > 0:
-                block = content[0]
-                if hasattr(block, "text"):
-                    return getattr(block, "text", str(block))
-                elif isinstance(block, dict) and "text" in block:
-                    return block["text"]
-                else:
-                    return str(block)
-            elif isinstance(content, str):
-                return content
-        if isinstance(reply, dict) and "completion" in reply:
-            return reply["completion"]
-        return str(reply)
-###########################################################
-# PROVIDER: HUGGINGFACE INFERENCE API
-###########################################################
-import requests
-class HuggingFaceProvider(BaseProvider):
-    def __init__(self):
-        self.key = os.getenv("HF_API_KEY", "")
-    def chat(self, model, messages, **kwargs):
-        if not messages:
-            raise ValueError("messages is empty")
-        text = messages[-1].get("content", "")
-        r = requests.post(
-            f"https://api-inference.huggingface.co/models/{model}",
-            headers={"Authorization": f"Bearer {self.key}"} if self.key else {},
-            json={"inputs": text},
-            timeout=60
-        )
-        r.raise_for_status()
-        out = r.json()
-        if isinstance(out, list) and out and isinstance(out[0], dict):
-            return out[0].get("generated_text") or str(out[0])
-        return str(out)
-###########################################################
-# PROVIDER: NEBIUS (OpenAI-compatible)
-###########################################################
-class NebiusProvider(BaseProvider):
-    def __init__(self):
-        if OpenAI is None:
-            raise RuntimeError("openai library not installed; Nebius wrapper expects OpenAI-compatible client")
-        self.client = OpenAI(
-            api_key=os.getenv("NEBIUS_API_KEY", ""),
-            base_url=os.getenv("NEBIUS_BASE_URL", "https://api.studio.nebius.ai/v1")
-        )
-    def chat(self, model, messages, **kwargs):
-        try:
-            from openai.types.chat import (
-                ChatCompletionUserMessageParam,
-                ChatCompletionAssistantMessageParam,
-                ChatCompletionSystemMessageParam,
-            )
-        except Exception:
-            ChatCompletionUserMessageParam = dict
-            ChatCompletionAssistantMessageParam = dict
-            ChatCompletionSystemMessageParam = dict
-        safe_messages = []
-        for m in messages:
-            role = str(m.get("role", "user"))
-            content = str(m.get("content", ""))
-            if role == "user":
-                safe_messages.append(ChatCompletionUserMessageParam(role="user", content=content))
-            elif role == "assistant":
-                safe_messages.append(ChatCompletionAssistantMessageParam(role="assistant", content=content))
-            elif role == "system":
-                safe_messages.append(ChatCompletionSystemMessageParam(role="system", content=content))
-            else:
-                safe_messages.append({"role": role, "content": content})
-        r = self.client.chat.completions.create(model=model, messages=safe_messages)
-        try:
-            return r.choices[0].message.content
-        except Exception:
-            return str(r)
-###########################################################
-# PROVIDER: SAMBANOVA (OpenAI-compatible)
-###########################################################
-class SambaNovaProvider(BaseProvider):
-    def __init__(self):
-        if OpenAI is None:
-            raise RuntimeError("openai library not installed; SambaNova wrapper expects OpenAI-compatible client")
-        self.client = OpenAI(
-            api_key=os.getenv("SAMBANOVA_API_KEY", ""),
-            base_url=os.getenv("SAMBANOVA_BASE_URL", "https://api.sambanova.ai/v1")
-        )
-    def chat(self, model, messages, **kwargs):
-        try:
-            from openai.types.chat import (
-                ChatCompletionUserMessageParam,
-                ChatCompletionAssistantMessageParam,
-                ChatCompletionSystemMessageParam,
-            )
-        except Exception:
-            ChatCompletionUserMessageParam = dict
-            ChatCompletionAssistantMessageParam = dict
-            ChatCompletionSystemMessageParam = dict
-        safe_messages = []
-        for m in messages:
-            role = str(m.get("role", "user"))
-            content = str(m.get("content", ""))
-            if role == "user":
-                safe_messages.append(ChatCompletionUserMessageParam(role="user", content=content))
-            elif role == "assistant":
-                safe_messages.append(ChatCompletionAssistantMessageParam(role="assistant", content=content))
-            elif role == "system":
-                safe_messages.append(ChatCompletionSystemMessageParam(role="system", content=content))
-            else:
-                safe_messages.append({"role": role, "content": content})
-        r = self.client.chat.completions.create(model=model, messages=safe_messages)
-        try:
-            return r.choices[0].message.content
-        except Exception:
-            return str(r)
-###########################################################
-# PROVIDER: LOCAL TRANSFORMERS (CACHED)
-###########################################################
-try:
-    from transformers import AutoTokenizer, AutoModelForCausalLM
-    import torch
-    TRANSFORMERS_AVAILABLE = True
-except Exception:
-    TRANSFORMERS_AVAILABLE = False
-class LocalLLMProvider(BaseProvider):
-    """
-    Local LLM provider with caching - MODEL LOADS ONCE
-    """
-    def __init__(self, model_name: str = "meta-llama/Llama-3.2-3B-Instruct"):
-        print(f"[LocalLLM] Initializing with model: {model_name}")
-        self.model_name = os.getenv("LOCAL_MODEL", model_name)
-        self.model = None
-        self.tokenizer = None
-        self.device = None
-        self._initialize_model()
-    def _initialize_model(self):
-        """Initialize model ONCE - this is called only during __init__"""
-        try:
-            from transformers import AutoTokenizer, AutoModelForCausalLM
-            import torch
-            print(f"[LocalLLM] Loading model {self.model_name}...")
-            self.device = "cuda" if torch.cuda.is_available() else "cpu"
-            print(f"[LocalLLM] Using device: {self.device}")
-            self.tokenizer = AutoTokenizer.from_pretrained(self.model_name, trust_remote_code=True)
-            if self.tokenizer.pad_token is None:
-                self.tokenizer.pad_token = self.tokenizer.eos_token
-            self.model = AutoModelForCausalLM.from_pretrained(
-                self.model_name,
-                device_map="auto" if self.device == "cuda" else None,
-                torch_dtype=torch.float16 if self.device == "cuda" else torch.float32,
-                trust_remote_code=True
-            )
-            print(f"[LocalLLM] ✅ Model loaded successfully!")
-        except Exception as e:
-            print(f"[LocalLLM] ❌ Failed to load model: {e}")
-            self.model = None
-            traceback.print_exc()
-    def chat(self, model, messages, **kwargs):
-        """
-        Generate response - MODEL ALREADY LOADED
-        """
-        if self.model is None or self.tokenizer is None:
-            return "Error: Model or tokenizer not loaded."
-        # Extract text from messages
-        text = messages[-1]["content"] if isinstance(messages[-1], dict) and "content" in messages[-1] else str(messages[-1])
-        max_tokens = kwargs.get("max_tokens", 128)
-        temperature = kwargs.get("temperature", 0.7)
-        import torch
-        # Tokenize
-        inputs = self.tokenizer(
-            text,
-            return_tensors="pt",
-            padding=True,
-            truncation=True,
-            max_length=2048
-        ).to(self.device)
-        # Generate (model is already loaded, just inference)
-        with torch.no_grad():
-            outputs = self.model.generate(
-                **inputs,
-                max_new_tokens=max_tokens,
-                temperature=temperature,
-                top_p=0.9,
-                do_sample=temperature > 0,
-                pad_token_id=self.tokenizer.eos_token_id if self.tokenizer and hasattr(self.tokenizer, 'eos_token_id') else None,
-                eos_token_id=self.tokenizer.eos_token_id if self.tokenizer and hasattr(self.tokenizer, 'eos_token_id') else None
-            )
-        # Decode
-        response = self.tokenizer.decode(
-            outputs[0][inputs['input_ids'].shape[1]:],
-            skip_special_tokens=True
-        ).strip() if self.tokenizer else "Error: Tokenizer not loaded."
-        return response
-###########################################################
-# PROVIDER CACHE - CRITICAL FIX
-###########################################################
-class ProviderCache:
-    """
-    Cache provider instances to avoid reloading models
-    This is the KEY fix - providers are created ONCE and reused
-    """
-    _cache = {}
-    @classmethod
-    def get_provider(cls, provider_name: str) -> BaseProvider:
-        """Get or create cached provider instance"""
-        if provider_name not in cls._cache:
-            print(f"[ProviderCache] Creating new instance of {provider_name}")
-            provider_class = ProviderFactory.providers[provider_name]
-            cls._cache[provider_name] = provider_class()
-        else:
-            print(f"[ProviderCache] Using cached instance of {provider_name}")
-        return cls._cache[provider_name]
-    @classmethod
-    def clear_cache(cls):
-        """Clear all cached providers (useful for debugging)"""
-        cls._cache.clear()
-        print("[ProviderCache] Cache cleared")
-###########################################################
-# PROVIDER FACTORY (IMPROVED WITH CACHING)
-###########################################################
-class ProviderFactory:
-    providers = {
-        "openai": OpenAIProvider,
-        "anthropic": AnthropicProvider,
-        "huggingface": HuggingFaceProvider,
-        "nebius": NebiusProvider,
-        "sambanova": SambaNovaProvider,
-        "local": LocalLLMProvider,
-    }
-    @staticmethod
-    def get(provider_name: str) -> BaseProvider:
-        """
-        Get provider instance - NOW USES CACHING
-        This prevents reloading the model on every call
-        """
-        provider_name = provider_name.lower()
-        if provider_name not in ProviderFactory.providers:
-            raise ValueError(f"Unknown provider: {provider_name}")
-        # USE CACHE instead of creating new instance every time
-        return ProviderCache.get_provider(provider_name)
-###########################################################
-# MAIN ENGINE WITH FALLBACK + OPENAI-STYLE API
-###########################################################
-class LLMEngine:
-    def __init__(self):
-        self.credits = load_credits()
-    def deduct(self, provider, amount):
-        if provider not in self.credits:
-            self.credits[provider] = 0
-        self.credits[provider] = max(0, self.credits[provider] - amount)
-        save_credits(self.credits)
-    def chat(self, provider: str, model: str, messages: List[Dict], fallback: bool = True, **kwargs):
-        """
-        Main chat method - providers are now cached
-        """
-        try:
-            p = ProviderFactory.get(provider)  # This now returns cached instance
-            result = p.chat(model=model, messages=messages, **kwargs)
-            try:
-                self.deduct(provider, 0.001)
-            except Exception:
-                pass
-            return result
-        except Exception as exc:
-            print(f"⚠ Provider '{provider}' failed → fallback activated: {exc}")
-            traceback.print_exc()
-            if fallback:
-                try:
-                    lp = ProviderFactory.get("local")  # Gets cached local provider
-                    return lp.chat(model="local", messages=messages, **kwargs)
-                except Exception as le:
-                    print("Fallback to local provider failed:", le)
-                    traceback.print_exc()
-                    raise
-            raise
-###########################################################
-# EXAMPLES + SIMPLE TESTS
-###########################################################
-def main():
-    engine = LLMEngine()
-    print("=== Testing Provider Caching ===")
-    print("\nFirst call (should load model):")
-    result1 = engine.chat(
-        provider="local",
-        model="meta-llama/Llama-3.2-3B-Instruct",
-        messages=[{"role": "user", "content": "Say hello"}]
-    )
-    print(f"Response: {result1[:100]}")
-    print("\nSecond call (should use cached model - NO RELOAD):")
-    result2 = engine.chat(
-        provider="local",
-        model="meta-llama/Llama-3.2-3B-Instruct",
-        messages=[{"role": "user", "content": "Say goodbye"}]
-    )
-    print(f"Response: {result2[:100]}")
-    print("\n✅ If you didn't see 'Loading model' twice, caching works!")
-if __name__ == "__main__":
-    import argparse
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--test", action="store_true", help="run examples and simple tests")
-    args = parser.parse_args()
-    if args.test:
-        main()
-    else:
         main()

+# llmEngine.py
+# IMPROVED: Multi-provider LLM engine with CACHING to prevent reloading
+# This version fixes the critical issue where LocalLLM was reloading on every call
+# Features:
+# - Provider caching (models stay in memory)
+# - Unified OpenAI-style chat() API
+# - Providers: OpenAI, Anthropic, HuggingFace, Nebius, SambaNova, Local (transformers)
+# - Automatic fallback to local model on errors
+# - JSON-based credit tracking
+from dotenv import load_dotenv
+import json
+import os
+import traceback
+from typing import List, Dict, Optional
+load_dotenv()
+hf_token = os.getenv('HUGGINGFACE_TOKEN')
+if hf_token:
+    from huggingface_hub import login
+    try:
+        login(token=hf_token)
+        # logger.info("[HF] Logged in")
+    except Exception as e:
+        # logger.warning(f"[HF] Login failed: {e}")
+        pass
+###########################################################
+# SIMPLE JSON CREDIT STORE
+###########################################################
+CREDITS_DB_PATH = "credits.json"
+DEFAULT_CREDITS = {
+    "openai": 25,
+    "anthropic": 25000,
+    "huggingface": 25,
+    "nebius": 50,
+    "modal": 250,
+    "blaxel": 250,
+    "elevenlabs": 44,
+    "sambanova": 25,
+    "local": 9999999
+}
+def load_credits():
+    if not os.path.exists(CREDITS_DB_PATH):
+        with open(CREDITS_DB_PATH, "w") as f:
+            json.dump(DEFAULT_CREDITS, f)
+        return DEFAULT_CREDITS.copy()
+    with open(CREDITS_DB_PATH, "r") as f:
+        return json.load(f)
+def save_credits(data):
+    with open(CREDITS_DB_PATH, "w") as f:
+        json.dump(data, f, indent=2)
+###########################################################
+# BASE PROVIDER INTERFACE
+###########################################################
+class BaseProvider:
+    def chat(self, model: str, messages: List[Dict], **kwargs) -> str:
+        raise NotImplementedError
+###########################################################
+# PROVIDER: OPENAI
+###########################################################
+try:
+    from openai import OpenAI
+except Exception:
+    OpenAI = None
+class OpenAIProvider(BaseProvider):
+    def __init__(self):
+        if OpenAI is None:
+            raise RuntimeError("openai library not installed or not importable")
+        self.client = OpenAI(api_key=os.getenv("OPENAI_API_KEY", ""))
+    def chat(self, model, messages, **kwargs):
+        try:
+            from openai.types.chat import (
+                ChatCompletionUserMessageParam,
+                ChatCompletionAssistantMessageParam,
+                ChatCompletionSystemMessageParam,
+            )
+        except Exception:
+            ChatCompletionUserMessageParam = dict
+            ChatCompletionAssistantMessageParam = dict
+            ChatCompletionSystemMessageParam = dict
+        if not isinstance(messages, list) or not all(isinstance(m, dict) for m in messages):
+            raise TypeError("messages must be a list of dicts with 'role' and 'content'")
+        safe_messages = []
+        for m in messages:
+            role = str(m.get("role", "user"))
+            content = str(m.get("content", ""))
+            if role == "user":
+                safe_messages.append(ChatCompletionUserMessageParam(role="user", content=content))
+            elif role == "assistant":
+                safe_messages.append(ChatCompletionAssistantMessageParam(role="assistant", content=content))
+            elif role == "system":
+                safe_messages.append(ChatCompletionSystemMessageParam(role="system", content=content))
+            else:
+                safe_messages.append({"role": role, "content": content})
+        response = self.client.chat.completions.create(model=model, messages=safe_messages)
+        try:
+            return response.choices[0].message.content
+        except Exception:
+            return str(response)
+###########################################################
+# PROVIDER: ANTHROPIC
+###########################################################
+try:
+    from anthropic import Anthropic
+except Exception:
+    Anthropic = None
+class AnthropicProvider(BaseProvider):
+    def __init__(self):
+        if Anthropic is None:
+            raise RuntimeError("anthropic library not installed or not importable")
+        self.client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY", ""))
+    def chat(self, model, messages, **kwargs):
+        if not isinstance(messages, list) or not all(isinstance(m, dict) for m in messages):
+            raise TypeError("messages must be a list of dicts with 'role' and 'content'")
+        user_text = "\n".join([m.get("content", "") for m in messages if m.get("role") == "user"])
+        reply = self.client.messages.create(
+            model=model,
+            max_tokens=300,
+            messages=[{"role": "user", "content": user_text}]
+        )
+        if hasattr(reply, "content"):
+            content = reply.content
+            if isinstance(content, list) and content and len(content) > 0:
+                block = content[0]
+                if hasattr(block, "text"):
+                    return getattr(block, "text", str(block))
+                elif isinstance(block, dict) and "text" in block:
+                    return block["text"]
+                else:
+                    return str(block)
+            elif isinstance(content, str):
+                return content
+        if isinstance(reply, dict) and "completion" in reply:
+            return reply["completion"]
+        return str(reply)
+###########################################################
+# PROVIDER: HUGGINGFACE INFERENCE API
+###########################################################
+import requests
+class HuggingFaceProvider(BaseProvider):
+    def __init__(self):
+        self.key = os.getenv("HF_API_KEY", "")
+    def chat(self, model, messages, **kwargs):
+        if not messages:
+            raise ValueError("messages is empty")
+        text = messages[-1].get("content", "")
+        r = requests.post(
+            f"https://api-inference.huggingface.co/models/{model}",
+            headers={"Authorization": f"Bearer {self.key}"} if self.key else {},
+            json={"inputs": text},
+            timeout=60
+        )
+        r.raise_for_status()
+        out = r.json()
+        if isinstance(out, list) and out and isinstance(out[0], dict):
+            return out[0].get("generated_text") or str(out[0])
+        return str(out)
+###########################################################
+# PROVIDER: NEBIUS (OpenAI-compatible)
+###########################################################
+class NebiusProvider(BaseProvider):
+    def __init__(self):
+        if OpenAI is None:
+            raise RuntimeError("openai library not installed; Nebius wrapper expects OpenAI-compatible client")
+        self.client = OpenAI(
+            api_key=os.getenv("NEBIUS_API_KEY", ""),
+            base_url=os.getenv("NEBIUS_BASE_URL", "https://api.studio.nebius.ai/v1")
+        )
+    def chat(self, model, messages, **kwargs):
+        try:
+            from openai.types.chat import (
+                ChatCompletionUserMessageParam,
+                ChatCompletionAssistantMessageParam,
+                ChatCompletionSystemMessageParam,
+            )
+        except Exception:
+            ChatCompletionUserMessageParam = dict
+            ChatCompletionAssistantMessageParam = dict
+            ChatCompletionSystemMessageParam = dict
+        safe_messages = []
+        for m in messages:
+            role = str(m.get("role", "user"))
+            content = str(m.get("content", ""))
+            if role == "user":
+                safe_messages.append(ChatCompletionUserMessageParam(role="user", content=content))
+            elif role == "assistant":
+                safe_messages.append(ChatCompletionAssistantMessageParam(role="assistant", content=content))
+            elif role == "system":
+                safe_messages.append(ChatCompletionSystemMessageParam(role="system", content=content))
+            else:
+                safe_messages.append({"role": role, "content": content})
+        r = self.client.chat.completions.create(model=model, messages=safe_messages)
+        try:
+            return r.choices[0].message.content
+        except Exception:
+            return str(r)
+###########################################################
+# PROVIDER: SAMBANOVA (OpenAI-compatible)
+###########################################################
+class SambaNovaProvider(BaseProvider):
+    def __init__(self):
+        if OpenAI is None:
+            raise RuntimeError("openai library not installed; SambaNova wrapper expects OpenAI-compatible client")
+        self.client = OpenAI(
+            api_key=os.getenv("SAMBANOVA_API_KEY", ""),
+            base_url=os.getenv("SAMBANOVA_BASE_URL", "https://api.sambanova.ai/v1")
+        )
+    def chat(self, model, messages, **kwargs):
+        try:
+            from openai.types.chat import (
+                ChatCompletionUserMessageParam,
+                ChatCompletionAssistantMessageParam,
+                ChatCompletionSystemMessageParam,
+            )
+        except Exception:
+            ChatCompletionUserMessageParam = dict
+            ChatCompletionAssistantMessageParam = dict
+            ChatCompletionSystemMessageParam = dict
+        safe_messages = []
+        for m in messages:
+            role = str(m.get("role", "user"))
+            content = str(m.get("content", ""))
+            if role == "user":
+                safe_messages.append(ChatCompletionUserMessageParam(role="user", content=content))
+            elif role == "assistant":
+                safe_messages.append(ChatCompletionAssistantMessageParam(role="assistant", content=content))
+            elif role == "system":
+                safe_messages.append(ChatCompletionSystemMessageParam(role="system", content=content))
+            else:
+                safe_messages.append({"role": role, "content": content})
+        r = self.client.chat.completions.create(model=model, messages=safe_messages)
+        try:
+            return r.choices[0].message.content
+        except Exception:
+            return str(r)
+###########################################################
+# PROVIDER: LOCAL TRANSFORMERS (CACHED)
+###########################################################
+try:
+    from transformers import AutoTokenizer, AutoModelForCausalLM
+    import torch
+    TRANSFORMERS_AVAILABLE = True
+except Exception:
+    TRANSFORMERS_AVAILABLE = False
+class LocalLLMProvider(BaseProvider):
+    """
+    Local LLM provider with caching - MODEL LOADS ONCE
+    """
+    def __init__(self, model_name: str = "meta-llama/Llama-3.2-3B-Instruct"):
+        print(f"[LocalLLM] Initializing with model: {model_name}")
+        self.model_name = os.getenv("LOCAL_MODEL", model_name)
+        self.model = None
+        self.tokenizer = None
+        self.device = None
+        self._initialize_model()
+    def _initialize_model(self):
+        """Initialize model ONCE - this is called only during __init__"""
+        try:
+            from transformers import AutoTokenizer, AutoModelForCausalLM
+            import torch
+            print(f"[LocalLLM] Loading model {self.model_name}...")
+            self.device = "cuda" if torch.cuda.is_available() else "cpu"
+            print(f"[LocalLLM] Using device: {self.device}")
+            self.tokenizer = AutoTokenizer.from_pretrained(self.model_name, trust_remote_code=True)
+            if self.tokenizer.pad_token is None:
+                self.tokenizer.pad_token = self.tokenizer.eos_token
+            self.model = AutoModelForCausalLM.from_pretrained(
+                self.model_name,
+                device_map="auto" if self.device == "cuda" else None,
+                torch_dtype=torch.float16 if self.device == "cuda" else torch.float32,
+                trust_remote_code=True
+            )
+            print(f"[LocalLLM] ✅ Model loaded successfully!")
+        except Exception as e:
+            print(f"[LocalLLM] ❌ Failed to load model: {e}")
+            self.model = None
+            traceback.print_exc()
+    def chat(self, model, messages, **kwargs):
+        """
+        Generate response - MODEL ALREADY LOADED
+        """
+        if self.model is None or self.tokenizer is None:
+            return "Error: Model or tokenizer not loaded."
+        # Extract text from messages
+        text = messages[-1]["content"] if isinstance(messages[-1], dict) and "content" in messages[-1] else str(messages[-1])
+        max_tokens = kwargs.get("max_tokens", 128)
+        temperature = kwargs.get("temperature", 0.7)
+        import torch
+        # Tokenize
+        inputs = self.tokenizer(
+            text,
+            return_tensors="pt",
+            padding=True,
+            truncation=True,
+            max_length=2048
+        ).to(self.device)
+        # Generate (model is already loaded, just inference)
+        with torch.no_grad():
+            outputs = self.model.generate(
+                **inputs,
+                max_new_tokens=max_tokens,
+                temperature=temperature,
+                top_p=0.9,
+                do_sample=temperature > 0,
+                pad_token_id=self.tokenizer.eos_token_id if self.tokenizer and hasattr(self.tokenizer, 'eos_token_id') else None,
+                eos_token_id=self.tokenizer.eos_token_id if self.tokenizer and hasattr(self.tokenizer, 'eos_token_id') else None
+            )
+        # Decode
+        response = self.tokenizer.decode(
+            outputs[0][inputs['input_ids'].shape[1]:],
+            skip_special_tokens=True
+        ).strip() if self.tokenizer else "Error: Tokenizer not loaded."
+        return response
+###########################################################
+# PROVIDER CACHE - CRITICAL FIX
+###########################################################
+class ProviderCache:
+    """
+    Cache provider instances to avoid reloading models
+    This is the KEY fix - providers are created ONCE and reused
+    """
+    _cache = {}
+    @classmethod
+    def get_provider(cls, provider_name: str) -> BaseProvider:
+        """Get or create cached provider instance"""
+        if provider_name not in cls._cache:
+            print(f"[ProviderCache] Creating new instance of {provider_name}")
+            provider_class = ProviderFactory.providers[provider_name]
+            cls._cache[provider_name] = provider_class()
+        else:
+            print(f"[ProviderCache] Using cached instance of {provider_name}")
+        return cls._cache[provider_name]
+    @classmethod
+    def clear_cache(cls):
+        """Clear all cached providers (useful for debugging)"""
+        cls._cache.clear()
+        print("[ProviderCache] Cache cleared")
+###########################################################
+# PROVIDER FACTORY (IMPROVED WITH CACHING)
+###########################################################
+class ProviderFactory:
+    providers = {
+        "openai": OpenAIProvider,
+        "anthropic": AnthropicProvider,
+        "huggingface": HuggingFaceProvider,
+        "nebius": NebiusProvider,
+        "sambanova": SambaNovaProvider,
+        "local": LocalLLMProvider,
+    }
+    @staticmethod
+    def get(provider_name: str) -> BaseProvider:
+        """
+        Get provider instance - NOW USES CACHING
+        This prevents reloading the model on every call
+        """
+        provider_name = provider_name.lower()
+        if provider_name not in ProviderFactory.providers:
+            raise ValueError(f"Unknown provider: {provider_name}")
+        # USE CACHE instead of creating new instance every time
+        return ProviderCache.get_provider(provider_name)
+###########################################################
+# MAIN ENGINE WITH FALLBACK + OPENAI-STYLE API
+###########################################################
+class LLMEngine:
+    def __init__(self):
+        self.credits = load_credits()
+    def deduct(self, provider, amount):
+        if provider not in self.credits:
+            self.credits[provider] = 0
+        self.credits[provider] = max(0, self.credits[provider] - amount)
+        save_credits(self.credits)
+    def chat(self, provider: str, model: str, messages: List[Dict], fallback: bool = True, **kwargs):
+        """
+        Main chat method - providers are now cached
+        """
+        try:
+            p = ProviderFactory.get(provider)  # This now returns cached instance
+            result = p.chat(model=model, messages=messages, **kwargs)
+            try:
+                self.deduct(provider, 0.001)
+            except Exception:
+                pass
+            return result
+        except Exception as exc:
+            print(f"⚠ Provider '{provider}' failed → fallback activated: {exc}")
+            traceback.print_exc()
+            if fallback:
+                try:
+                    lp = ProviderFactory.get("local")  # Gets cached local provider
+                    return lp.chat(model="local", messages=messages, **kwargs)
+                except Exception as le:
+                    print("Fallback to local provider failed:", le)
+                    traceback.print_exc()
+                    raise
+            raise
+###########################################################
+# EXAMPLES + SIMPLE TESTS
+###########################################################
+def main():
+    engine = LLMEngine()
+    print("=== Testing Provider Caching ===")
+    print("\nFirst call (should load model):")
+    result1 = engine.chat(
+        provider="local",
+        model="meta-llama/Llama-3.2-3B-Instruct",
+        messages=[{"role": "user", "content": "Say hello"}]
+    )
+    print(f"Response: {result1[:100]}")
+    print("\nSecond call (should use cached model - NO RELOAD):")
+    result2 = engine.chat(
+        provider="local",
+        model="meta-llama/Llama-3.2-3B-Instruct",
+        messages=[{"role": "user", "content": "Say goodbye"}]
+    )
+    print(f"Response: {result2[:100]}")
+    print("\n✅ If you didn't see 'Loading model' twice, caching works!")
+if __name__ == "__main__":
+    import argparse
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--test", action="store_true", help="run examples and simple tests")
+    args = parser.parse_args()
+    if args.test:
+        main()
+    else:
         main()