dfdfdfd

Sleeping

App Files Files Community

Yjhhh commited on 23 days ago

Commit

3e1e0dc

•

1 Parent(s): c0c79d0

Update app.py

Browse files

Files changed (1) hide show

app.py +133 -145

app.py CHANGED Viewed

@@ -1,20 +1,15 @@
-from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
-from langchain import LLMChain
-from langchain.llms import LlamaCpp
-from concurrent.futures import ThreadPoolExecutor, as_completed
-from tqdm import tqdm
 import uvicorn
-from dotenv import load_dotenv
-import io
 import requests
 import asyncio
 import time
-# Cargar variables de entorno
-load_dotenv()
-# Inicializar aplicación FastAPI
 app = FastAPI()
 # Configuración de los modelos
@@ -32,153 +27,146 @@ model_configs = [
     {"repo_id": "Ffftdtd5dtft/gemma-2-2b-it-Q2_K-GGUF", "filename": "gemma-2-2b-it-q2_k.gguf", "name": "Gemma 2-2B IT"},
     {"repo_id": "Ffftdtd5dtft/sarvam-2b-v0.5-Q2_K-GGUF", "filename": "sarvam-2b-v0.5-q2_k.gguf", "name": "Sarvam 2B v0.5"},
     {"repo_id": "Ffftdtd5dtft/WizardLM-13B-Uncensored-Q2_K-GGUF", "filename": "wizardlm-13b-uncensored-q2_k.gguf", "name": "WizardLM 13B Uncensored"},
     {"repo_id": "Ffftdtd5dtft/WizardLM-7B-Uncensored-Q2_K-GGUF", "filename": "wizardlm-7b-uncensored-q2_k.gguf", "name": "WizardLM 7B Uncensored"},
     {"repo_id": "Ffftdtd5dtft/Qwen2-Math-7B-Instruct-Q2_K-GGUF", "filename": "qwen2-math-7b-instruct-q2_k.gguf", "name": "Qwen2 Math 7B Instruct"}
 ]
-# Clase para gestionar modelos
 class ModelManager:
     def __init__(self):
-        self.models = []
-        self.configs = {}
     async def download_model_to_memory(self, model_config):
-        print(f"Descargando modelo: {model_config['name']}...")
         url = f"https://huggingface.co/{model_config['repo_id']}/resolve/main/{model_config['filename']}"
-        response = requests.get(url)
-        if response.status_code == 200:
-            model_file = io.BytesIO(response.content)
-            return model_file
-        else:
-            raise Exception(f"Error al descargar el modelo: {response.status_code}")
-    async def load_model(self, model_config):
         try:
             start_time = time.time()
-            model_file = await self.download_model_to_memory(model_config)
-            print(f"Cargando modelo: {model_config['name']}...")
-            # Simulación de división de carga si el tiempo excede 1 segundo
-            async def load_part(part):
-                # Esta función simula la carga de una parte del modelo
-                await asyncio.sleep(0.1)  # Simula un pequeño retraso en la carga
-            # Se divide la carga en partes si excede 1 segundo
-            if time.time() - start_time > 1:
-                print(f"Modelo {model_config['name']} tardó más de 1 segundo en cargarse, dividiendo la carga...")
-                await asyncio.gather(*(load_part(part) for part in range(5)))  # Simulación de división en 5 partes
-            else:
-                model = await asyncio.get_event_loop().run_in_executor(
-                    None,
-                    lambda: Llama.from_pretrained(model_file)
-                )
-            model = await asyncio.get_event_loop().run_in_executor(
-                None,
-                lambda: Llama.from_pretrained(model_file)
-            )
-            tokenizer = model.tokenizer
-            # Almacenar tokens y tokenizer en la RAM
-            model_data = {
-                'model': model,
-                'tokenizer': tokenizer,
-                'pad_token': tokenizer.pad_token,
-                'pad_token_id': tokenizer.pad_token_id,
-                'eos_token': tokenizer.eos_token,
-                'eos_token_id': tokenizer.eos_token_id,
-                'bos_token': tokenizer.bos_token,
-                'bos_token_id': tokenizer.bos_token_id,
-                'unk_token': tokenizer.unk_token,
-                'unk_token_id': tokenizer.unk_token_id
-            }
-            self.models.append({"model_data": model_data, "name": model_config['name']})
-        except Exception as e:
-            print(f"Error al cargar el modelo: {e}")
-    async def load_all_models(self):
-        print("Iniciando carga de modelos...")
-        start_time = time.time()
-        tasks = [self.load_model(config) for config in model_configs]
-        await asyncio.gather(*tasks)
-        end_time = time.time()
-        print(f"Todos los modelos han sido cargados en {end_time - start_time:.2f} segundos.")
-# Instanciar ModelManager y cargar modelos
-model_manager = ModelManager()
-@app.on_event("startup")
-async def startup_event():
-    await model_manager.load_all_models()
-# Modelo global para la solicitud de chat
-class ChatRequest(BaseModel):
-    message: str
-    top_k: int = 50
-    top_p: float = 0.95
-    temperature: float = 0.7
-# Límite de tokens para respuestas
-TOKEN_LIMIT = 1000  # Define el límite de tokens permitido por respuesta
-# Función para generar respuestas de chat
-async def generate_chat_response(request, model_data):
     try:
-        user_input = normalize_input(request.message)
-        llm = model_data['model_data']['model']
-        tokenizer = model_data['model_data']['tokenizer']
-        # Generar respuesta de manera rápida
-        response = await asyncio.get_event_loop().run_in_executor(
-            None,
-            lambda: llm(user_input, max_length=TOKEN_LIMIT, do_sample=True, top_k=request.top_k, top_p=request.top_p, temperature=request.temperature)
-        )
-        generated_text = response['generated_text']
-        # Dividir respuesta larga
-        split_response = split_long_response(generated_text)
-        return {"response": split_response, "literal": user_input, "model_name": model_data['name']}
     except Exception as e:
-        print(f"Error al generar la respuesta: {e}")
-        return {"response": "Error al generar la respuesta", "literal": user_input, "model_name": model_data['name']}
-def split_long_response(response):
-    """ Divide la respuesta en partes más pequeñas si excede el límite de tokens. """
-    parts = []
-    while len(response) > TOKEN_LIMIT:
-        part = response[:TOKEN_LIMIT]
-        response = response[TOKEN_LIMIT:]
-        parts.append(part.strip())
-    if response:
-        parts.append(response.strip())
-    return '\n'.join(parts)
-def remove_duplicates(text):
-    """ Elimina duplicados en el texto. """
-    lines = text.splitlines()
-    unique_lines = list(dict.fromkeys(lines))
-    return '\n'.join(unique_lines)
-def remove_repetitive_responses(responses):
-    unique_responses = []
-    seen_responses = set()
-    for response in responses:
-        normalized_response = remove_duplicates(response['response'])
-        if normalized_response not in seen_responses:
-            seen_responses.add(normalized_response)
-            response['response'] = normalized_response
-            unique_responses.append(response)
-    return unique_responses
-@app.post("/chat")
-async def chat(request: ChatRequest):
-    results = []
-    for model_data in model_manager.models:
-        response = await generate_chat_response(request, model_data)
-        results.append(response)
-    unique_results = remove_repetitive_responses(results)
-    return {"results": unique_results}
-# Ejecutar la aplicación FastAPI
-if __name__ == "__main__":
     uvicorn.run(app, host="0.0.0.0", port=7860)

+from fastapi import FastAPI, HTTPException, Request
 from pydantic import BaseModel
 import uvicorn
 import requests
 import asyncio
+import os
+import io
 import time
+from typing import List, Dict, Any
+from llama_cpp import Llama  # Ajusta según la biblioteca que estés utilizando
+from tqdm import tqdm
 app = FastAPI()
 # Configuración de los modelos
     {"repo_id": "Ffftdtd5dtft/gemma-2-2b-it-Q2_K-GGUF", "filename": "gemma-2-2b-it-q2_k.gguf", "name": "Gemma 2-2B IT"},
     {"repo_id": "Ffftdtd5dtft/sarvam-2b-v0.5-Q2_K-GGUF", "filename": "sarvam-2b-v0.5-q2_k.gguf", "name": "Sarvam 2B v0.5"},
     {"repo_id": "Ffftdtd5dtft/WizardLM-13B-Uncensored-Q2_K-GGUF", "filename": "wizardlm-13b-uncensored-q2_k.gguf", "name": "WizardLM 13B Uncensored"},
+    {"repo_id": "Ffftdtd5dtft/Qwen2-Math-72B-Instruct-Q2_K-GGUF", "filename": "qwen2-math-72b-instruct-q2_k.gguf", "name": "Qwen2 Math 72B Instruct"},
     {"repo_id": "Ffftdtd5dtft/WizardLM-7B-Uncensored-Q2_K-GGUF", "filename": "wizardlm-7b-uncensored-q2_k.gguf", "name": "WizardLM 7B Uncensored"},
     {"repo_id": "Ffftdtd5dtft/Qwen2-Math-7B-Instruct-Q2_K-GGUF", "filename": "qwen2-math-7b-instruct-q2_k.gguf", "name": "Qwen2 Math 7B Instruct"}
 ]
 class ModelManager:
     def __init__(self):
+        self.models = {}
+        self.model_parts = {}
+        self.load_lock = asyncio.Lock()
+        self.index_lock = asyncio.Lock()
+        self.part_size = 1024 * 1024  # Tamaño de cada parte en bytes (1 MB)
     async def download_model_to_memory(self, model_config):
         url = f"https://huggingface.co/{model_config['repo_id']}/resolve/main/{model_config['filename']}"
+        print(f"Descargando modelo desde {url}")
         try:
             start_time = time.time()
+            response = requests.get(url)
+            response.raise_for_status()
+            end_time = time.time()
+            download_duration = end_time - start_time
+            print(f"Descarga completa para {model_config['name']} en {download_duration:.2f} segundos")
+            return io.BytesIO(response.content)
+        except requests.RequestException as e:
+            raise HTTPException(status_code=500, detail=f"Error al descargar el modelo: {e}")
+    async def save_model_to_temp_file(self, model_config):
+        model_file = await self.download_model_to_memory(model_config)
+        temp_filename = f"/tmp/{model_config['filename']}"
+        print(f"Guardando el modelo en {temp_filename}")
+        with open(temp_filename, 'wb') as f:
+            f.write(model_file.getvalue())
+        print(f"Modelo guardado en {temp_filename}")
+        return temp_filename
+    async def load_model(self, model_config):
+        async with self.load_lock:
+            try:
+                temp_filename = await self.save_model_to_temp_file(model_config)
+                start_time = time.time()
+                print(f"Cargando modelo desde {temp_filename}")
+                llama = Llama(temp_filename)  # Ajusta según la biblioteca y clase correctas
+                end_time = time.time()
+                load_duration = end_time - start_time
+                if load_duration > 0:
+                    print(f"Modelo {model_config['name']} tardó {load_duration:.2f} segundos en cargar, dividiendo automáticamente")
+                    await self.handle_large_model(temp_filename, model_config)
+                else:
+                    print(f"Modelo {model_config['name']} cargado correctamente en {load_duration:.2f} segundos")
+                tokenizer = llama.tokenizer
+                model_data = {
+                    'model': llama,
+                    'tokenizer': tokenizer,
+                    'pad_token': tokenizer.pad_token,
+                    'pad_token_id': tokenizer.pad_token_id,
+                    'eos_token': tokenizer.eos_token,
+                    'eos_token_id': tokenizer.eos_token_id,
+                    'bos_token': tokenizer.bos_token,
+                    'bos_token_id': tokenizer.bos_token_id,
+                    'unk_token': tokenizer.unk_token,
+                    'unk_token_id': tokenizer.unk_token_id
+                }
+                self.models[model_config['name']] = model_data
+            except Exception as e:
+                print(f"Error al cargar el modelo: {e}")
+    async def handle_large_model(self, model_filename, model_config):
+        total_size = os.path.getsize(model_filename)
+        num_parts = (total_size + self.part_size - 1) // self.part_size
+        print(f"Modelo {model_config['name']} dividido en {num_parts} partes")
+        with open(model_filename, 'rb') as file:
+            for i in tqdm(range(num_parts), desc=f"Indexando {model_config['name']}"):
+                start = i * self.part_size
+                end = min(start + self.part_size, total_size)
+                file.seek(start)
+                model_part = io.BytesIO(file.read(end - start))
+                await self.index_model_part(model_part, i)
+    async def index_model_part(self, model_part, part_index):
+        async with self.index_lock:
+            part_name = f"part_{part_index}"
+            print(f"Indexando parte {part_index}")
+            llama_part = Llama(model_part)
+            self.model_parts[part_name] = llama_part
+            print(f"Parte {part_index} indexada")
+    async def generate_response(self, user_input):
+        results = []
+        for model_name, model_data in self.models.items():
+            print(f"Generando respuesta con el modelo {model_name}")
+            try:
+                tokenizer = model_data['tokenizer']
+                input_ids = tokenizer(user_input, return_tensors="pt").input_ids
+                outputs = model_data['model'].generate(input_ids)
+                generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+                # Dividir el texto generado en partes
+                parts = []
+                while len(generated_text) > 1000:
+                    part = generated_text[:1000]
+                    parts.append(part)
+                    generated_text = generated_text[1000:]
+                parts.append(generated_text)
+                results.append({
+                    'model_name': model_name,
+                    'generated_text_parts': parts
+                })
+            except Exception as e:
+                print(f"Error al generar respuesta con el modelo {model_name}: {e}")
+                results.append({'model_name': model_name, 'error': str(e)})
+        return results
+@app.post("/generate/")
+async def generate(request: Request):
+    data = await request.json()
+    user_input = data.get('input', '')
+    if not user_input:
+        raise HTTPException(status_code=400, detail="Se requiere una entrada de usuario.")
     try:
+        model_manager = ModelManager()
+        tasks = [model_manager.load_model(config) for config in model_configs]
+        await asyncio.gather(*tasks)
+        responses = await model_manager.generate_response(user_input)
+        return {"responses": responses}
     except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+def start_uvicorn():
     uvicorn.run(app, host="0.0.0.0", port=7860)
+if __name__ == "__main__":
+    loop = asyncio.get_event_loop()
+    model_manager = ModelManager()
+    tasks = [model_manager.load_model(config) for config in model_configs]
+    loop.run_until_complete(asyncio.gather(*tasks))
+    start_uvicorn()