saiga-api-cuda-v2-b13

Paused

App Files Files Community

muryshev commited on Dec 9, 2023

Commit

018b1f6

•

1 Parent(s): d416171

added envs

Browse files

Files changed (1) hide show

app.py +16 -14

app.py CHANGED Viewed

@@ -17,12 +17,17 @@ _lock = threading.Lock()
 SYSTEM_PROMPT = os.environ.get('SYSTEM_PROMPT') or "Ты — русскоязычный автоматический ассистент. Ты максимально точно и отвечаешь на запросы пользователя, используя русский язык."
 CONTEXT_SIZE = os.environ.get('CONTEXT_SIZE') or 500
-HF_CACHE_DIR = os.environ.get('HF_CACHE_DIR') or '/root/.cache'
 USE_SYSTEM_PROMPT = os.environ.get('USE_SYSTEM_PROMPT') or False
 ENABLE_GPU = os.environ.get('ENABLE_GPU') or False
 GPU_LAYERS = os.environ.get('GPU_LAYERS') or 0
 N_GQA = os.environ.get('N_GQA') or None #must be set to 8 for 70b models
 CHAT_FORMAT = os.environ.get('CHAT_FORMAT') or 'llama-2'
 # Create a lock object
 lock = threading.Lock()
@@ -39,16 +44,14 @@ last_request_time = datetime.now()
 # Initialize the model when the application starts
 #model_path = "../models/model-q4_K.gguf"  # Replace with the actual model path
-#model_name = "model/ggml-model-q4_K.gguf"
-#repo_name = "IlyaGusev/saiga2_13b_gguf"
-#model_name = "model-q4_K.gguf"
 #epo_name = "IlyaGusev/saiga2_70b_gguf"
-#model_name = "ggml-model-q4_1.gguf"
-repo_name = "IlyaGusev/saiga2_7b_gguf"
-model_name = "model-q4_K.gguf"
 local_dir = '.'
 if os.path.isdir('/data'):
@@ -56,14 +59,12 @@ if os.path.isdir('/data'):
 model = None
-MODEL_PATH = snapshot_download(repo_id=repo_name, allow_patterns=model_name, cache_dir=HF_CACHE_DIR) + '/' + model_name
 app.logger.info('Model path: ' + MODEL_PATH)
-DATASET_REPO_URL = "https://huggingface.co/datasets/muryshev/saiga-chat"
-DATA_FILENAME = "data-saiga-cuda-release.xml"
 DATA_FILE = os.path.join("dataset", DATA_FILENAME)
-HF_TOKEN = os.environ.get("HF_TOKEN")
 app.logger.info("hfh: "+huggingface_hub.__version__)
 # repo = Repository(
@@ -170,8 +171,9 @@ if __name__ == "__main__":
     init_model()
-    app.run(host="0.0.0.0", port=7860, debug=True, threaded=True)
     scheduler = BackgroundScheduler()
     scheduler.add_job(check_last_request_time, trigger='interval', minutes=1)
-    scheduler.start()

 SYSTEM_PROMPT = os.environ.get('SYSTEM_PROMPT') or "Ты — русскоязычный автоматический ассистент. Ты максимально точно и отвечаешь на запросы пользователя, используя русский язык."
 CONTEXT_SIZE = os.environ.get('CONTEXT_SIZE') or 500
+HF_CACHE_DIR = os.environ.get('HF_CACHE_DIR') or '/home/user/app/.cache'
 USE_SYSTEM_PROMPT = os.environ.get('USE_SYSTEM_PROMPT') or False
 ENABLE_GPU = os.environ.get('ENABLE_GPU') or False
 GPU_LAYERS = os.environ.get('GPU_LAYERS') or 0
 N_GQA = os.environ.get('N_GQA') or None #must be set to 8 for 70b models
 CHAT_FORMAT = os.environ.get('CHAT_FORMAT') or 'llama-2'
+REPO_NAME = os.environ.get('REPO_NAME') or 'IlyaGusev/saiga2_7b_gguf'
+MODEL_NAME = os.environ.get('MODEL_NAME') or 'model-q4_K.gguf'
+DATASET_REPO_URL = os.environ.get('DATASET_REPO_URL') or "https://huggingface.co/datasets/muryshev/saiga-chat"
+DATA_FILENAME = os.environ.get('DATA_FILENAME') or "data-saiga-cuda-release.xml"
+HF_TOKEN = os.environ.get("HF_TOKEN")
 # Create a lock object
 lock = threading.Lock()
 # Initialize the model when the application starts
 #model_path = "../models/model-q4_K.gguf"  # Replace with the actual model path
+#MODEL_NAME = "model/ggml-model-q4_K.gguf"
+#REPO_NAME = "IlyaGusev/saiga2_13b_gguf"
+#MODEL_NAME = "model-q4_K.gguf"
 #epo_name = "IlyaGusev/saiga2_70b_gguf"
+#MODEL_NAME = "ggml-model-q4_1.gguf"
 local_dir = '.'
 if os.path.isdir('/data'):
 model = None
+MODEL_PATH = snapshot_download(repo_id=REPO_NAME, allow_patterns=MODEL_NAME, cache_dir=HF_CACHE_DIR) + '/' + MODEL_NAME
 app.logger.info('Model path: ' + MODEL_PATH)
 DATA_FILE = os.path.join("dataset", DATA_FILENAME)
 app.logger.info("hfh: "+huggingface_hub.__version__)
 # repo = Repository(
     init_model()
     scheduler = BackgroundScheduler()
     scheduler.add_job(check_last_request_time, trigger='interval', minutes=1)
+    scheduler.start()
+    app.run(host="0.0.0.0", port=7860, debug=True, threaded=True)