Spaces:

MedTiouti
/

SandHillRoadPodcast

Runtime error

Med Tiouti commited on Jan 15

Commit

94bff1a

•

1 Parent(s): 2009b2e

Test Successful deployment with 13b

Files changed (2) hide show

README.md CHANGED Viewed

@@ -9,7 +9,7 @@ app_file: app.py
 pinned: false
 models:
 - sentence-transformers/all-MiniLM-L6-v2
-- daryl149/llama-2-7b-chat-hf
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 pinned: false
 models:
 - sentence-transformers/all-MiniLM-L6-v2
+- daryl149/llama-2-13b-chat-hf
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py CHANGED Viewed

@@ -22,19 +22,19 @@ from langchain.vectorstores import FAISS
 def get_model():
-    model_repo = 'daryl149/llama-2-7b-chat-hf'
     tokenizer = AutoTokenizer.from_pretrained(model_repo, use_fast=True)
     model = AutoModelForCausalLM.from_pretrained(
         model_repo,
         device_map='auto',
-        offload_folder="offload",
         torch_dtype=torch.float16,
         low_cpu_mem_usage=True,
         trust_remote_code=True
     )
-    max_len = 2048
     return tokenizer,model,max_len
@@ -159,4 +159,4 @@ demo = gr.ChatInterface(
 )
 demo.queue()
-demo.launch(debug=True)

 def get_model():
+    model_repo = 'daryl149/llama-2-13b-chat-hf'
     tokenizer = AutoTokenizer.from_pretrained(model_repo, use_fast=True)
     model = AutoModelForCausalLM.from_pretrained(
         model_repo,
         device_map='auto',
+        load_in_4bit=True,
         torch_dtype=torch.float16,
         low_cpu_mem_usage=True,
         trust_remote_code=True
     )
+    max_len = 8192
     return tokenizer,model,max_len
 )
 demo.queue()
+demo.launch(debug=True,share=True)