Spaces:

PartAI
/

Dorna-Llama3-8B-Instruct-GGUF

Running

MiladMola commited on Jun 16

Commit

a7f8e41

•

1 Parent(s): 0ebc354

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -85,11 +85,8 @@ def respond(
     llm = Llama(
         model_path=f"./{model}",
-        flash_attn=True,
-        n_threads=40,
-        n_gpu_layers=81,
-        n_batch=1024,
-        n_ctx=8192,
     )
     provider = LlamaCppPythonProvider(llm)
@@ -123,7 +120,7 @@ def respond(
         messages.add_message(assistant)
     stream = agent.get_chat_response(
-        message[-2:],
         llm_sampling_settings=settings,
         chat_history=messages,
         returns_streaming_generator=True,
@@ -145,9 +142,9 @@ PLACEHOLDER = """
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
-        gr.Textbox(value="", label="System message", rtl=False),
         #gr.Slider(minimum=1, maximum=8192, value=2048, step=1, label="Max tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         # gr.Slider(
         #     minimum=0.1,
         #     maximum=1.0,
@@ -175,7 +172,7 @@ demo = gr.ChatInterface(
                 'dorna-llama3-8b-instruct.Q5_0.gguf',
                 'dorna-llama3-8b-instruct.bf16.gguf',
             ],
-            value="dorna-llama3-8b-instruct.Q4_0.gguf",
             label="Model"
         ),
     ],

     llm = Llama(
         model_path=f"./{model}",
+        n_gpu_layers=-1,
+        n_ctx=2048,
     )
     provider = LlamaCppPythonProvider(llm)
         messages.add_message(assistant)
     stream = agent.get_chat_response(
+        message,
         llm_sampling_settings=settings,
         chat_history=messages,
         returns_streaming_generator=True,
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
+        gr.Textbox(value="You are a helpful Persian assistant. Please answer questions in the asked language.", label="System message", rtl=False),
         #gr.Slider(minimum=1, maximum=8192, value=2048, step=1, label="Max tokens"),
+        gr.Slider(minimum=0.1, maximum=4.0, value=0.1, step=0.1, label="Temperature"),
         # gr.Slider(
         #     minimum=0.1,
         #     maximum=1.0,
                 'dorna-llama3-8b-instruct.Q5_0.gguf',
                 'dorna-llama3-8b-instruct.bf16.gguf',
             ],
+            value="dorna-llama3-8b-instruct.Q8_0.gguf",
             label="Model"
         ),
     ],