Spaces:

nara-meta-lab
/

nallm-test

Sleeping

gyulukeyi commited on Aug 8

Commit

57e1e4b

•

1 Parent(s): 98fa539

debug

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,10 +1,11 @@
 import os
 import gradio as gr
-from huggingface_hub import InferenceClient
-client = InferenceClient(
-    "gyulukeyi/llama3-nallm-qa-8b-240708-zve",
-    token=os.environ.get("hf_token"),
 )
@@ -21,13 +22,16 @@ def respond(
     messages.append({"role": "question", "content": 질문})
     response = ""
-    for message in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
         stream=True,
         temperature=temperature,
         top_p=top_p,
-    ):
         token = message.choices[0].delta.content
         response += token

 import os
 import gradio as gr
+from openai import OpenAI
+client = OpenAI(
+    base_url="https://ueecxhqta9umllae.us-east-1.aws.endpoints.huggingface.cloud/v1/",
+    api_key=os.environ.get("hf_token"),
 )
     messages.append({"role": "question", "content": 질문})
     response = ""
+    chat_completion = client.chat.completions.create(
+        model="tgi",
+        messages=messages,
         stream=True,
+        max_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
+    )
+    for message in chat_completion:
         token = message.choices[0].delta.content
         response += token

requirements.txt CHANGED Viewed