Spaces:

poltextlab
/

mores_demo

Sleeping

App Files Files Community

vkovacs commited on 28 days ago

Commit

158b5a1

1 Parent(s): c315ef7

PoC

Browse files

Files changed (4) hide show

README.md +7 -6
app.py +60 -0
requirements.txt +7 -0
utils.py +30 -0

README.md CHANGED Viewed

@@ -1,12 +1,13 @@
 ---
-title: Mores Demo
-emoji: 🚀
-colorFrom: indigo
-colorTo: blue
 sdk: gradio
-sdk_version: 5.11.0
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: MORES demo
+emoji: 📊
+colorFrom: pink
+colorTo: indigo
 sdk: gradio
+sdk_version: 4.23.0
 app_file: app.py
 pinned: false
+short_description: emotion classification
 ---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,60 @@

+import os
+import torch
+import numpy as np
+from transformers import AutoModelForSequenceClassification
+from transformers import AutoTokenizer
+import gradio as gr
+PATH = '/data/' # at least 150GB storage needs to be attached
+os.environ['TRANSFORMERS_CACHE'] = PATH
+os.environ['HF_HOME'] = PATH
+os.environ['HF_DATASETS_CACHE'] = PATH
+os.environ['TORCH_HOME'] = PATH
+HF_TOKEN = os.environ["hf_read"]
+SENTIMENT_LABEL_NAMES = {0: "Negative", 1: "No sentiment or Neutral sentiment", 2: "Positive"}
+LANGUAGES = ["Czech", "English", "French", "German", "Hungarian", "Polish", "Slovakian"]
+def build_huggingface_path(language: str):
+    if language == "Czech" or language == "Slovakian":
+        return "visegradmedia-emotion/Emotion_RoBERTa_pooled_V4"
+    return "poltextlab/xlm-roberta-large-pooled-MORES"
+def predict(text, model_id, tokenizer_id):
+    device = torch.device("cpu")
+    model = AutoModelForSequenceClassification.from_pretrained(model_id, low_cpu_mem_usage=True, device_map="auto", offload_folder="offload", token=HF_TOKEN)
+    tokenizer = AutoTokenizer.from_pretrained(tokenizer_id)
+    model.to(device)
+    inputs = tokenizer(text,
+                       max_length=512,
+                       truncation=True,
+                       padding="do_not_pad",
+                       return_tensors="pt").to(device)
+    model.eval()
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    probs = torch.nn.functional.softmax(logits, dim=1).cpu().numpy().flatten()
+    output_pred = {model.config.id2label[i]: probs[i] for i in np.argsort(probs)[::-1]}
+    output_info = f'<p style="text-align: center; display: block">Prediction was made using the <a href="https://huggingface.co/{model_id}">{model_id}</a> model.</p>'
+    return output_pred, output_info
+def predict_wrapper(text, language):
+    model_id = build_huggingface_path(language)
+    tokenizer_id = "xlm-roberta-large"
+    return predict(text, model_id, tokenizer_id)
+with gr.Blocks() as demo:
+    gr.Interface(
+        fn=predict_wrapper,
+        inputs=[gr.Textbox(lines=6, label="Input"),
+                gr.Dropdown(LANGUAGES, label="Language")],
+        outputs=[gr.Label(num_top_classes=3, label="Output"), gr.Markdown()])
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+pandas
+torch==2.2.1
+transformers==4.39.1
+sentencepiece==0.2.0
+accelerate
+spacy
+huspacy

utils.py ADDED Viewed

	@@ -0,0 +1,30 @@

+import os
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+from interfaces.cap import languages as languages_cap
+from interfaces.cap import domains as domains_cap
+from interfaces.cap import build_huggingface_path as hf_cap_path
+from interfaces.manifesto import build_huggingface_path as hf_manifesto_path
+from interfaces.sentiment import build_huggingface_path as hf_sentiment_path
+from interfaces.emotion import build_huggingface_path as hf_emotion_path
+HF_TOKEN = os.environ["hf_read"]
+# should be a temporary solution
+models = [hf_manifesto_path(""), hf_sentiment_path(""), hf_emotion_path("")]
+domains_cap = list(domains_cap.values())
+for language in languages_cap:
+    for domain in domains_cap:
+        models.append(hf_cap_path(language, domain))
+tokenizers = ["xlm-roberta-large"]
+def download_hf_models():
+    for model_id in models:
+        AutoModelForSequenceClassification.from_pretrained(model_id, low_cpu_mem_usage=True, device_map="auto", offload_folder="offload",
+                                                                   token=HF_TOKEN)
+    for tokenizer_id in tokenizers:
+        AutoTokenizer.from_pretrained(tokenizer_id)