Spaces:

Bias-Leaderboard
/

leaderboard

Runtime error

App Files Files Community

meg-huggingface commited on Jan 22, 2024

Commit

130a6d2

1 Parent(s): 1075b83

UI

Browse files

Files changed (3) hide show

app.py +20 -15
src/about.py +6 -4
src/display/utils.py +2 -1

app.py CHANGED Viewed

@@ -156,21 +156,26 @@ with demo:
                             elem_id="search-bar",
                         )
                     with gr.Row():
-                        shown_columns = gr.CheckboxGroup(
-                            choices=[
-                                c.name
-                                for c in fields(AutoEvalColumn)
-                                if c.displayed_by_default and not c.hidden and not c.never_hidden and not c.advanced and not c.dummy
-                            ],
-                            value=[
-                                c.name
-                                for c in fields(AutoEvalColumn)
-                                if c.displayed_by_default and not c.hidden and not c.never_hidden and not c.advanced
-                            ],
-                            label="Select metrics to show",
-                            elem_id="column-select",
-                            interactive=True,
-                        )
                     with gr.Row():
                         with gr.Accordion("Advanced options [WIP]", open=False):
                             shown_columns_advanced = gr.CheckboxGroup(

                             elem_id="search-bar",
                         )
                     with gr.Row():
+                        with gr.Column():
+                            shown_columns = gr.CheckboxGroup(
+                                choices=[
+                                    c.name
+                                    for c in fields(AutoEvalColumn)
+                                    if c.displayed_by_default and not c.hidden and not c.never_hidden and not c.advanced and not c.dummy
+                                ],
+                                value=[
+                                    c.name
+                                    for c in fields(AutoEvalColumn)
+                                    if c.displayed_by_default and not c.hidden and not c.never_hidden and not c.advanced
+                                ],
+                                label="Select metrics to show",
+                                elem_id="column-select",
+                                interactive=True,
+                            )
+                        with gr.Column():
+                            for c in fields(AutoEvalColumn):
+                                if c.displayed_by_default and not c.hidden and not c.never_hidden and not c.advanced and not c.dummy:
+                                    gr.Markdown("**" + c.name + "**. " + c.cite, elem_classes="markdown-text")
                     with gr.Row():
                         with gr.Accordion("Advanced options [WIP]", open=False):
                             shown_columns_advanced = gr.CheckboxGroup(

src/about.py CHANGED Viewed

@@ -6,15 +6,17 @@ class Task:
     benchmark: str
     metric: str
     col_name: str
 # Select your tasks here
 # ---------------------------------------------------
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
-    task0 = Task("toxigen", "acc", "Toxicity")
-    task1 = Task("anli_r1", "acc", "ANLI")
-    task2 = Task("logiqa", "acc_norm", "LogiQA")
 NUM_FEWSHOT = 0 # Change with your few shot MEG NOTE: Not sure what that means.
 # ---------------------------------------------------
@@ -24,7 +26,7 @@ TITLE = """<h1 align="center" id="space-title">Toxicity Leaderboard</h1>"""
 # What does your leaderboard evaluate?
 INTRODUCTION_TEXT = """
-Evaluate the toxicity of open LLMs.
 """
 # Which evaluations are you running? how can people reproduce what you have?

     benchmark: str
     metric: str
     col_name: str
+    # Relevant citation for the task
+    cite: str = ""
 # Select your tasks here
 # ---------------------------------------------------
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
+    task0 = Task("toxigen", "acc", "Toxicity (lower is better)", cite="_ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection._ Hartvigsen et al., ACL 2022.")
+    task1 = Task("anli_r1", "acc", "ANLI", cite="_Adversarial NLI: A New Benchmark for Natural Language Understanding._ Nie et al., ACL 2020.")
+    task2 = Task("logiqa", "acc_norm", "LogiQA", cite="_LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning_. Liu et al.,  IJCAI 2020.")
 NUM_FEWSHOT = 0 # Change with your few shot MEG NOTE: Not sure what that means.
 # ---------------------------------------------------
 # What does your leaderboard evaluate?
 INTRODUCTION_TEXT = """
+<h2 align="center">Evaluate the toxicity of open LLMs.</h2>
 """
 # Which evaluations are you running? how can people reproduce what you have?

src/display/utils.py CHANGED Viewed

@@ -17,6 +17,7 @@ class ColumnContent:
     name: str
     type: str
     displayed_by_default: bool
     hidden: bool = False
     never_hidden: bool = False
     dummy: bool = False
@@ -30,7 +31,7 @@ auto_eval_column_dict.append(["model", ColumnContent, ColumnContent(name="Model"
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent(name="Average ⬆️", type="number", never_hidden=False, displayed_by_default=False)])
 for task in Tasks:
-    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(name=task.value.col_name, type="number", displayed_by_default=True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent(name="Type", type="str", never_hidden=False, displayed_by_default=False, advanced=True)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", never_hidden=False, displayed_by_default=False, advanced=True)])

     name: str
     type: str
     displayed_by_default: bool
+    cite: str = ""
     hidden: bool = False
     never_hidden: bool = False
     dummy: bool = False
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent(name="Average ⬆️", type="number", never_hidden=False, displayed_by_default=False)])
 for task in Tasks:
+    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(name=task.value.col_name, cite=task.value.cite, type="number", displayed_by_default=True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent(name="Type", type="str", never_hidden=False, displayed_by_default=False, advanced=True)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", never_hidden=False, displayed_by_default=False, advanced=True)])