Spaces:

T145
/

open-llm-leaderboard-results-to-modelcard

Running

App Files Files Community

T145 commited on Dec 5, 2024

Commit

88ed67a

1 Parent(s): 52a5d9f

Round results

Browse files

Files changed (1) hide show

functions.py +13 -8

functions.py CHANGED Viewed

@@ -26,6 +26,10 @@ def get_details_url(repo):
     return f"https://huggingface.co/datasets/open-llm-leaderboard/{author}__{model}-details"
 def get_query_url(repo):
     return f"https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query={repo}"
@@ -36,7 +40,7 @@ def get_task_summary(results):
             "dataset_type": "HuggingFaceH4/ifeval",
             "dataset_name": "IFEval (0-Shot)",
             "metric_type": "inst_level_strict_acc and prompt_level_strict_acc",
-            "metric_value": results["IFEval"],
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_revision": None,
@@ -47,7 +51,7 @@ def get_task_summary(results):
             "dataset_type": "BBH",
             "dataset_name": "BBH (3-Shot)",
             "metric_type": "acc_norm",
-            "metric_value": results["BBH"],
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_revision": None,
@@ -58,7 +62,7 @@ def get_task_summary(results):
             "dataset_type": "hendrycks/competition_math",
             "dataset_name": "MATH Lvl 5 (4-Shot)",
             "metric_type": "exact_match",
-            "metric_value": results["MATH Lvl 5"],
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_revision": None,
@@ -69,7 +73,7 @@ def get_task_summary(results):
             "dataset_type": "Idavidrein/gpqa",
             "dataset_name": "GPQA (0-shot)",
             "metric_type": "acc_norm",
-            "metric_value": results["GPQA"],
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_revision": None,
@@ -80,7 +84,7 @@ def get_task_summary(results):
             "dataset_type": "TAUR-Lab/MuSR",
             "dataset_name": "MuSR (0-shot)",
             "metric_type": "acc_norm",
-            "metric_value": results["MUSR"],
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_args": {"num_few_shot": 0},
@@ -90,7 +94,7 @@ def get_task_summary(results):
             "dataset_type": "TIGER-Lab/MMLU-Pro",
             "dataset_name": "MMLU-PRO (5-shot)",
             "metric_type": "acc",
-            "metric_value": results["MMLU-PRO"],
             "dataset_config": "main",
             "dataset_split": "test",
             "dataset_args": {"num_few_shot": 5},
@@ -104,13 +108,14 @@ def get_eval_results(df, repo):
     task_summary = get_task_summary(results)
     md_writer = MarkdownTableWriter()
     md_writer.headers = ["Metric", "Value"]
-    md_writer.value_matrix = [["Avg.", results["Average ⬆️"]]] + [
         [v["dataset_name"], v["metric_value"]] for v in task_summary.values()
     ]
     text = f"""
 # [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
-Detailed results can be found [here]({get_details_url(repo)})
 {md_writer.dumps()}
 """

     return f"https://huggingface.co/datasets/open-llm-leaderboard/{author}__{model}-details"
+def get_contents_url(repo):
+    return f"https://huggingface.co/datasets/open-llm-leaderboard/contents/viewer/default/train?q={repo}"
 def get_query_url(repo):
     return f"https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query={repo}"
             "dataset_type": "HuggingFaceH4/ifeval",
             "dataset_name": "IFEval (0-Shot)",
             "metric_type": "inst_level_strict_acc and prompt_level_strict_acc",
+            "metric_value": round(results["IFEval"], 2),
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_revision": None,
             "dataset_type": "BBH",
             "dataset_name": "BBH (3-Shot)",
             "metric_type": "acc_norm",
+            "metric_value": round(results["BBH"], 2),
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_revision": None,
             "dataset_type": "hendrycks/competition_math",
             "dataset_name": "MATH Lvl 5 (4-Shot)",
             "metric_type": "exact_match",
+            "metric_value": round(results["MATH Lvl 5"], 2),
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_revision": None,
             "dataset_type": "Idavidrein/gpqa",
             "dataset_name": "GPQA (0-shot)",
             "metric_type": "acc_norm",
+            "metric_value": round(results["GPQA"], 2),
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_revision": None,
             "dataset_type": "TAUR-Lab/MuSR",
             "dataset_name": "MuSR (0-shot)",
             "metric_type": "acc_norm",
+            "metric_value": round(results["MUSR"], 2),
             "dataset_config": None,  # don't know
             "dataset_split": None,  # don't know
             "dataset_args": {"num_few_shot": 0},
             "dataset_type": "TIGER-Lab/MMLU-Pro",
             "dataset_name": "MMLU-PRO (5-shot)",
             "metric_type": "acc",
+            "metric_value": round(results["MMLU-PRO"], 2),
             "dataset_config": "main",
             "dataset_split": "test",
             "dataset_args": {"num_few_shot": 5},
     task_summary = get_task_summary(results)
     md_writer = MarkdownTableWriter()
     md_writer.headers = ["Metric", "Value"]
+    md_writer.value_matrix = [["Avg.", round(results["Average ⬆️"], 2)]] + [
         [v["dataset_name"], v["metric_value"]] for v in task_summary.values()
     ]
     text = f"""
 # [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
+Detailed results can be found [here]({get_details_url(repo)})!
+Summarized results can be found [here]({get_contents_url(repo)})!
 {md_writer.dumps()}
 """