Spaces:

open-llm-leaderboard
/

open_llm_leaderboard

Running on CPU Upgrade

App Files Files Community

1024

Alina Lozovskaia commited on May 7

Commit

1489ff1

•

1 Parent(s): a03f0fa

debugging the codebase

Browse files

Files changed (6) hide show

app.py +0 -1
pyproject.toml +2 -2
requirements.txt +2 -1
src/leaderboard/filter_models.py +0 -2
src/submission/check_validity.py +0 -1
src/tools/plots.py +7 -2

app.py CHANGED Viewed

@@ -141,7 +141,6 @@ def load_and_create_plots():
     plot_df = create_plot_df(create_scores_df(raw_data))
     return plot_df
-print(leaderboard_df.columns)
 demo = gr.Blocks(css=custom_css)
 with demo:

     plot_df = create_plot_df(create_scores_df(raw_data))
     return plot_df
 demo = gr.Blocks(css=custom_css)
 with demo:

pyproject.toml CHANGED Viewed

@@ -44,10 +44,10 @@ tqdm = "4.65.0"
 transformers = "4.40.0"
 tokenizers = ">=0.15.0"
 gradio-space-ci = {git = "https://huggingface.co/spaces/Wauplin/gradio-space-ci", rev = "0.2.3"}
-gradio = "4.9.0"
 isort = "^5.13.2"
 ruff = "^0.3.5"
-gradio-leaderboard = "^0.0.7"
 [build-system]
 requires = ["poetry-core"]

 transformers = "4.40.0"
 tokenizers = ">=0.15.0"
 gradio-space-ci = {git = "https://huggingface.co/spaces/Wauplin/gradio-space-ci", rev = "0.2.3"}
+gradio = " 4.20.0"
 isort = "^5.13.2"
 ruff = "^0.3.5"
+gradio-leaderboard = "0.0.7"
 [build-system]
 requires = ["poetry-core"]

requirements.txt CHANGED Viewed

@@ -14,4 +14,5 @@ tqdm==4.65.0
 transformers==4.40.0
 tokenizers>=0.15.0
 gradio-space-ci @ git+https://huggingface.co/spaces/Wauplin/gradio-space-ci@0.2.3 # CI !!!
-gradio_leaderboard

 transformers==4.40.0
 tokenizers>=0.15.0
 gradio-space-ci @ git+https://huggingface.co/spaces/Wauplin/gradio-space-ci@0.2.3 # CI !!!
+gradio==4.20.0
+gradio_leaderboard==0.0.7

src/leaderboard/filter_models.py CHANGED Viewed

@@ -139,8 +139,6 @@ def flag_models(leaderboard_data: list[dict]):
         else:
              # Merges and moes are flagged
             flag_key = "merged"
-        print(f"model check: {flag_key}")
         # Reverse the logic: Check for non-flagged models instead
         if flag_key in FLAGGED_MODELS:

         else:
              # Merges and moes are flagged
             flag_key = "merged"
         # Reverse the logic: Check for non-flagged models instead
         if flag_key in FLAGGED_MODELS:

src/submission/check_validity.py CHANGED Viewed

@@ -170,7 +170,6 @@ def get_model_tags(model_card, model: str):
     is_moe_from_model_card = any(keyword in model_card.text.lower() for keyword in ["moe", "mixtral"])
     # Hardcoding because of gating problem
     if "Qwen/Qwen1.5-32B" in model:
-        print("HERE NSHJNKJSNJLAS")
         is_moe_from_model_card = False
     is_moe_from_name = "moe" in model.lower().replace("/", "-").replace("_", "-").split("-")
     if is_moe_from_model_card or is_moe_from_name or is_moe_from_metadata:

     is_moe_from_model_card = any(keyword in model_card.text.lower() for keyword in ["moe", "mixtral"])
     # Hardcoding because of gating problem
     if "Qwen/Qwen1.5-32B" in model:
         is_moe_from_model_card = False
     is_moe_from_name = "moe" in model.lower().replace("/", "-").replace("_", "-").split("-")
     if is_moe_from_model_card or is_moe_from_name or is_moe_from_metadata:

src/tools/plots.py CHANGED Viewed

@@ -16,8 +16,11 @@ def create_scores_df(raw_data: list[EvalResult]) -> pd.DataFrame:
     :param results_df: A DataFrame containing result information including metric scores and dates.
     :return: A new DataFrame containing the maximum scores until each date for every metric.
     """
     # Step 1: Ensure 'date' is in datetime format and sort the DataFrame by it
     results_df = pd.DataFrame(raw_data)
     # results_df["date"] = pd.to_datetime(results_df["date"], format="mixed", utc=True)
     results_df.sort_values(by="date", inplace=True)
@@ -34,7 +37,7 @@ def create_scores_df(raw_data: list[EvalResult]) -> pd.DataFrame:
             # We ignore models that are flagged/no longer on the hub/not finished
             to_ignore = (
                 not row["still_on_hub"]
-                or row["not_flagged"]
                 or current_model in FLAGGED_MODELS
                 or row["status"] != "FINISHED"
             )
@@ -68,7 +71,6 @@ def create_plot_df(scores_df: dict[str : pd.DataFrame]) -> pd.DataFrame:
     """
     # Initialize the list to store DataFrames
     dfs = []
     # Iterate over the cols and create a new DataFrame for each column
     for col in BENCHMARK_COLS + [AutoEvalColumn.average.name]:
         d = scores_df[col].reset_index(drop=True)
@@ -77,6 +79,9 @@ def create_plot_df(scores_df: dict[str : pd.DataFrame]) -> pd.DataFrame:
     # Concatenate all the created DataFrames
     concat_df = pd.concat(dfs, ignore_index=True)
     # Sort values by 'date'
     concat_df.sort_values(by="date", inplace=True)

     :param results_df: A DataFrame containing result information including metric scores and dates.
     :return: A new DataFrame containing the maximum scores until each date for every metric.
     """
+    print(raw_data[0])
+    print(raw_data[0].date)
     # Step 1: Ensure 'date' is in datetime format and sort the DataFrame by it
     results_df = pd.DataFrame(raw_data)
+    print(results_df.columns)
     # results_df["date"] = pd.to_datetime(results_df["date"], format="mixed", utc=True)
     results_df.sort_values(by="date", inplace=True)
             # We ignore models that are flagged/no longer on the hub/not finished
             to_ignore = (
                 not row["still_on_hub"]
+                or not row["not_flagged"]
                 or current_model in FLAGGED_MODELS
                 or row["status"] != "FINISHED"
             )
     """
     # Initialize the list to store DataFrames
     dfs = []
     # Iterate over the cols and create a new DataFrame for each column
     for col in BENCHMARK_COLS + [AutoEvalColumn.average.name]:
         d = scores_df[col].reset_index(drop=True)
     # Concatenate all the created DataFrames
     concat_df = pd.concat(dfs, ignore_index=True)
+    # print("Columns in DataFrame:", concat_df.columns)
+    # if "date" not in concat_df.columns:
+    #     raise ValueError("Date column missing from DataFrame. Cannot proceed with sorting.")
     # Sort values by 'date'
     concat_df.sort_values(by="date", inplace=True)