Spaces:

librarian-bots
/

base_model_explorer

Running

App Files Files Community

davanstrien HF staff commited on Nov 23, 2023

Commit

1b8daa0

1 Parent(s): 6e94de2

Refactor code to include grandchildren in model

Browse files

Files changed (1) hide show

app.py +34 -6

app.py CHANGED Viewed

@@ -76,6 +76,14 @@ grouped_by_base_model = groupby(
 all_base_models = df["base_model"].to_list()
 def return_models_for_base_model(base_model):
     models = grouped_by_base_model.get(base_model)
     # sort models by downloads
@@ -91,11 +99,21 @@ def return_models_for_base_model(base_model):
         f"`{base_model}`'s children have been"
         f" downloaded {total_download_number:,} times\n\n"
     )
     results += "### Children models \n\n"
     for model in models:
         url = f"https://huggingface.co/{model.modelId}"
         results += (
-            f"- [{model.modelId}]({url}) | number of downloads {model.downloads}"
             + "\n\n"
         )
     return results
@@ -113,17 +131,23 @@ def return_base_model_popularity(pipeline=None):
             df_with_pipeline_info["pipeline"] == pipeline
         ]
     keep_columns = ["base_model", "count"]
-    df_with_pipeline_info["base_model"] = df_with_pipeline_info["base_model"].apply(render_model_hub_link)
     return df_with_pipeline_info[keep_columns].head(50)
 def return_base_model_popularity_by_org(pipeline=None):
-    referenced_base_models = [f"[`{model}`](https://huggingface.co/{model})" for model in base_models]
     df_with_pipeline_info = pd.DataFrame(
         {"base_model": base_models, "pipeline": pipeline_tags}
     )
     df_with_pipeline_info["org"] = df_with_pipeline_info["base_model"].apply(parse_org)
-    df_with_pipeline_info["org"] = df_with_pipeline_info["org"].apply(render_model_hub_link)
     df_with_pipeline_info = df_with_pipeline_info.dropna(subset=["org"])
     df_with_org = df_with_pipeline_info.copy(deep=True)
     if pipeline is not None:
@@ -162,10 +186,14 @@ with gr.Blocks() as demo:
         label="Filter rankings by task pipeline",
     )
     with gr.Accordion("Base model popularity ranking", open=False):
-        df_popularity = gr.DataFrame(return_base_model_popularity(None), datatype="markdown")
         dropdown.change(return_base_model_popularity, dropdown, df_popularity)
     with gr.Accordion("Base model popularity ranking by organization", open=False):
-        df_popularity_org = gr.DataFrame(return_base_model_popularity_by_org(None), datatype="markdown")
         dropdown.change(
             return_base_model_popularity_by_org, dropdown, df_popularity_org
         )

 all_base_models = df["base_model"].to_list()
+def get_grandchildren(base_model):
+    grandchildren = []
+    for model in tqdm(grouped_by_base_model[base_model]):
+        model_id = model.modelId
+        grandchildren.extend(grouped_by_base_model.get(model_id, []))
+    return grandchildren
 def return_models_for_base_model(base_model):
     models = grouped_by_base_model.get(base_model)
     # sort models by downloads
         f"`{base_model}`'s children have been"
         f" downloaded {total_download_number:,} times\n\n"
     )
+    grandchildren = get_grandchildren(base_model)
+    number_of_grandchildren = len(grandchildren)
+    results += f"`{base_model}` has {number_of_grandchildren} grandchildren\n\n"
+    grandchildren_download_count = sum(model.downloads for model in grandchildren)
+    results += (
+        f"`{base_model}`'s grandchildren have been"
+        f" downloaded {grandchildren_download_count:,} times\n\n"
+    )
+    results += f"Including grandchildren, `{base_model}` has {number_of_grandchildren + len(models):,} descendants\n\n"
+    results += f"Including grandchildren, `{base_model}`'s descendants have been downloaded {grandchildren_download_count + total_download_number:,} times\n\n"
     results += "### Children models \n\n"
     for model in models:
         url = f"https://huggingface.co/{model.modelId}"
         results += (
+            f"- [{model.modelId}]({url}) | number of downloads {model.downloads:,}"
             + "\n\n"
         )
     return results
             df_with_pipeline_info["pipeline"] == pipeline
         ]
     keep_columns = ["base_model", "count"]
+    df_with_pipeline_info["base_model"] = df_with_pipeline_info["base_model"].apply(
+        render_model_hub_link
+    )
     return df_with_pipeline_info[keep_columns].head(50)
 def return_base_model_popularity_by_org(pipeline=None):
+    referenced_base_models = [
+        f"[`{model}`](https://huggingface.co/{model})" for model in base_models
+    ]
     df_with_pipeline_info = pd.DataFrame(
         {"base_model": base_models, "pipeline": pipeline_tags}
     )
     df_with_pipeline_info["org"] = df_with_pipeline_info["base_model"].apply(parse_org)
+    df_with_pipeline_info["org"] = df_with_pipeline_info["org"].apply(
+        render_model_hub_link
+    )
     df_with_pipeline_info = df_with_pipeline_info.dropna(subset=["org"])
     df_with_org = df_with_pipeline_info.copy(deep=True)
     if pipeline is not None:
         label="Filter rankings by task pipeline",
     )
     with gr.Accordion("Base model popularity ranking", open=False):
+        df_popularity = gr.DataFrame(
+            return_base_model_popularity(None), datatype="markdown"
+        )
         dropdown.change(return_base_model_popularity, dropdown, df_popularity)
     with gr.Accordion("Base model popularity ranking by organization", open=False):
+        df_popularity_org = gr.DataFrame(
+            return_base_model_popularity_by_org(None), datatype="markdown"
+        )
         dropdown.change(
             return_base_model_popularity_by_org, dropdown, df_popularity_org
         )