Spaces:

polinaeterna
/

text_quality_checker

Running on Zero

App Files Files Community

polinaeterna HF staff commited on Sep 23

Commit

7092199

•

1 Parent(s): fc6b70e

add examples

Browse files

Files changed (1) hide show

app.py +20 -4

app.py CHANGED Viewed

@@ -250,8 +250,8 @@ with gr.Blocks() as demo:
                     placeholder="Search for dataset id on Huggingface",
                     search_type="dataset",
                 )
-        subset_dropdown = gr.Dropdown(info="Subset", show_label=False, visible=False)
-        split_dropdown = gr.Dropdown(info="Split", show_label=False, visible=False)
     # config_name = "default"  # TODO: user input
     with gr.Accordion("Dataset preview", open=False):
@@ -308,8 +308,8 @@ with gr.Blocks() as demo:
         return _resolve_dataset_selection(dataset, default_subset=subset, default_split=split)
     gr.Markdown("## Run nvidia quality classifier")
-    batch_size = gr.Slider(0, 64, 32, step=4, label="Inference batch size (set this to smaller value if this space crashes.)")
-    num_examples = gr.Slider(0, 1000, 500, step=10, label="Number of random examples to check")
     gr_check_btn = gr.Button("Check Dataset")
     progress_bar = gr.Label(show_label=False)
     plot = gr.BarPlot()
@@ -324,6 +324,21 @@ with gr.Blocks() as demo:
         df_high = gr.DataFrame()
     texts_df = gr.DataFrame(visible=False)
     gr_check_btn.click(
         run_quality_check,
         inputs=[dataset_name, subset_dropdown, split_dropdown, text_column_dropdown, batch_size, num_examples],
@@ -351,4 +366,5 @@ with gr.Blocks() as demo:
         outputs=[toxicity_progress_bar, toxicity_hist, toxicity_df]
     )
 demo.launch()

                     placeholder="Search for dataset id on Huggingface",
                     search_type="dataset",
                 )
+        subset_dropdown = gr.Dropdown(label="Subset", visible=False)
+        split_dropdown = gr.Dropdown(label="Split", visible=False)
     # config_name = "default"  # TODO: user input
     with gr.Accordion("Dataset preview", open=False):
         return _resolve_dataset_selection(dataset, default_subset=subset, default_split=split)
     gr.Markdown("## Run nvidia quality classifier")
+    batch_size = gr.Slider(0, 64, 32, step=4, label="Inference batch size", info="(set this to smaller value if this space crashes.)")
+    num_examples = gr.Slider(0, 1000, 500, step=10, label="Number of examples", info="Number of random examples to run quality classifier on")
     gr_check_btn = gr.Button("Check Dataset")
     progress_bar = gr.Label(show_label=False)
     plot = gr.BarPlot()
         df_high = gr.DataFrame()
     texts_df = gr.DataFrame(visible=False)
+    gr.Examples(
+        [
+            ["HuggingFaceFW/fineweb-edu", "default", "train", "text", 16, 100],
+            ["fka/awesome-chatgpt-prompts", "default", "train", "prompt", 64, 200],
+            # ["Anthropic/hh-rlhf"],
+            # ["OpenAssistant/oasst1"],
+        ],
+        [dataset_name, subset_dropdown, split_dropdown, text_column_dropdown, batch_size, num_examples],
+        [progress_bar, plot, df_low, df_medium, df_high, texts_df],
+        fn=run_quality_check,
+        run_on_click=False,
+        cache_examples="lazy",
+    )
     gr_check_btn.click(
         run_quality_check,
         inputs=[dataset_name, subset_dropdown, split_dropdown, text_column_dropdown, batch_size, num_examples],
         outputs=[toxicity_progress_bar, toxicity_hist, toxicity_df]
     )
 demo.launch()