Spaces:

2hack2furious
/

anonymizer

Runtime error

App Files Files

ziggycross commited on Mar 6, 2023

Commit

6c3e9dd

•

1 Parent(s): aa72b6d

Fixed download bug and created sample GUI.

Browse files

Files changed (2) hide show

app.py +42 -33
modules.py +3 -19

app.py CHANGED Viewed

@@ -5,17 +5,10 @@ from streamlit_extras.let_it_rain import rain
 # Options
 DISCLAIMER = "*Lorem ipsum dolor sit amet, consectetur adipiscing elit. Aliquam urna sem, bibendum efficitur pellentesque a, sollicitudin pharetra urna. Nam vel lectus vitae elit luctus feugiat a a purus. Aenean mollis quis ipsum sed ornare. Nunc sit amet ultricies tellus. Vivamus vulputate sem id molestie viverra. Etiam egestas lobortis enim, sit amet lobortis ligula sollicitudin vel. Nunc eget ipsum sollicitudin, convallis.*"
-# Cleaning parameters
-drop_missing = None,
-remove_duplicates = None,
-# Anonymizing parameters
-anonymize_data = None
 # Page Config
 st.set_page_config(layout="wide")
-# Default Sidebar
 with st.sidebar:
     st.header("🕵️ 2anonymity")
     st.markdown("*Clean and anonymize data*")
@@ -23,53 +16,69 @@ with st.sidebar:
         file = st.file_uploader(f"Upload dataset:", type=modules.SUPPORTED_TYPES, label_visibility="collapsed")
         df, (filename, extension), result = modules.load_file(file)
-# Main
-if df is None:
     rain("🤠")
 else:
-    # Add options to sidebar
     with st.sidebar:
         # Options for data cleaning
         with st.container() as cleaning_options:
-            st.markdown("Data cleaning options:")
             remove_duplicates = st.checkbox("Remove duplicate rows", value=True)
             drop_missing = st.checkbox("Remove rows with missing values", value=False)
         # Options for data optimization
         with st.container() as anonymizing_options:
-            st.markdown("Anonymizing options:")
-            anonymize_data = st.checkbox("Anonymize data", value=True)
-        # Prepare file for download
-        if df is not None:
-            download_file = modules.create_file(df, extension)
-            with st.container() as downloader:
-                st.download_button("Download", download_file, file_name=filename)
-        # Add a disclaimer for data security
-        with st.container() as disclaimer:
-            st.markdown(
-                f"""
-                Disclaimer:
-                {DISCLAIMER}
-                """
-                )
-    # Preview data before transformation
     with st.container() as before_data:
         s = df.style
         s = s.set_properties(**{'background-color': '#fce4e4'})
         st.dataframe(s)
-    # Process data
     df = modules.data_cleaner(df, drop_missing, remove_duplicates)
-    # Preview data after transformation
     with st.container() as after_data:
         s = df.style
         s = s.set_properties(**{'background-color': '#e4fce4'})
         st.dataframe(s)
 # Attribution
 st.sidebar.markdown("Created by team #2hack2furious for the hackthethreat2023")

 # Options
 DISCLAIMER = "*Lorem ipsum dolor sit amet, consectetur adipiscing elit. Aliquam urna sem, bibendum efficitur pellentesque a, sollicitudin pharetra urna. Nam vel lectus vitae elit luctus feugiat a a purus. Aenean mollis quis ipsum sed ornare. Nunc sit amet ultricies tellus. Vivamus vulputate sem id molestie viverra. Etiam egestas lobortis enim, sit amet lobortis ligula sollicitudin vel. Nunc eget ipsum sollicitudin, convallis.*"
 # Page Config
 st.set_page_config(layout="wide")
+### FILE LOADER for sidebar
 with st.sidebar:
     st.header("🕵️ 2anonymity")
     st.markdown("*Clean and anonymize data*")
         file = st.file_uploader(f"Upload dataset:", type=modules.SUPPORTED_TYPES, label_visibility="collapsed")
         df, (filename, extension), result = modules.load_file(file)
+### MAIN
+if df is None: # Await file to be uploaded
     rain("🤠")
 else:
+    ### PRE-TRANSFORM features for sidebar
     with st.sidebar:
         # Options for data cleaning
         with st.container() as cleaning_options:
+            st.markdown("### Data cleaning options:")
             remove_duplicates = st.checkbox("Remove duplicate rows", value=True)
             drop_missing = st.checkbox("Remove rows with missing values", value=False)
         # Options for data optimization
         with st.container() as anonymizing_options:
+            st.markdown("### Anonymizing options:")
+            sample_checkbox = st.checkbox("Test checkbox", value=True)
+            sample_slider = st.slider("Test slider", min_value=1, max_value=10, value=2)
+            sample_number = st.number_input("Test number", min_value=0, max_value=100, value=50)
+            sample_dropdown = st.selectbox("Test dropdown", ["A", "B", "C"], index=1)
+    ### DATA PREVIEW AND TRANSFORM
+    # Preview data before transform
     with st.container() as before_data:
         s = df.style
         s = s.set_properties(**{'background-color': '#fce4e4'})
         st.dataframe(s)
+    # Transform data
     df = modules.data_cleaner(df, drop_missing, remove_duplicates)
+    df = modules.data_anonymizer(df)
+    # download_file = modules.create_file(df, ".csv")
+    # Preview data after before_data
     with st.container() as after_data:
         s = df.style
         s = s.set_properties(**{'background-color': '#e4fce4'})
         st.dataframe(s)
+    ### POST-TRANSFORM features for sidebar
+    with st.sidebar:
+        # Options for download
+        with st.container() as download_header:
+            st.markdown("### Download")
+            output_extension = st.selectbox("File type", [".csv", ".json", ".xlsx"])
+        # Prepare file for download
+        with st.container() as downloader:
+            if output_extension == ".csv": output_file = df.to_csv().encode("utf-8")
+            elif output_extension == ".json": output_file = df.to_json().encode("utf-8")
+            elif output_extension == ".xlsx": output_file = df.to_excel().encode("utf-8")
+            output_filename = f"""{filename.split(".")[:-1][0]}-clean{output_extension}"""
+            st.download_button("Download", output_file, file_name=output_filename)
+        # Add a disclaimer for data security
+        with st.container() as disclaimer:
+            st.markdown(
+                f"""
+                Disclaimer:
+                {DISCLAIMER}
+                """
+                )
 # Attribution
 st.sidebar.markdown("Created by team #2hack2furious for the hackthethreat2023")

modules.py CHANGED Viewed

@@ -36,25 +36,6 @@ def load_file(file):
     except Exception as error:
         return df, metadata, f"Error: Unable to read file '{filename}' ({type(error)}: {error})"
-def create_file(df, extension):
-    """
-    Prepares a dataframe from streamlit for download.
-    @type df: pd.DataFrame
-    @param df: A DataFrame to package into a file.
-    @type extension: pd.DataFrame
-    @param extension: The desired filetype.
-    @return: A file container ready for download.
-    """
-    export_functions = {
-        "csv": pd.DataFrame.to_csv,
-        "json": pd.DataFrame.to_json,
-        "xlsx": pd.DataFrame.to_excel
-    }
-    exporter = export_functions.get(extension, None)
-    if exporter is None: return None
-    return exporter(df)
 def data_cleaner(df, drop_missing=False, remove_duplicates=True):
     """
     Takes a DataFrame and removes empty and duplicate entries.
@@ -70,4 +51,7 @@ def data_cleaner(df, drop_missing=False, remove_duplicates=True):
     """
     df = df.dropna(how="any" if drop_missing else "all")
     if remove_duplicates: df = df.drop_duplicates()
     return df

     except Exception as error:
         return df, metadata, f"Error: Unable to read file '{filename}' ({type(error)}: {error})"
 def data_cleaner(df, drop_missing=False, remove_duplicates=True):
     """
     Takes a DataFrame and removes empty and duplicate entries.
     """
     df = df.dropna(how="any" if drop_missing else "all")
     if remove_duplicates: df = df.drop_duplicates()
+    return df
+def data_anonymizer(df):
     return df