Spaces:

2hack2furious
/

anonymizer

Runtime error

App Files Files

ziggycross commited on Mar 5, 2023

Commit

7ad6c98

1 Parent(s): 80e8771

Created basic web app for data cleaning.

Browse files

Files changed (2) hide show

app.py +28 -0
modules.py +70 -0

app.py ADDED Viewed

	@@ -0,0 +1,28 @@

+import modules
+import pandas as pd
+import streamlit as st
+st.markdown(
+    """
+    # 2hack2furious anonymiser
+    upload a dataset and get a cleaned dataset back.
+    """
+)
+uploaded_file = st.file_uploader(f"Upload dataset:", type=modules.SUPPORTED_TYPES)
+df, (filename, extension), result = modules.load_file(uploaded_file)
+st.text(result)
+st.title("Before:")
+st.dataframe(df)
+st.title("After:")
+df = modules.data_cleaner(df)
+st.dataframe(df)
+st.download_button("Download cleaned data", modules.create_file(df, extension), file_name=filename)
+st.markdown("---")
+st.text("Created by team #2hack2furious for the hackthethreat2023")

modules.py ADDED Viewed

	@@ -0,0 +1,70 @@

+import pandas as pd
+SUPPORTED_TYPES = [".csv", ".json", ".xlsx"]
+def load_file(file):
+    """
+    Takes a file given by Streamlit and loads into a DataFrame.
+    Returns a DataFrame, metadata, and result string.
+    @param file: File uploaded into streamlit.
+    @rtype: tuple
+    @return: A tuple of format (pd.DataFrame, (str, str), str).
+    """
+    df = pd.DataFrame()
+    if file is None: return df, ""
+    filename = file.name
+    extension = filename.split(".")[-1]
+    metadata = (filename, extension)
+    try:
+        match extension:
+            case "csv":
+                df = pd.read_csv(file)
+            case "json":
+                df = pd.read_json(file)
+            case "xlsx":
+                df = pd.read_excel(file)
+            case _:
+                return df, metadata, f"Error: Invalid extension '{extension}'"
+        rows, columns = df.shape
+        return df, metadata, f"File '{filename}' loaded successfully.\nFound {rows} rows, {columns} columns."
+    except Exception as error:
+        return df, metadata, f"Error: Unable to read file '{filename}' ({type(error)}: {error})"
+def create_file(df, extension):
+    """
+    Prepares a dataframe from streamlit for download.
+    @type df: pd.DataFrame
+    @param df: A DataFrame to package into a file.
+    @type extension: pd.DataFrame
+    @param extension: The desired filetype.
+    @return: A file container ready for download.
+    """
+    match extension:
+        case "csv":
+            return df.to_csv()
+        case "json":
+            return df.to_json()
+        case "xlsx":
+            return df.to_excel()
+def data_cleaner(df, drop_missing=False, remove_duplicates=True):
+    """
+    Takes a DataFrame and removes empty and duplicate entries.
+    @type df: pd.DataFrame
+    @param df: A DataFrame of uncleaned data.
+    @type drop_missing: bool
+    @param drop_missing: Determines if rows with any missing values are dropped ("any"), or just empty rows ("all").
+    @type remove_duplicates: bool
+    @param remove_duplicates: Determines if duplicate rows are removed.
+    @rtype: pd.DataFrame
+    @return: A DataFrame with requested cleaning applied
+    """
+    df = df.dropna(how="any" if drop_missing else "all")
+    if remove_duplicates: df = df.drop_duplicates()
+    return df