Spaces:
Sleeping
Sleeping
metadata
title: Cz PII
emoji: 🐠
colorFrom: green
colorTo: gray
sdk: streamlit
sdk_version: 1.39.0
app_file: app.py
pinned: false
short_description: Pokročilý Český PII Anotátor a Anonymizátor
Pokročilý Český PII Anotátor a Anonymizátor
Tento projekt představuje systém pro automatickou detekci a anonymizaci osobních údajů (PII - Personally Identifiable Information) v českém textu. Je navržen jako nástroj pro přípravu dat pro jazykové modely a chatboty, s důrazem na ochranu osobních údajů.
Funkce
- Detekce různých typů PII v českém textu (jména, adresy, rodná čísla, telefonní čísla, e-maily, atd.)
- Tři metody anonymizace: nahrazení znakem 'X', obecnými pojmy, nebo falešnými daty
- Interaktivní webové rozhraní pro snadné použití a testování
- Generování statistik a reportů o anonymizovaných datech
- Možnost customizace typů PII k detekci
Instalace
- Naklonujte tento repozitář
- Ujistěte se, že máte nainstalovaný Python 3.9 nebo novější
- Vytvořte virtuální prostředí:
python -m venv venv
- Aktivujte virtuální prostředí:
- Na Windows:
venv\Scripts\activate
- Na macOS a Linux:
source venv/bin/activate
- Na Windows:
- Nainstalujte závislosti:
pip install -r requirements.txt
Spuštění aplikace
Po instalaci spusťte aplikaci příkazem:
streamlit run app.py
Struktura projektu
app.py
: Hlavní soubor aplikace obsahující logiku Streamlit rozhraní a funkce pro anonymizacisrc/czech_anonymization/
: Adresář pro moduly specifické pro českou anonymizacirequirements.txt
: Seznam závislostí projektu
Použité technologie
- Python 3.9+
- Streamlit: Pro vytvoření interaktivního webového rozhraní
- Faker: Pro generování falešných dat
- Pandas: Pro zpracování a zobrazení dat
- Regex: Pro detekci vzorů PII v textu
Funkce aplikace
- Hlavní aplikace: Umožňuje uživatelům zadat text, vybrat typy PII k detekci a metodu anonymizace.
- O projektu: Poskytuje informace o projektu a jeho cílech.
- Budoucí vývoj: Nastiňuje plány pro budoucí vylepšení a rozšíření funkcionality.
- Specifikace využití: Detailní popis způsobů anonymizace, testování a vstupních dat.
- Testovací data: Nabízí vzorové profily a dokumenty pro testování anonymizace.