petrsovadina commited on
Commit
166cb7f
1 Parent(s): 0072d0e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +51 -1
README.md CHANGED
@@ -10,4 +10,54 @@ pinned: false
10
  short_description: Pokročilý Český PII Anotátor a Anonymizátor
11
  ---
12
 
13
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
  short_description: Pokročilý Český PII Anotátor a Anonymizátor
11
  ---
12
 
13
+ # Pokročilý Český PII Anotátor a Anonymizátor
14
+
15
+ Tento projekt představuje systém pro automatickou detekci a anonymizaci osobních údajů (PII - Personally Identifiable Information) v českém textu. Je navržen jako nástroj pro přípravu dat pro jazykové modely a chatboty, s důrazem na ochranu osobních údajů.
16
+
17
+ ## Funkce
18
+
19
+ - Detekce různých typů PII v českém textu (jména, adresy, rodná čísla, telefonní čísla, e-maily, atd.)
20
+ - Tři metody anonymizace: nahrazení znakem 'X', obecnými pojmy, nebo falešnými daty
21
+ - Interaktivní webové rozhraní pro snadné použití a testování
22
+ - Generování statistik a reportů o anonymizovaných datech
23
+ - Možnost customizace typů PII k detekci
24
+
25
+ ## Instalace
26
+
27
+ 1. Naklonujte tento repozitář
28
+ 2. Ujistěte se, že máte nainstalovaný Python 3.9 nebo novější
29
+ 3. Vytvořte virtuální prostředí: `python -m venv venv`
30
+ 4. Aktivujte virtuální prostředí:
31
+ - Na Windows: `venv\Scripts\activate`
32
+ - Na macOS a Linux: `source venv/bin/activate`
33
+ 5. Nainstalujte závislosti: `pip install -r requirements.txt`
34
+
35
+ ## Spuštění aplikace
36
+
37
+ Po instalaci spusťte aplikaci příkazem:
38
+
39
+ ```
40
+ streamlit run app.py
41
+ ```
42
+
43
+ ## Struktura projektu
44
+
45
+ - `app.py`: Hlavní soubor aplikace obsahující logiku Streamlit rozhraní a funkce pro anonymizaci
46
+ - `src/czech_anonymization/`: Adresář pro moduly specifické pro českou anonymizaci
47
+ - `requirements.txt`: Seznam závislostí projektu
48
+
49
+ ## Použité technologie
50
+
51
+ - Python 3.9+
52
+ - Streamlit: Pro vytvoření interaktivního webového rozhraní
53
+ - Faker: Pro generování falešných dat
54
+ - Pandas: Pro zpracování a zobrazení dat
55
+ - Regex: Pro detekci vzorů PII v textu
56
+
57
+ ## Funkce aplikace
58
+
59
+ 1. **Hlavní aplikace**: Umožňuje uživatelům zadat text, vybrat typy PII k detekci a metodu anonymizace.
60
+ 2. **O projektu**: Poskytuje informace o projektu a jeho cílech.
61
+ 3. **Budoucí vývoj**: Nastiňuje plány pro budoucí vylepšení a rozšíření funkcionality.
62
+ 4. **Specifikace využití**: Detailní popis způsobů anonymizace, testování a vstupních dat.
63
+ 5. **Testovací data**: Nabízí vzorové profily a dokumenty pro testování anonymizace.