File size: 2,364 Bytes
394cba1
 
 
 
 
 
 
 
 
 
 
 
166cb7f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
---
title: Cz PII
emoji: 🐠
colorFrom: green
colorTo: gray
sdk: streamlit
sdk_version: 1.39.0
app_file: app.py
pinned: false
short_description: Pokročilý Český PII Anotátor a Anonymizátor
---

# Pokročilý Český PII Anotátor a Anonymizátor

Tento projekt představuje systém pro automatickou detekci a anonymizaci osobních údajů (PII - Personally Identifiable Information) v českém textu. Je navržen jako nástroj pro přípravu dat pro jazykové modely a chatboty, s důrazem na ochranu osobních údajů.

## Funkce

- Detekce různých typů PII v českém textu (jména, adresy, rodná čísla, telefonní čísla, e-maily, atd.)
- Tři metody anonymizace: nahrazení znakem 'X', obecnými pojmy, nebo falešnými daty
- Interaktivní webové rozhraní pro snadné použití a testování
- Generování statistik a reportů o anonymizovaných datech
- Možnost customizace typů PII k detekci

## Instalace

1. Naklonujte tento repozitář
2. Ujistěte se, že máte nainstalovaný Python 3.9 nebo novější
3. Vytvořte virtuální prostředí: `python -m venv venv`
4. Aktivujte virtuální prostředí:
   - Na Windows: `venv\Scripts\activate`
   - Na macOS a Linux: `source venv/bin/activate`
5. Nainstalujte závislosti: `pip install -r requirements.txt`

## Spuštění aplikace

Po instalaci spusťte aplikaci příkazem:

```
streamlit run app.py
```

## Struktura projektu

- `app.py`: Hlavní soubor aplikace obsahující logiku Streamlit rozhraní a funkce pro anonymizaci
- `src/czech_anonymization/`: Adresář pro moduly specifické pro českou anonymizaci
- `requirements.txt`: Seznam závislostí projektu

## Použité technologie

- Python 3.9+
- Streamlit: Pro vytvoření interaktivního webového rozhraní
- Faker: Pro generování falešných dat
- Pandas: Pro zpracování a zobrazení dat
- Regex: Pro detekci vzorů PII v textu

## Funkce aplikace

1. **Hlavní aplikace**: Umožňuje uživatelům zadat text, vybrat typy PII k detekci a metodu anonymizace.
2. **O projektu**: Poskytuje informace o projektu a jeho cílech.
3. **Budoucí vývoj**: Nastiňuje plány pro budoucí vylepšení a rozšíření funkcionality.
4. **Specifikace využití**: Detailní popis způsobů anonymizace, testování a vstupních dat.
5. **Testovací data**: Nabízí vzorové profily a dokumenty pro testování anonymizace.