Lauler commited on
Commit
4528568
1 Parent(s): e733a9a

Update README to reflect changes in v2.0

Browse files
Files changed (1) hide show
  1. README.md +14 -9
README.md CHANGED
@@ -20,16 +20,19 @@ Använd endast de/dem/enda/ända med små bokstäver vid testning. Vid träning
20
  ## Träningsdata
21
  DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk.
22
 
23
- Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`.
24
 
25
- | Datakälla | Meningar | # De | # Dem | De/Dem ratio |
26
- | ----------- | ----------- | ------- | ------- | ------------ |
27
- | [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 500660 | 465977 | 54331 | 8.57x |
28
- | [JRC-Acquis raw.sv.gz](https://opus.nlpl.eu/download.php?f=JRC-Acquis/mono/JRC-Acquis.raw.sv.gz) | 417951 | 408576 | 17028 | 23.99x |
29
- | [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 630601 | 602393 | 38852 | 15.48x |
30
- | **Total** | **1549212** | **1476946** | **110211** | **13.40x** |
 
 
 
31
 
32
- Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
33
 
34
  1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori)
35
  2. **`DE`**
@@ -38,12 +41,14 @@ Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de`
38
  5. **`ENDA`**
39
  6. **`ÄNDA`**
40
 
41
- Innan observationerna skickades in till modellträning byttes `de` ut mot `det` eller `dem` med cirka 50 procents sannolikhet, medan `dem` byttes till `de` i 40 procent av fallen. Liknande substutioner gjordes för `enda` och `ända`.
42
 
43
  ## Träffsäkerhet/Accuracy
44
 
45
  DeFormer utvärderades på ett valideringsset bestående av 31200 meningar från samma datakälla (svenska wiki + europaparlamentet + JRC) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Majoriteten av dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
46
 
 
 
47
  | | Accuracy |
48
  | ----------- | ----------- |
49
  | de | 99.9\% |
 
20
  ## Träningsdata
21
  DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk.
22
 
23
+ Endast meningar innehållandes `de`, `dem`, `det`, `enda` eller `ända` behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomster av respektive ord.
24
 
25
+ | Datakälla | Meningar | # De | # Dem | # Det | # Enda | # Ända |
26
+ | ----------- | ----------- | ----------- | ----------- | -------------|---------- | --------- |
27
+ | [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 1150556 | 461305 | 53726 | 824065 | 15553 | 1781 |
28
+ | [JRC-Acquis raw.sv.gz](https://opus.nlpl.eu/download.php?f=JRC-Acquis/mono/JRC-Acquis.raw.sv.gz) | 648387 | 399628 | 16539 | 326925 | 5975 | 267 |
29
+ | [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 1615505 | 598371 | 38649 | 594038 | 24805 | 7063 |
30
+ | [Riksdagens anföranden](https://data.riksdagen.se/data/anforanden/) | 671031 | 497515 | 118069 | 659051 | 25912 | 4917 |
31
+ | [Riksdagens motioner (2014-2022)](https://data.riksdagen.se/data/dokument/) | 85124 | 85124 | 11773 | 104526 | 2740 | 453 |
32
+ | [SweDN (Superlim 2)](https://spraakbanken.gu.se/en/resources/swedn) | 93026 | 70254 | 16399 | 88087 | 5104 | 1236 |
33
+ | **Total** | **4286974** | **2112197** | **255155** | **2596692** | **80089** | **15717** |
34
 
35
+ Vid träningen av DeFormer introducerades slumpmässiga substitioner, där ovanstående ord byttes ut mot de former som de vanligen förväxlas med. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
36
 
37
  1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori)
38
  2. **`DE`**
 
41
  5. **`ENDA`**
42
  6. **`ÄNDA`**
43
 
44
+ Innan observationerna skickades in till modellträning byttes `de` ut mot `det` eller `dem` med cirka 50 procents sannolikhet, medan `dem` byttes till `de` i 40 procent av fallen. Liknande substutioner gjordes mellan `enda` och `ända`.
45
 
46
  ## Träffsäkerhet/Accuracy
47
 
48
  DeFormer utvärderades på ett valideringsset bestående av 31200 meningar från samma datakälla (svenska wiki + europaparlamentet + JRC) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Majoriteten av dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
49
 
50
+ **OBS:** Tabellen nedan gäller för den äldre varianten av DeFormer som endast skiljde mellan `de` och `dem`.
51
+
52
  | | Accuracy |
53
  | ----------- | ----------- |
54
  | de | 99.9\% |