README.md · Lauler/deformer at e733a9a08f6b7d0c0c277d4c6e576d22cd77054d

metadata

widget:
  - text: dem har sökt upp de för att prata.
    example_title: de/dem exempel 1
  - text: Jag såg de komma runt hörnet och gå i riktning mot dem byggnaderna.
    example_title: de/dem exempel 2
  - text: de är ganska tråkigt att de blivit såhär, men de va de ända jag kunde göra
    example_title: enda/ända och de(t)

DeFormer

DeFormer är en modell som har tränats på att skilja mellan de och dem i svenska meningar. Modellen kan testas direkt i panelerna till höger under Hosted Inference API genom att skriva in en mening och trycka på Compute.

Uppdatering 2023-05-06: Modellen kan nu hantera även borttappade t:n i det. Den nya versionen har tränats till att skilja mellan de, det och dem; samt enda och ända.

Instruktioner: Använd endast de/dem/enda/ända med små bokstäver vid testning. Vid träning av modellen gjordes alla "De" och "Dem" om till gemener.

Träningsdata

DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från OPUS. Källorna valdes ut för att de antogs ha ett korrekt språkbruk.

Endast meningar innehållandes de eller dem -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av de/dem.

Datakälla	Meningar	# De	# Dem	De/Dem ratio
Europaparl sv.txt.gz	500660	465977	54331	8.57x
JRC-Acquis raw.sv.gz	417951	408576	17028	23.99x
Wikimedia sv.txt.gz	630601	602393	38852	15.48x
Total	1549212	1476946	110211	13.40x

Vid träningen av DeFormer introducerades slumpmässiga substitioner, där de eller dem byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier

ord (alla bakgrundsord som inte är de/dem tillhör denna kategori)
DE
DEM
DET
ENDA
ÄNDA

Innan observationerna skickades in till modellträning byttes de ut mot det eller dem med cirka 50 procents sannolikhet, medan dem byttes till de i 40 procent av fallen. Liknande substutioner gjordes för enda och ända.

Träffsäkerhet/Accuracy

DeFormer utvärderades på ett valideringsset bestående av 31200 meningar från samma datakälla (svenska wiki + europaparlamentet + JRC) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande de i ursprungsmeningarna ändrades till dem, medan 40 procent av förekommande dem ändrades till de. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga de/dem som-konstruktioner med bisatser. Majoriteten av dessa är egentligen inte att anse som felaktiga, eftersom båda formerna är accepterade.

	Accuracy
de	99.9%
dem	98.6%