deformer / README.md

Update README.md

e733a9a over 1 year ago

3.87 kB

	---
	widget:
	- text: "dem har sökt upp de för att prata."
	example_title: "de/dem exempel 1"
	- text: "Jag såg de komma runt hörnet och gå i riktning mot dem byggnaderna."
	example_title: "de/dem exempel 2"
	- text: "de är ganska tråkigt att de blivit såhär, men de va de ända jag kunde göra"
	example_title: "enda/ända och de(t)"
	---

	## DeFormer

	DeFormer är en modell som har tränats på att skilja mellan `de` och `dem` i svenska meningar. Modellen kan testas direkt i panelerna till höger under Hosted Inference API genom att skriva in en mening och trycka på Compute.

	Uppdatering 2023-05-06: Modellen kan nu hantera även borttappade t:n i det. Den nya versionen har tränats till att skilja mellan de, det och dem; samt enda och ända.

	Instruktioner:
	Använd endast de/dem/enda/ända med små bokstäver vid testning. Vid träning av modellen gjordes alla "De" och "Dem" om till gemener.

	## Träningsdata
	DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk.

	Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`.

	\| Datakälla \| Meningar \| # De \| # Dem \| De/Dem ratio \|
	\| ----------- \| ----------- \| ------- \| ------- \| ------------ \|
	\| [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) \| 500660 \| 465977 \| 54331 \| 8.57x \|
	\| [JRC-Acquis raw.sv.gz](https://opus.nlpl.eu/download.php?f=JRC-Acquis/mono/JRC-Acquis.raw.sv.gz) \| 417951 \| 408576 \| 17028 \| 23.99x \|
	\| [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) \| 630601 \| 602393 \| 38852 \| 15.48x \|
	\| Total \| 1549212 \| 1476946 \| 110211 \| 13.40x \|

	Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier

	1. `ord` (alla bakgrundsord som inte är de/dem tillhör denna kategori)
	2. `DE`
	3. `DEM`
	4. `DET`
	5. `ENDA`
	6. `ÄNDA`

	Innan observationerna skickades in till modellträning byttes `de` ut mot `det` eller `dem` med cirka 50 procents sannolikhet, medan `dem` byttes till `de` i 40 procent av fallen. Liknande substutioner gjordes för `enda` och `ända`.

	## Träffsäkerhet/Accuracy

	DeFormer utvärderades på ett valideringsset bestående av 31200 meningar från samma datakälla (svenska wiki + europaparlamentet + JRC) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Majoriteten av dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).

	\| \| Accuracy \|
	\| ----------- \| ----------- \|
	\| de \| 99.9\% \|
	\| dem \| 98.6\% \|

	---
	widget:
	- text: "dem har sökt upp de för att prata."
	example_title: "de/dem exempel 1"
	- text: "Jag såg de komma runt hörnet och gå i riktning mot dem byggnaderna."
	example_title: "de/dem exempel 2"
	- text: "de är ganska tråkigt att de blivit såhär, men de va de ända jag kunde göra"
	example_title: "enda/ända och de(t)"
	---

	## DeFormer

	DeFormer är en modell som har tränats på att skilja mellan `de` och `dem` i svenska meningar. Modellen kan testas direkt i panelerna till höger under Hosted Inference API genom att skriva in en mening och trycka på Compute.

	Uppdatering 2023-05-06: Modellen kan nu hantera även borttappade t:n i det. Den nya versionen har tränats till att skilja mellan de, det och dem; samt enda och ända.

	Instruktioner:
	Använd endast de/dem/enda/ända med små bokstäver vid testning. Vid träning av modellen gjordes alla "De" och "Dem" om till gemener.

	## Träningsdata
	DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk.

	Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`.

	\| Datakälla \| Meningar \| # De \| # Dem \| De/Dem ratio \|
	\| ----------- \| ----------- \| ------- \| ------- \| ------------ \|
	\| [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) \| 500660 \| 465977 \| 54331 \| 8.57x \|
	\| [JRC-Acquis raw.sv.gz](https://opus.nlpl.eu/download.php?f=JRC-Acquis/mono/JRC-Acquis.raw.sv.gz) \| 417951 \| 408576 \| 17028 \| 23.99x \|
	\| [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) \| 630601 \| 602393 \| 38852 \| 15.48x \|
	\| Total \| 1549212 \| 1476946 \| 110211 \| 13.40x \|

	Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier

	1. `ord` (alla bakgrundsord som inte är de/dem tillhör denna kategori)
	2. `DE`
	3. `DEM`
	4. `DET`
	5. `ENDA`
	6. `ÄNDA`

	Innan observationerna skickades in till modellträning byttes `de` ut mot `det` eller `dem` med cirka 50 procents sannolikhet, medan `dem` byttes till `de` i 40 procent av fallen. Liknande substutioner gjordes för `enda` och `ända`.

	## Träffsäkerhet/Accuracy

	DeFormer utvärderades på ett valideringsset bestående av 31200 meningar från samma datakälla (svenska wiki + europaparlamentet + JRC) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Majoriteten av dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).

	\| \| Accuracy \|
	\| ----------- \| ----------- \|
	\| de \| 99.9\% \|
	\| dem \| 98.6\% \|