hunspell sv_SE — 279 000 ord: Största fria svenska ordboken

Den svenska hunspell-ordboken har fått en massiv uppgradering — från 154 479 till 251 127 basord, en ökning med 63%. Det gör den till en av de mest kompletta fria svenska ordböckerna som finns.

Bakgrund

Hunspell används för stavningskontroll i LibreOffice, Firefox, Thunderbird, och de flesta Linux-distributioner. Den svenska ordboken baserades på SFOL 2.42 (Den Stora Fria Ordlistan) med 154 479 ord — men hade inte uppdaterats på flera år.

Kommersiella stavningskontroller (Microsoft Word, Google Docs) har ofta 200 000–300 000 basord. Vi ville nå samma nivå.

Vad vi lade till

Källa Ord Beskrivning
SFOL 2.42 154 479 Officiell svensk ordlista (bas)
Översättningsminne +29 492 Ord ur 784 000 professionella GNOME/KDE/Mozilla-översättningar
Svenska Wikipedia +66 268 Filtrerat svenskt vokabulär (suffixvaliderat)
Modern svensk prosa +608 Ord ur romanen Midsommaren 1983 + Wikipedia-artiklar
Datatermgruppen +280 Officiella svenska IT-termer
Totalt 251 127

Kvalitetskontroll

  • Finsk filtrering — 5 695 finska ortnamn (järvi, joki, lahti, etc.) bortrensade från Wikipedia-data
  • Engelskt filter — Alla ord jämförda mot engelsk ordbok, engelska ord utan svenska tecken uteslutna
  • Morfologisk validering — Endast ord med svenska tecken (åäö) eller svenska ändelser (-ning, -tion, -het, -isk, etc.)
  • TM-validering — Ord ur översättningsminnet förekommer ≥2 gånger i professionellt granskade översättningar

Installation

Ubuntu/Debian

# Lägg till repo
echo "deb https://yeager.github.io/debian-repo ./" | sudo tee /etc/apt/sources.list.d/yeager.list
sudo apt-get update
sudo apt-get install hunspell-sv

Fedora/RHEL

# Lägg till repo
sudo dnf config-manager --add-repo https://yeager.github.io/rpm-repo/yeager.repo
sudo dnf install hunspell-sv

macOS (Homebrew)

cp sv_SE.dic sv_SE.aff /opt/homebrew/share/hunspell/
cp sv_SE.dic sv_SE.aff ~/Library/Spelling/

LibreOffice-integration

En patch har skickats till LibreOffice via Gerrit (#202383). Vi har även kontaktat SFOL för att diskutera integration i den officiella distributionen.

Vad skiljer oss från andra?

De flesta hunspell-ordböcker förlitar sig enbart på en statisk ordlista. Vår ordbok kombinerar:

  • SFOL — den officiella grunden
  • Levande översättningsdata — ord som faktiskt används i modern svensk mjukvara
  • Wikipedia-vokabulär — bred täckning av samtida svenska
  • CI/CD — GitHub Actions validerar ordboken automatiskt

Resultatet: en ordbok som känner igen databasadministratör, molntjänst, stavningskontroll, e-postadress och filsystemshanterare — ord som en stavningskontroll borde kunna.

Länkar


Uppdatering 2026-03-24: +18 052 ord från SALDO och Folkets Lexikon

Ordboken har utökats ytterligare med 18 052 nya ord från två vetenskapliga källor:

Källa Ord Beskrivning
SALDO (Språkbanken, GU) ~17 000 131 020 lemman, CC-BY 3.0 — Sveriges största morfologiska lexikon
Folkets Lexikon (KTH) ~900 Kurerad svensk-engelsk ordbok, CC-BY-SA 2.5
Korsvaliderade ~160 Ord som finns i båda källorna

Nytt totalt: 269 221 basord (var 251 127).

Exempel på nya ord

Här är ett urval av de nya orden — allt från vardagsspråk till facktermer:

abalone, alcantara, aplik, asbestartad, avantscen, baseballträd, catwalka, fotogenique, fånggård, gingham, gisseldjur, halvnäcka, hårrörskärl, indigneras, interfix, jämsidig, karess, kollidering, kristtorn, lapska, macedonsk, misskundsamhet, paronym, plattnaglad, reguladetri, saktande, simili, skarpslipa, skrävlighet, skölpa, slittålighet, smalvägg, spänstande, stubbighet, tillgivande, tolklina, tomtebisse, torrfodrande, vinterlighet, värdhet

Metod

  • SALDO:s 74 MB XML-fil parsades för alla 131 020 lemman med ordklass
  • Folkets Lexikons 35 540 ord extraherades och korsvaliderades
  • Varje kandidat testades mot hunspells befintliga affixexpansion
  • Endast ord som hunspell INTE redan hanterade via böjningsregler inkluderades
  • Filtrering: inga multiord-uttryck, inga obskyra produktiva former, längd 3–30 tecken

Nästa steg

  • SALDOM-paradigmer: SALDO:s böjningsdatabas (254 MB) kan generera hunspell-affixregler för ytterligare ~10 000 ord med korrekt böjning
  • Gerrit-patch: Patch #202383 uppdateras med de nya orden → alla Linux-distributioner får dem
  • Debian-bugg: Ubuntu har fortfarande hunspell-sv 1.51 (!) — rapporteras till Debian-underhållarna

Uppdatering 2: SALDOM-paradigmer — 279 121 ord med böjningsstöd

Ordboken har fått ytterligare 17 684 ord med korrekt böjningsstöd tack vare SALDOM — Språkbankens fullständiga böjningsdatabas (254 MB XML).

Steg Ord Källa
Bas 154 479 SFOL 2.42
+ TM + Wikipedia 251 169 Professionella översättningar + filtrerat Wikipedia
+ SALDO + Folkets 269 221 Språkbankens lemmalexikon + KTH:s ordbok
+ SALDOM paradigmer 279 121 Böjningstabeller → hunspell-affixregler

Vad är SALDOM?

SALDOM innehåller alla böjningsformer för varje ord i SALDO — t.ex. stol → stolen, stolar, stolarna. Vi parsade 254 MB XML och mappade 34 paradigmklasser (t.ex. nn_2u_stol, vb_1a_kasta) till hunspells affixflaggor.

Resultatet: 9 726 ord med full böjning (hunspell genererar alla ordformer automatiskt) + 7 957 ord med grundigenkänning.

Exempel

Ordet akademi med affixflagga genererar automatiskt: akademi, akademin, akademier, akademierna. Utan flagga hade vi behövt lägga in varje form manuellt.

Jämförelse

  • Microsoft Word svenska: ~250 000 ord (uppskattning)
  • Google Docs svenska: ~200 000 ord (uppskattning)
  • hunspell-sv: 279 121 ord — troligtvis störst av alla fria svenska ordböcker

Gerrit-patchen för LibreOffice har uppdaterats: Patch #202383 (patchset 4). Debian-bugg #1131786 filerad för att uppdatera från 1.51.

Kommentarer

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Denna webbplats använder Akismet för att minska skräppost. Lär dig om hur din kommentarsdata bearbetas.