Den svenska hunspell-ordboken har fått en massiv uppgradering — från 154 479 till 251 127 basord, en ökning med 63%. Det gör den till en av de mest kompletta fria svenska ordböckerna som finns.
Bakgrund
Hunspell används för stavningskontroll i LibreOffice, Firefox, Thunderbird, och de flesta Linux-distributioner. Den svenska ordboken baserades på SFOL 2.42 (Den Stora Fria Ordlistan) med 154 479 ord — men hade inte uppdaterats på flera år.
Kommersiella stavningskontroller (Microsoft Word, Google Docs) har ofta 200 000–300 000 basord. Vi ville nå samma nivå.
Vad vi lade till
| Källa |
Ord |
Beskrivning |
| SFOL 2.42 |
154 479 |
Officiell svensk ordlista (bas) |
| Översättningsminne |
+29 492 |
Ord ur 784 000 professionella GNOME/KDE/Mozilla-översättningar |
| Svenska Wikipedia |
+66 268 |
Filtrerat svenskt vokabulär (suffixvaliderat) |
| Modern svensk prosa |
+608 |
Ord ur romanen Midsommaren 1983 + Wikipedia-artiklar |
| Datatermgruppen |
+280 |
Officiella svenska IT-termer |
| Totalt |
251 127 |
|
Kvalitetskontroll
- Finsk filtrering — 5 695 finska ortnamn (järvi, joki, lahti, etc.) bortrensade från Wikipedia-data
- Engelskt filter — Alla ord jämförda mot engelsk ordbok, engelska ord utan svenska tecken uteslutna
- Morfologisk validering — Endast ord med svenska tecken (åäö) eller svenska ändelser (-ning, -tion, -het, -isk, etc.)
- TM-validering — Ord ur översättningsminnet förekommer ≥2 gånger i professionellt granskade översättningar
Installation
Ubuntu/Debian
# Lägg till repo
echo "deb https://yeager.github.io/debian-repo ./" | sudo tee /etc/apt/sources.list.d/yeager.list
sudo apt-get update
sudo apt-get install hunspell-sv
Fedora/RHEL
# Lägg till repo
sudo dnf config-manager --add-repo https://yeager.github.io/rpm-repo/yeager.repo
sudo dnf install hunspell-sv
macOS (Homebrew)
cp sv_SE.dic sv_SE.aff /opt/homebrew/share/hunspell/
cp sv_SE.dic sv_SE.aff ~/Library/Spelling/
LibreOffice-integration
En patch har skickats till LibreOffice via Gerrit (#202383). Vi har även kontaktat SFOL för att diskutera integration i den officiella distributionen.
Vad skiljer oss från andra?
De flesta hunspell-ordböcker förlitar sig enbart på en statisk ordlista. Vår ordbok kombinerar:
- SFOL — den officiella grunden
- Levande översättningsdata — ord som faktiskt används i modern svensk mjukvara
- Wikipedia-vokabulär — bred täckning av samtida svenska
- CI/CD — GitHub Actions validerar ordboken automatiskt
Resultatet: en ordbok som känner igen databasadministratör, molntjänst, stavningskontroll, e-postadress och filsystemshanterare — ord som en stavningskontroll borde kunna.
Länkar
Uppdatering 2026-03-24: +18 052 ord från SALDO och Folkets Lexikon
Ordboken har utökats ytterligare med 18 052 nya ord från två vetenskapliga källor:
| Källa |
Ord |
Beskrivning |
| SALDO (Språkbanken, GU) |
~17 000 |
131 020 lemman, CC-BY 3.0 — Sveriges största morfologiska lexikon |
| Folkets Lexikon (KTH) |
~900 |
Kurerad svensk-engelsk ordbok, CC-BY-SA 2.5 |
| Korsvaliderade |
~160 |
Ord som finns i båda källorna |
Nytt totalt: 269 221 basord (var 251 127).
Exempel på nya ord
Här är ett urval av de nya orden — allt från vardagsspråk till facktermer:
abalone, alcantara, aplik, asbestartad, avantscen, baseballträd, catwalka, fotogenique, fånggård, gingham, gisseldjur, halvnäcka, hårrörskärl, indigneras, interfix, jämsidig, karess, kollidering, kristtorn, lapska, macedonsk, misskundsamhet, paronym, plattnaglad, reguladetri, saktande, simili, skarpslipa, skrävlighet, skölpa, slittålighet, smalvägg, spänstande, stubbighet, tillgivande, tolklina, tomtebisse, torrfodrande, vinterlighet, värdhet
Metod
- SALDO:s 74 MB XML-fil parsades för alla 131 020 lemman med ordklass
- Folkets Lexikons 35 540 ord extraherades och korsvaliderades
- Varje kandidat testades mot hunspells befintliga affixexpansion
- Endast ord som hunspell INTE redan hanterade via böjningsregler inkluderades
- Filtrering: inga multiord-uttryck, inga obskyra produktiva former, längd 3–30 tecken
Nästa steg
- SALDOM-paradigmer: SALDO:s böjningsdatabas (254 MB) kan generera hunspell-affixregler för ytterligare ~10 000 ord med korrekt böjning
- Gerrit-patch: Patch #202383 uppdateras med de nya orden → alla Linux-distributioner får dem
- Debian-bugg: Ubuntu har fortfarande hunspell-sv 1.51 (!) — rapporteras till Debian-underhållarna
Uppdatering 2: SALDOM-paradigmer — 279 121 ord med böjningsstöd
Ordboken har fått ytterligare 17 684 ord med korrekt böjningsstöd tack vare SALDOM — Språkbankens fullständiga böjningsdatabas (254 MB XML).
| Steg |
Ord |
Källa |
| Bas |
154 479 |
SFOL 2.42 |
| + TM + Wikipedia |
251 169 |
Professionella översättningar + filtrerat Wikipedia |
| + SALDO + Folkets |
269 221 |
Språkbankens lemmalexikon + KTH:s ordbok |
| + SALDOM paradigmer |
279 121 |
Böjningstabeller → hunspell-affixregler |
Vad är SALDOM?
SALDOM innehåller alla böjningsformer för varje ord i SALDO — t.ex. stol → stolen, stolar, stolarna. Vi parsade 254 MB XML och mappade 34 paradigmklasser (t.ex. nn_2u_stol, vb_1a_kasta) till hunspells affixflaggor.
Resultatet: 9 726 ord med full böjning (hunspell genererar alla ordformer automatiskt) + 7 957 ord med grundigenkänning.
Exempel
Ordet akademi med affixflagga genererar automatiskt: akademi, akademin, akademier, akademierna. Utan flagga hade vi behövt lägga in varje form manuellt.
Jämförelse
- Microsoft Word svenska: ~250 000 ord (uppskattning)
- Google Docs svenska: ~200 000 ord (uppskattning)
- hunspell-sv: 279 121 ord — troligtvis störst av alla fria svenska ordböcker
Gerrit-patchen för LibreOffice har uppdaterats: Patch #202383 (patchset 4). Debian-bugg #1131786 filerad för att uppdatera från 1.51.