Jag har tränat en egen svensk TTS-röst med Piper TTS. Hon heter Alma, uppkallad efter min dotter, och är tänkt att användas i appar riktade till barn med NPF (neuropsykiatriska funktionsnedsättningar).
Bakgrund
Barnen i vår familj har alla olika varianter av autism, ADHD och språkstörning. De appar jag bygger åt dem (autismappar.se) behöver talstöd — men de befintliga svenska TTS-rösterna låter antingen robotaktiga eller är helt enkelt inte anpassade för barn. Jag ville ha en röst som känns varm, tydlig och trygg.
Tekniken
Alma är finskiktad (finetunad) ovanpå KBLabs svenska VITS-modell med hjälp av Piper TTS träningsramverk. Träningen kördes på en NVIDIA RTX 4080 i ungefär 5500 epoker — det tog några dagar, men resultatet blev bra.
Piper är ett lätt, snabbt och helt lokalt TTS-system. Ingen molntjänst behövs. Det körs direkt på enheten, vilket är viktigt för integritet och svarstid — speciellt i appar för barn.
🎯 Före och efter — röstjämförelse
Här kan du höra skillnaden mellan de olika rösterna och våra förbättringar. Vi jämför fyra varianter: den omodifierade espeak-ng (systemets standardröst), vår förbättrade espeak-ng med retroflexer och bättre uttalsregler, Piper standard (sv_SE-nst-medium) och slutligen Alma — vår egna finjusterade röst med lånordsfix.
Lyssna särskilt på hur retroflexerna (rd, rn, rt) och engelska lånord uttalas.
| Mening | espeak (före) | espeak (efter) | Piper std | Alma | Web Speech |
|---|---|---|---|---|---|
| ”Hej, jag heter Alma och jag ska hjälpa dig idag.” | |||||
| ”Barnen lekte i gården hela lördagen.” 🎯 Retroflexer: barn→bɑːɳ, gården→goːɖen, lördagen→løːɖɑːgen |
|||||
| ”Alla appar fungerar offline utan wifi.” 🎯 Lånord: offline→åfflajn, wifi→wajfaj |
|||||
| ”Kan du peka på den röda bollen?” Enkel barnvänlig mening |
|||||
| 💡 Nya exempelmeningar — visar fas 3–10 | |||||
| ”De gick till Göteborg på onsdag för att handla köttbullar.” 🎯 de→/dɔm/, Göteborg, onsdag, köttbullar |
|||||
| ”Det är riktigt viktigt att barnen äter frukost varje dag.” 🎯 det→/deː/, riktigt, viktigt |
|||||
| ”Karin Andersson bor i Trollhättan och jobbar med IT-säkerhet.” 🎯 Egennamn, ortnamn, IT-termer |
|||||
| ”Vill du starta din browser och ladda ner appen?” 🎯 Frågeintonation, lånord (browser, appen) |
|||||
Vad hör du?
- espeak-ng (före): Systemets standardröst — robotaktig och med fel uttal av retroflexer. ”Barnen” uttalas med separata r+n istället för retroflex ɳ.
- espeak-ng (efter): Vår PR #2364 — retroflexer (ɳ, ɖ, ʈ) fungerar nu korrekt. Hör skillnaden i ”barnen”, ”gården” och ”lördagen”.
- Piper standard: Neural röst (sv_SE-nst-medium) — mycket naturligare, men uttalar engelska lånord bokstavligt (”offline” som det stavas).
- Alma: Vår finjusterade röst med fonetisk förbehandling — lånord uttalas korrekt (”åfflajn”, ”wajfaj”) och rösten är optimerad för barn.
Jämförelse: standardröst vs Alma
Här nedan kan du lyssna på samma meningar upplästa av standardrösten (sv_SE-nst-medium) och Alma. Meningarna innehåller engelska lånord som offline, wifi, screenshot och browser — ord som ofta förekommer i apparna och som nu uttalas korrekt tack vare fonetisk förbehandling.
”Alla appar fungerar offline, utan wifi eller internet.”
Standardröst:
Alma:
”Du kan ladda ner uppdateringar och ta en screenshot av dina resultat.”
Standardröst:
Alma:
”Öppna din browser och klicka på länken i ditt email.”
Standardröst:
Alma:
Nästa steg
Alma-rösten är redo att integreras i apparna på autismappar.se. Planen är att använda henne som standardröst i de appar som riktar sig till yngre barn. Modellen exporteras som ONNX och kan köras helt offline — inget moln, ingen latens, ingen dataläckage.
Längre exempel
Här är ett längre stycke med blandning av vanlig svenska och engelska lånord. Alma pratar lugnt och tydligt, i ett tempo som passar yngre barn.
Standardröst:
Alma:
Uttalförbättringar
Ett stort problem med svenska TTS-röster är engelska lånord. Ord som offline, wifi, screenshot och email uttalas bokstavligt — vilket låter helt fel. I barnens appar förekommer dessa ord överallt, så det behövde lösas.
Fonetisk förbehandling
Lösningen är en enkel men effektiv preprocessing-pipeline: innan texten skickas till Piper ersätts cirka 30 vanliga engelska lånord med svenska fonetiska stavningar. Till exempel:
- offline → åfflajn
- wifi → wajfaj
- screenshot → skriinsjått
Samma pipeline funkar med både Piper och Web Speech API.
espeak-ng: svenska uttalsregler
Parallellt med den fonetiska kartläggningen har jag skickat in en pull request till espeak-ng med förbättrade svenska uttalsregler. Bland annat:
- ✅ Korrekta sje-ljud (sj, skj, stj, sch)
- ✅ Rätt hantering av -tion, gn-, dj-, hj-, lj-
- ✅ Över 899 ord i den svenska ordboken (10 faser av förbättringar)
espeak-ng är den fonemiserare som Piper använder under huven, så bättre regler där ger bättre uttal i Alma direkt.
Alma i GNOME Orca
Alma fungerar nu som röst i GNOME:s skärmläsare Orca via Spiel — GNOME:s nya talramverk. Det här är stort: för första gången kan svenska blinda och synskadade Linux-användare få en naturlig, neural svensk röst i sin skärmläsare.
Spiel ersätter det gamla speech-dispatcher-systemet och stödjer både espeak-ng och Piper-röster via D-Bus. Det betyder att Alma, som är en Piper-röst, dyker upp automatiskt som valbar röst i Orca när speech-provider-piper är installerat.

Vi har testat detta på Ubuntu 26.04 och Fedora 43. Spiel måste fortfarande byggas från källkod — det är inte paketerat i distributionerna ännu — men det fungerar. Alma hittas, väljs, och läser upp svensk text med sin vanliga varma röst, rakt in i Orca.
Våra bidrag till Spiel-ekosystemet
- ✅ Svensk översättning av spiel-installer (PR #4)
- ✅ Visa röststorlek före nedladdning i spiel-installer (PR #5)
- ✅ CI-testsvit för libspiel (PR #75)
- ✅ Förbättrad dokumentation för speech-provider-piper (PR #3)
Det här är fortfarande tidigt — Spiel är under aktiv utveckling och infrastrukturen mognar — men riktningen är tydlig. En naturlig svensk röst i GNOME:s tillgänglighetsstack, helt lokalt, utan molntjänster. Det är precis vad som behövs.
Ladda ner
Alma-rösten finns att ladda ner fritt:
Har du frågor eller vill testa rösten? Hör av dig!


Lämna ett svar