Skip to content

Denne tekst er skrevet af AI. Find fejlen.

Du læser lige nu en tekst, der aldrig har været i nærheden af et menneskeligt tastatur. Ikke én sætning er skrevet af en person. Og alligevel sidder du her og læser videre, fordi den lyder som dansk.

Spørgsmålet er bare: Gør den det godt nok? For det er nemt at skrive tekst, der lyder flydende ved første øjekast. Det gør enhver stor sprogmodel i dag. Problemet opstår, når man læser langsomt. Og det er præcis den slags langsom læsning, denne tekst er skrevet til.

 

Når sproget afslører maskinen

Når man stopper op ved et verbum, der står en anelse skævt. Når et sammensat ord pludselig er blevet til to. Når en sætning teknisk set er korrekt, men alligevel føles som noget, der er blevet oversat gennem tre sprog og et mødelokale. Det er de øjeblikke, hvor maskinen afslører sig selv.

Det er præcis dér, de fleste AI-tekster på dansk falder igennem. Ikke fordi modellerne er dumme, men fordi dansk er et lille sprog med store krav: nutids-r, sammensatte navneord, komma efter startkomma eller pausekomma, bøjningsformer, der kun giver mening, hvis man faktisk kender reglerne og ikke bare gætter ud fra kontekst.

Prøv at tænke over, hvor mange AI-genererede tekster du har læst den seneste måned.
Hvor mange af dem har du faktisk stolet på sprogligt? Og hvor mange har du skimmet, fordi de alligevel bare lød som alt det andet?
Det er ikke et retorisk spørgsmål. Det er kernen i det problem, vi forsøger at løse.

 

Kan en AI virkelig skrive fejlfrit dansk?

Ikke endnu, og det er heller ikke påstanden. Det vi arbejder på, er et system, der fanger de fejl, som de store globale sprogmodeller typisk laver på dansk: manglende nutids-r, forkert sammensatte ord og kommatering, der ikke følger Dansk Sprognævns regler. Målet er ikke perfektion, men dokumenterbar korrekthed baseret på officielle regler frem for statistisk gætværk.

Hvorfor køre sprogmodellen lokalt i stedet for at bruge en stor cloud-model?

Fordi vi vil have fuld kontrol over, hvilke regler systemet følger, og hvordan det lærer. En stor global model gætter sig til dansk ud fra statistik. Vores system er skræddersyet direkte op mod Dansk Sprognævns officielle regler og fodret med data fra Det Centrale Ordregister. Samtidig fjerner vi løbende omkostninger til eksterne leverandører som OpenAI, Anthropic og Google.

Hvad sker der, hvis nogen finder en fejl i teksten?

Så har testen virket. Hele pointen med dette blogindlæg er at invitere sprogligt bevidste læsere til at granske teksten med kritiske øjne. Hver præcis indvending hjælper os med at forbedre systemet, så den næste tekst bliver endnu mere korrekt. Vi er ikke interesserede i venlige nik, men i præcise indvendinger fra folk, der faktisk kan forklare, hvorfor en formulering halter.

 

 

Hvorfor vi byggede vores egen sprogmotor

Når man bruger en stor, global sprogmodel til at skrive dansk, får man det, den er trænet til: tekst, der statistisk set ligner dansk. Men man får ikke kontrol over, hvilke regler den følger, eller hvordan den håndterer de finere detaljer i sproget. Man kan ikke rette i dens forståelse af kommatering, man kan ikke lære den nye mønstre for sammensatte ord, og man kan ikke sikre sig, at den faktisk kender forskellen på startkomma og pausekomma.

Det var udgangspunktet for os. Vi ville have en sprogmotor, vi selv kunne skræddersy direkte op mod dansk grammatik. En motor, vi kunne give vores egen dedikerede læring, baseret på de officielle regler fra Dansk Sprognævn og RO5. Ikke et generelt værktøj, der gætter sig frem på tværs af 100 sprog, men et specialiseret system, der er bygget til ét formål: at sikre, at dansk tekst overholder de regler, som sproget faktisk har.

data_fundament_branded_v3

Samtidig ville vi gøre det uden løbende omkostninger til eksterne leverandører. Hver gang man sender tekst til OpenAI, Anthropic eller Google, betaler man per token. Det summerer hurtigt, når man arbejder med store mængder indhold. Ved at køre vores egen model lokalt, fjerner vi den omkostning helt. Systemet er vores, reglerne er vores, og driften koster os ikke noget ud over den hardware, det kører på.

Det er fodret med data fra Det Centrale Ordregister: over 150.000 sproglinjer fra kerneordbøger til komplekse bøjningsformer og semantiske relationer. Det giver et fundament, som en generel sprogmodel simpelthen ikke har, fordi dens træningsdata er domineret af engelsk og andre store sprog. Dansk er en brøkdel af det samlede korpus for de store modeller. For vores system er dansk det eneste, der findes.

 

Fra statistik til regelbaseret korrekthed

I praksis betyder det, at når systemet retter en tekst, gør det det ikke baseret på, hvad der "lyder rigtigt" ifølge millioner af internettekster. Det gør det baseret på, hvad der faktisk er rigtigt ifølge de mennesker, der har ansvaret for det danske sprog. Det er en afgørende forskel, og den mærkes, når man ser på outputtet.

For eksempel ved systemet, at "cloud-server" skal skrives som ét ord uden bindestreg: cloudserver. Det ved det, fordi sammensatte navneord i dansk som hovedregel skrives i ét. Det gætter ikke. Det slår op. Og når det møder et ord, det ikke kender, flagger det advarslen i stedet for at opfinde en rettelse.

 

Hvad de store modeller ikke kan

De store sprogmodeller, som GPT, Claude og Gemini, er imponerende. De kan skrive flydende tekst på hundredvis af sprog, og de bliver bedre for hver generation. Men når det kommer til dansk, har de et grundlæggende problem: Deres træningsdata er overvejende på engelsk, og dansk udgør en brøkdel af det samlede korpus.

Det betyder, at de lærer dansk som et statistisk mønster, ikke som et regelsæt. De ved, at "huset" sandsynligvis efterfølges af bestemte ord, men de forstår ikke nødvendigvis, hvorfor "hus" bøjes, som det gør. Forskellen er uvæsentlig i 90 procent af tilfældene. Men i de sidste 10 procent producerer de fejl, som enhver dansker med sproglig opmærksomhed ville fange med det samme.

De typiske fejl er velkendte: sammensatte ord, der splittes ("miljø beskyttelse" i stedet for "miljøbeskyttelse"), manglende nutids-r ("han leve" i stedet for "han lever"), og en kommatering, der hverken følger startkomma eller pausekomma konsekvent. Derudover har modellerne en tendens til at vælge det "glatte" ord frem for det præcise. De skriver "udfordring" i stedet for "problem", "synergier" i stedet for "samarbejde", fordi de optimerer for tekst, der ligner den tekst, de er trænet på.

Vores system tager en anden tilgang. I stedet for at gætte ud fra kontekst, slår det op i det officielle regelgrundlag. Hvert komma, hvert sammensat ord, hver bøjning kontrolleres mod de regler, som Dansk Sprognævn har defineret. Og når systemet er i tvivl, lader det teksten stå, frem for at introducere en "rettelse", der potentielt gør teksten forkert.

 

Disciplin frem for imponering

For målet er ikke at imponere nogen med, at en maskine kan skrive. Det kan enhver model i 2026. Målet er, at en maskine kan skrive dansk, der faktisk overholder de regler, som sproget har, uden at opfinde sine egne. Uden at bytte ord ud, fordi et andet ord lyder mere glat. Uden at gøre teksten generisk i forsøget på at gøre den fejlfri.

Det handler ikke om at bygge noget, der lyder smart. Det handler om at bygge noget, der opfører sig disciplineret. Kan det lade være med at opfinde regler? Kan det lade være med at vælge det glatte ord, bare fordi det føles mere naturligt for en generativ AI? Kan det rette sproget uden at gøre teksten mindre præcis, mindre menneskelig eller mere generisk?

Det er i virkeligheden en langt hårdere prøve end bare at få noget til at lyde flydende. Og det er præcis den prøve, vi har sat os for at bestå. For der er allerede nok glatte tekster i omløb. Der er nok indhold, der lyder overbevisende i tre sekunder og falder fra hinanden, når man faktisk tænker over ordene. Det, der mangler, er tekst, der kan holde til at blive gransket.

Det lyder måske ikke prangende. Det er det heller ikke. Det er bare nyttigt. Og i en tid, der drukner i AI-genereret indhold, er "nyttigt" måske det mest ambitiøse, man kan sigte efter.

 

Her kommer du ind i billedet

Denne tekst er kørt direkte gennem vores system. Ingen mennesker har rettet i den bagefter.
Det, du læser, er præcis det, AI leverede.

Og det er bevidst. For den mest interessante test af et sprogsystem er ikke, hvad systemet selv mener om sin egen kvalitet. Det er, hvad de mennesker mener, der faktisk går op i sprog.
De mennesker, der mærker en fysisk uro, når et nutids-r mangler. De mennesker, der hellere retter et komma end giver et like.

Vi mener især den slags læsere, der stopper op midt i en sætning, fordi noget føles forkert, også selvom de ikke umiddelbart kan sætte fingeren på, hvad det er. De læsere, der har en næsten urimelig opmærksomhed på detaljer, og som ikke accepterer "tæt nok på" som en standard. De læsere er ikke et problem. De er testen.

For hvis en tekst ikke kan tåle at blive gransket af mennesker, der faktisk går op i kommaer, bøjningsformer og nuancer, så er den heller ikke særlig god. Så er den bare glat. Og der er nok glatte tekster i omløb allerede.

 

Testen er din

Så her er udfordringen: Find en fejl. Ikke en holdningsmæssig uenighed eller en stilistisk præference. En reel sprogfejl. Et komma, der mangler. En bøjning, der er forkert. Et sammensat ord, der er skilt ad. En formulering, der bryder med de regler, som Dansk Sprognævn har defineret.

Kommentarfeltet er åbent. Og det er faktisk en del af projektet. For hver præcis indvending gør systemet bedre, og det gør den næste tekst mere korrekt. Den mest interessante reaktion er ikke et venligt nik. Det er den præcise indvending fra én, der faktisk kan forklare, hvorfor en formulering halter.

Jeg påstår ikke, at denne tekst er fejlfri. Det ville være arrogant. Jeg påstår bare, at den fortjener at blive læst af mennesker, der ikke lader noget passere. Og hvis den kan overleve det, så er vi tættere på noget nyttigt end de fleste tror.

Måske er det her bare en tekst. Måske er det også en prøve. Begge dele passer os fint. For den virkelige test af AI på dansk er ikke, om den kan skrive hurtigt, eller om den kan lyde selvsikker i tre afsnit. Den virkelige test er, om den kan holde til at blive læst af mennesker, der ikke lader noget passere, bare fordi det ser overbevisende ud ved første øjekast.

Kan du heller ikke følge med nyhedsstrømmen?

Det kan vi godt forstå, for hver uge bringer +20 nyheder!
Du kan gøre som 1200+ andre profesionelle og modtage nyhederne direkte i din indbakke.

Blot udfyld formularen og du er med på holdet