Blog
Kontakt os

Hvad er Synthetic Data?

Synthetic data er kunstigt genereret data, der statistisk set ligner rigtig data, men som ikke stammer fra virkelige personer eller hændelser. Det produceres af algoritmer og simuleringsmodeller, der genskaber mønstre, fordelinger og sammenhænge fra originale datasæt, uden at de oprindelige datapunkter kan genkendes.

For virksomheder løser synthetic data et af AI-tidens mest presserende problemer: Hvordan træner man AI-modeller, når data er følsomt, begrænset eller reguleret? I stedet for at vente på adgang til produktionsdata eller navigere måneders compliance-processer kan teams generere realistiske datasæt, der er klar til brug med det samme.

Synthetic data er ikke en erstatning for rigtig data. Det er et supplement, der fjerner flaskehalse og gør det muligt at bygge, teste og validere AI-løsninger hurtigere og mere sikkert.

Læsetid 4 minOpdateret marts 2026

Hvordan virker synthetic data?

Synthetic data genereres typisk via generative modeller, der lærer de statistiske egenskaber ved et originalt datasæt og derefter producerer nye datapunkter, som følger de samme mønstre. De mest udbredte metoder er Generative Adversarial Networks (GANs), hvor to neurale netværk konkurrerer mod hinanden for at skabe stadig mere realistisk data, samt Variational Autoencoders (VAEs), der komprimerer data til en latent repræsentation og derefter genererer nye variationer.

Processen kræver et kildedatasæt, som modellen lærer fra. Kvaliteten af den syntetiske data afhænger direkte af kvaliteten af dette grundlag. Hvis kildedata indeholder skævheder eller fejl, vil den syntetiske data arve dem. Derfor er datakvalitet og governance forudsætninger for, at synthetic data skaber reel værdi.

Det er vigtigt at skelne mellem fuld syntetisk data, hvor ingen af de genererede datapunkter kan kobles til en reel person, og delvist syntetisk data, hvor visse kolonner eller felter erstattes med kunstige værdier. Begge former har deres anvendelser, men det fulde format giver den stærkeste beskyttelse af persondata.

Resultaterne valideres ved at sammenligne statistiske fordelinger, korrelationer og kanttilfælde med originaldata. Kun når den syntetiske data passerer disse tests, er den klar til brug i Machine Learning-pipelines og analytiske workflows.

Consile hjælper virksomheder med at integrere synthetic data i deres AI-strategi. Kontakt os for en uforpligtende vurdering af, hvordan kunstig data kan accelerere jeres AI-projekter og løse dataudfordringer.

Synthetic data i erhvervslivet

Den mest umiddelbare fordel ved synthetic data er accelereret AI-udvikling. Teams, der normalt venter uger på adgang til følsomme datasæt, kan generere træningsdata på timer. Det forkorter udviklingscyklusser markant og gør det muligt at eksperimentere med modeller langt tidligere i processen.

Inden for sundhed og finans er synthetic data særligt værdifuld. Hospitaler kan dele patientlignende data med forskere uden at kompromittere privatlivsbeskyttelsen. Banker kan simulere transaktionsmønstre til træning af fraud-detektionsmodeller, inklusive sjældne scenarier som hvidvask, der optræder for sjældent i rigtig data til at modeller kan lære dem.

GDPR og EU AI Act skærper kravene til, hvordan virksomheder håndterer data. Synthetic data tilbyder en vej til at arbejde datadrevet uden at tilgå personhenførbare oplysninger. Det er ikke en automatisk compliance-løsning, men det reducerer risikoen betydeligt, især når det kombineres med privacy-enhancing technologies som differential privacy.

For virksomheder med begrænset data er synthetic data en mulighed for at udvide træningssæt kunstigt. En billedgenkendelsesmodel til kvalitetskontrol i produktion kan fx suppleres med syntetiske billeder af defekte produkter, som sjældent forekommer i den virkelige verden. Denne tilgang gør modellen mere robust over for kanttilfælde.

Danske virksomheder og institutioner har allerede taget synthetic data i brug. Start-ups som syntheticAIdata arbejder med at generere data til optimering af forsyningskæder, mens Rigshospitalet og Region Sjælland udforsker syntetiske sundhedsdata til forskning og standardisering af privacy-modeller.

Hvad synthetic data ikke er

Synthetic data er ikke anonymiseret data. Anonymisering fjerner eller maskerer identificerbare oplysninger i eksisterende datasæt. Synthetic data producerer helt nye datapunkter, der aldrig har eksisteret. Det er en fundamental forskel. Anonymiserede data kan i visse tilfælde de-anonymiseres. Syntetisk data har ikke denne svaghed, forudsat at genereringsmodellen er korrekt designet.

Det er heller ikke et universelt alternativ til rigtig data. Deep Learning-modeller trænet udelukkende på syntetisk data kan mangle den virkelige verdens støj, variation og uforudsigelighed. Et computer vision-system trænet på perfekte syntetiske billeder kan fejle, når kameraet sidder skævt, belysningen er ujævn eller produkter er forkert mærket. Den bedste praksis er at bruge synthetic data som supplement, der fylder huller i træningsdatasæt, ikke som eneste kilde.

Endelig er synthetic data ikke automatisk GDPR-compliant. Selvom genererede data ikke indeholder personoplysninger, kan den underliggende model have lagret mønstre fra originaldata, der gør det muligt at udlede information om enkeltpersoner. Virksomheder skal stadig udføre privacy-vurderinger og anvende passende sikkerhedsforanstaltninger, når de arbejder med synthetic data.

Ofte stillede spørgsmål om Synthetic Data

Er synthetic data lige så god som rigtig data til AI-træning?

Synthetic data er mest effektiv som supplement til rigtig data. Den kan fylde huller i datasæt, repræsentere sjældne scenarier og udvide træningsgrundlaget. Men modeller bør altid valideres mod rigtig data for at sikre, at de fungerer i praksis.

Kan vi bruge synthetic data til at omgå GDPR?

Nej. Synthetic data reducerer risikoen, men det er ikke automatisk GDPR-compliant. Den underliggende genereringsmodel kan have lært mønstre, der afslører information om individer. En privacy-vurdering er stadig nødvendig. Consile hjælper med at designe data-strategier, der balancerer innovation og compliance.

Hvad koster det at komme i gang med synthetic data?

Omkostningerne varierer med kompleksiteten. Simple tabeldata kan genereres med open source-værktøjer som SDV eller Gretel på kort tid. Mere avancerede scenarier som billeder, tekst eller multimodale datasæt kræver specialiseret infrastruktur. Start med en konkret use case og skaler derfra.