Op mod 56 % af alle Google-søgninger ender i dag uden et eneste klik. For B2B-virksomheder, der har...
Synthetic data er kunstigt genereret data, der spejler virkelig data uden at afsløre følsomme oplysninger. Lær hvordan det bruges til AI-træning og compliance.


Synthetic data genereres typisk via generative modeller, der lærer de statistiske egenskaber ved et originalt datasæt og derefter producerer nye datapunkter, som følger de samme mønstre. De mest udbredte metoder er Generative Adversarial Networks (GANs), hvor to neurale netværk konkurrerer mod hinanden for at skabe stadig mere realistisk data, samt Variational Autoencoders (VAEs), der komprimerer data til en latent repræsentation og derefter genererer nye variationer.
Processen kræver et kildedatasæt, som modellen lærer fra. Kvaliteten af den syntetiske data afhænger direkte af kvaliteten af dette grundlag. Hvis kildedata indeholder skævheder eller fejl, vil den syntetiske data arve dem. Derfor er datakvalitet og governance forudsætninger for, at synthetic data skaber reel værdi.
Det er vigtigt at skelne mellem fuld syntetisk data, hvor ingen af de genererede datapunkter kan kobles til en reel person, og delvist syntetisk data, hvor visse kolonner eller felter erstattes med kunstige værdier. Begge former har deres anvendelser, men det fulde format giver den stærkeste beskyttelse af persondata.
Resultaterne valideres ved at sammenligne statistiske fordelinger, korrelationer og kanttilfælde med originaldata. Kun når den syntetiske data passerer disse tests, er den klar til brug i Machine Learning-pipelines og analytiske workflows.
Den mest umiddelbare fordel ved synthetic data er accelereret AI-udvikling. Teams, der normalt venter uger på adgang til følsomme datasæt, kan generere træningsdata på timer. Det forkorter udviklingscyklusser markant og gør det muligt at eksperimentere med modeller langt tidligere i processen.
Inden for sundhed og finans er synthetic data særligt værdifuld. Hospitaler kan dele patientlignende data med forskere uden at kompromittere privatlivsbeskyttelsen. Banker kan simulere transaktionsmønstre til træning af fraud-detektionsmodeller, inklusive sjældne scenarier som hvidvask, der optræder for sjældent i rigtig data til at modeller kan lære dem.
GDPR og EU AI Act skærper kravene til, hvordan virksomheder håndterer data. Synthetic data tilbyder en vej til at arbejde datadrevet uden at tilgå personhenførbare oplysninger. Det er ikke en automatisk compliance-løsning, men det reducerer risikoen betydeligt, især når det kombineres med privacy-enhancing technologies som differential privacy.
For virksomheder med begrænset data er synthetic data en mulighed for at udvide træningssæt kunstigt. En billedgenkendelsesmodel til kvalitetskontrol i produktion kan fx suppleres med syntetiske billeder af defekte produkter, som sjældent forekommer i den virkelige verden. Denne tilgang gør modellen mere robust over for kanttilfælde.
Danske virksomheder og institutioner har allerede taget synthetic data i brug. Start-ups som syntheticAIdata arbejder med at generere data til optimering af forsyningskæder, mens Rigshospitalet og Region Sjælland udforsker syntetiske sundhedsdata til forskning og standardisering af privacy-modeller.
Synthetic data er ikke anonymiseret data. Anonymisering fjerner eller maskerer identificerbare oplysninger i eksisterende datasæt. Synthetic data producerer helt nye datapunkter, der aldrig har eksisteret. Det er en fundamental forskel. Anonymiserede data kan i visse tilfælde de-anonymiseres. Syntetisk data har ikke denne svaghed, forudsat at genereringsmodellen er korrekt designet.
Det er heller ikke et universelt alternativ til rigtig data. Deep Learning-modeller trænet udelukkende på syntetisk data kan mangle den virkelige verdens støj, variation og uforudsigelighed. Et computer vision-system trænet på perfekte syntetiske billeder kan fejle, når kameraet sidder skævt, belysningen er ujævn eller produkter er forkert mærket. Den bedste praksis er at bruge synthetic data som supplement, der fylder huller i træningsdatasæt, ikke som eneste kilde.
Endelig er synthetic data ikke automatisk GDPR-compliant. Selvom genererede data ikke indeholder personoplysninger, kan den underliggende model have lagret mønstre fra originaldata, der gør det muligt at udlede information om enkeltpersoner. Virksomheder skal stadig udføre privacy-vurderinger og anvende passende sikkerhedsforanstaltninger, når de arbejder med synthetic data.
Machine Learning (ML): Den overordnede disciplin, der bruger data til at træne modeller. Synthetic data er et af de centrale værktøjer til at skaffe kvalitetstræningsdata.
Fine-tuning: Tilpasning af en præ-trænet model til en specifik opgave, ofte med behov for domænespecifik data, som synthetic data kan levere.
Data Pipeline: Den infrastruktur, der transporterer og transformerer data fra kilde til model. Synthetic data-generering kan være et trin i denne pipeline.
Deep Learning: En undergruppe af ML baseret på neurale netværk, som typisk kræver store mængder træningsdata og dermed drager fordel af synthetic data.
Data Governance (AI Act): Rammerne for, hvordan data indsamles, opbevares og bruges, som er direkte relevant for ansvarlig brug af synthetic data.
Algoritmisk Bias: Skævheder i data, som synthetic data både kan arve og potentielt korrigere, afhængigt af genereringsmetoden.
Op mod 56 % af alle Google-søgninger ender i dag uden et eneste klik. For B2B-virksomheder, der har...
Forestil dig en fremtid, hvor dine kunder aldrig besøger din hjemmeside igen. Ikke fordi du har...
AI kan nu producere videoer af jeres CEO, der er umulige at skelne fra ægte optagelser. Spørgsmålet...