Skip to content
AI Ordbog / Data Drift

Data Drift

Data drift opstår, når inputdata til AI-modeller ændrer karakter over tid. Forstå årsagerne, konsekvenserne og hvordan din virksomhed opdager og håndterer drift.

Data Drift
Frame 4
Frame 3
Frame 2
Frame 1
Frame 5
Data Drift
AI ORDBOG

Hvordan opstår data drift?

Data drift sker, når den statistiske profil af de inputdata, en model ser i produktion, afviger fra profilen i træningsdataene. Det handler ikke om fejl i data, men om at virkeligheden forandrer sig. Kundeadfærd skifter, markedsforhold ændres, sæsonvariationer slår igennem, eller nye produkter og segmenter dukker op.

Et konkret eksempel: En efterspørgselsprognose trænet på forbrugsmønstre fra 2023 vil sandsynligvis ramme skævt i 2026, fordi kundernes præferencer, indkøbskanaler og økonomiske situation har ændret sig. Modellen ved det bare ikke, medmindre nogen overvåger dens inputdata aktivt.

Teknisk set måles data drift ved hjælp af statistiske tests, der sammenligner fordelingen af produktionsdata med træningsdata. Metrikker som Population Stability Index (PSI) og Jensen-Shannon Divergence (JSD) bruges til at kvantificere, hvor meget fordelingerne har forskudt sig. Når forskydningen overskrider en fastsat tærskel, udløses en alarm.

Det er vigtigt at skelne data drift fra concept drift. Ved data drift ændres inputdataenes fordeling, men sammenhængen mellem input og output er den samme. Ved concept drift ændres selve den underliggende sammenhæng. Begge typer kan føre til, at modellen træffer dårligere beslutninger, men de kræver forskellige strategier at håndtere.

Data drift i erhvervslivet

For virksomheder, der har investeret i AI, er data drift ikke et teoretisk problem. Det er en operationel risiko, der direkte påvirker bundlinjen. En prismodel, der langsomt underpriser produkter, fordi markedsdata har forskudt sig, kan koste millioner, før nogen bemærker det. En kreditvurderingsmodel, der godkender flere risikable lån, fordi låntagerprofilerne har ændret sig, skaber reelle tab.

Inden for marketing og salg kan data drift betyde, at anbefalingsmotorer viser irrelevant indhold, at AI Lead Scoring mister sin præcision, eller at kundesegmenteringer bliver forældede. Resultatet er lavere konverteringsrater og spildte marketingbudgetter.

I produktion og supply chain kan drift i sensordata føre til, at forudsigelser om vedligeholdelse eller efterspørgsel bliver upålidelige. I sundhedssektoren kan skiftende patientdemografi påvirke diagnostiske modeller. Fælles for alle brancher er, at data drift ikke er et engangsscenario, men en permanent udfordring for enhver AI-model i produktion.

Den mest effektive tilgang er at integrere drift-monitoring i virksomhedens MLOps-praksis. Det betyder automatiserede overvågningsdashboards, der løbende sammenligner produktionsdata med træningsbaselinjen, klare tærskler for, hvornår modellen skal gentrænes, og en fast kadence for model-review. Virksomheder, der behandler deres AI-modeller som statiske systemer, vil uundgåeligt opleve performancetab.

Hvad data drift ikke er

Data drift forveksles ofte med dårlig datakvalitet, men de to er fundamentalt forskellige. Dårlig datakvalitet handler om fejl, manglende værdier eller inkonsistens i data. Data drift handler om, at korrekte data fra i dag ser anderledes ud end korrekte data fra i går. Begge er problematiske, men de kræver forskellige løsninger.

Data drift er heller ikke det samme som model drift, selvom begreberne bruges i flæng. Model drift er et overordnet begreb, der dækker enhver forringelse af modellens performance over tid. Data drift er en specifik årsag til model drift. En anden årsag er concept drift, hvor selve den virkelighed, modellen forsøger at forudsige, har ændret sig.

Endelig er data drift ikke et tegn på, at modellen var dårlig fra starten. Selv den bedst trænede model vil opleve drift, hvis den kører længe nok. Det afgørende er ikke at undgå drift, men at have systemer på plads til at opdage og reagere på den, før den påvirker forretningen.

Relaterede termer

Model Drift: Det overordnede begreb for forringelse af en AI-models performance over tid, hvor data drift er en af de primære årsager.

Model Monitoring: Praksis for løbende at overvåge AI-modellers performance, inputdata og output i produktion for at opdage problemer som drift.

Machine Learning (ML): Den underliggende teknologi, hvor data drift er en central udfordring, da ML-modeller er afhængige af stabile datafordelinger.

MLOps: Den operationelle disciplin, der systematiserer håndtering af ML-modeller i produktion, herunder drift-detektion og gentræning.

Feature Store: Et centralt lager for de datavariable, en model bruger, som kan hjælpe med at standardisere og overvåge inputdata.

Guardrails: Sikkerhedsmekanismer i AI-systemer, der kan inkludere drift-detektion som en af flere beskyttelsesforanstaltninger.