Pre-deployment Evaluation (Praelanceringsevaluering af AI)
Pre-deployment evaluation er den systematiske proces, hvor et AI-system testes, vurderes og valideres, inden det sættes i drift. Formålet er at sikre, at systemet leverer korrekte resultater, opfylder lovkrav og ikke udgør en risiko for virksomheden eller dens kunder.
For virksomheder, der implementerer AI, er prælanceringsevaluering ikke blot en teknisk øvelse. Det er en forretningskritisk disciplin, der reducerer risikoen for fejlbehæftede beslutninger, compliance-brud og reputationsskader. Med EU AI Act bliver systematisk evaluering desuden et lovkrav for højrisiko-AI-systemer fra august 2026.
Kort sagt: pre-deployment evaluation er forskellen mellem et AI-projekt, der skaber værdi, og et der skaber problemer.
Hvad indgår i en pre-deployment evaluation?
En grundig prælanceringsevaluering dækker flere dimensioner af AI-systemets kvalitet og pålidelighed. Det handler ikke kun om, hvorvidt modellen giver korrekte svar, men om hele systemets adfærd under realistiske forhold.
Funktionel test verificerer, at systemet gør det, det er designet til. Det inkluderer test med repræsentative datasæt, edge cases og scenarier, som modellen ikke har set under træning. For LLM-baserede systemer omfatter det også evaluering af output-kvalitet på tværs af forskellige prompttyper og brugerscenarier.
Robusthedstest undersøger, hvordan systemet håndterer uventet input, fejlbehæftede data og forsøg på manipulation. Det er særligt relevant for systemer, der interagerer direkte med slutbrugere, hvor inputkvaliteten varierer betydeligt.
Fairness- og biasanalyse afdækker, om systemet forskelsbehandler bestemte grupper. Det kræver test med demografisk balancerede datasæt og systematisk gennemgang af outputmønstre. Under ansvarlig AI er dette et centralt element.
Performancetest måler svartider, skalering og ressourceforbrug under produktionslignende belastning. Et system, der fungerer i laboratoriet men bryder sammen under reelle mængder, er ikke klar til lancering.
Consile hjælper virksomheder med at etablere robuste evalueringsprocesser for AI-systemer. Kontakt os for at drøfte, hvordan I sikrer kvalitet og compliance inden jeres næste AI-lancering.
Pre-deployment evaluation i erhvervslivet
For virksomheder er pre-deployment evaluation en investering, der betaler sig mange gange igen. De mest kostbare AI-fejl opstår ikke under udvikling, men efter lancering, når systemet træffer beslutninger med konsekvenser for kunder, medarbejdere eller forretningen.
I finanssektoren bruges prælanceringsevaluering til at validere kreditvurderings- og risikomodeller, inden de får indflydelse på reelle beslutninger. Fejl her kan betyde uberettigede afslag, regulatoriske sanktioner eller tab. En grundig evaluering inkluderer stress-test mod historiske kriser og fairness-analyse på tværs af kundegrupper.
Inden for kundeservice sikrer evaluering, at AI-chatbots og automatiserede svar lever op til kvalitetsstandarder, før de møder rigtige kunder. Det omfatter test af hallucinationer, tonalitet og håndtering af følsomme henvendelser.
I sundhed og life science er prælanceringsevaluering lovreguleret og ekstremt grundig. AI-systemer, der understøtter diagnostik eller behandlingsforslag, gennemgår kliniske valideringer, der kan tage måneder. Her er konsekvensen af fejl potentielt livstruende.
Selv for mindre kritiske anvendelser, som marketingautomation eller intern videnshåndtering, reducerer en struktureret evaluering risikoen for pinlige fejl, ineffektive løsninger og spildte ressourcer. EU's testfaciliteter (TEF) giver desuden danske virksomheder mulighed for at teste AI-produkter i kontrollerede omgivelser inden lancering.
Hvad pre-deployment evaluation ikke er
Pre-deployment evaluation er ikke det samme som at køre et par testcases og erklære systemet klar. Det er heller ikke en engangsøvelse, der erstatter løbende overvågning efter lancering. Evaluering før lancering og monitoring i produktion er to komplementære discipliner.
Det er heller ikke udelukkende en teknisk opgave. En meningsfuld evaluering kræver input fra forretningen om acceptable fejlrater, fra juridisk afdeling om compliance-krav, og fra slutbrugere om forventninger. Et AI-system kan være teknisk velfungerende men alligevel uegnet, fordi det ikke matcher forretningens behov eller brugernes kontekst.
Endelig er pre-deployment evaluation ikke en garanti mod alle fejl. Formålet er at identificere og mitigere kendte risici systematisk. Det uventede vil stadig forekomme, og derfor er en solid AI governance-ramme med monitoring, feedback-loops og eskalationsprocedurer nødvendig som supplement.
Relaterede termer
AI governance er den organisatoriske ramme for ansvarlig AI-brug. Forstå de fem områder, hvorfor det haster med EU AI Act, og hvor I begynder.
EU AI Act er verdens første samlede AI-lov. Forstå de fire risikokategorier, kravene, tidslinjen frem til 2027, og hvad det betyder for jer.
En AI roadmap er en faseopdelt plan for, hvordan I indfører AI. Se de fire faser, hvad den skal indeholde, og hvordan den prioriteres efter værdi.
Fine-tuning træner en eksisterende AI-model videre på jeres egne data. Forstå hvordan det virker, og hvornår det slår RAG og prompt engineering.
Ofte stillede spørgsmål om Pre-deployment Evaluation
Hvornår er pre-deployment evaluation et lovkrav?+
Under EU AI Act bliver systematisk evaluering obligatorisk for højrisiko-AI-systemer fra august 2026. Det inkluderer konformitetsvurdering, Fundamental Rights Impact Assessment og teknisk dokumentation. Også for ikke-højrisiko-systemer er evaluering en anbefalet best practice.
Hvor lang tid tager en pre-deployment evaluation?+
Det afhænger af systemets kompleksitet og risikoprofil. For en intern chatbot kan en grundig evaluering tage 1-2 uger. For et højrisiko-system i finans eller sundhed kan processen tage måneder. Consile hjælper med at dimensionere evalueringen til jeres specifikke behov.
Kan vi evaluere et AI-system uden specialiseret teknisk viden?+
Dele af evalueringen kræver teknisk ekspertise, men forretningssiden spiller en lige så vigtig rolle. Det er forretningen, der definerer kvalitetskrav, acceptable fejlrater og use case-specifikke testscenarier. En effektiv evaluering kombinerer teknisk og forretningsmæssig indsigt.