Hvad er et Distillation Attack?

AI ORDBOG

Hvordan virker et distillation attack?

Et distillation attack følger en bedragerisk simpel opskrift. Angriberen opretter adgang til et offer-LLM, typisk gennem en betalt API eller gratis prøveaccount, og begynder at sende et stort volumen af nøje udvalgte prompts. Svarene samles i et datasæt af input-output-par, der derefter bruges til at fine-tune en mindre, billigere foundation-model. Når processen er færdig, har angriberen en kopi med 70-95 procent af originalens kapabilitet til en brøkdel af udviklingsomkostningen.

De mest avancerede kampagner er langt mere forfinede end blot kopiering. Google Threat Intelligence Group har beskrevet flertrinsprocedurer, hvor angribere først udvinder chain of thought-ræsonnering fra den oprindelige model, derefter genererer syntetisk træningsdata i stor skala og til sidst renser datasættet for at fjerne fingeraftryk og bias fra kildemodellen. Resultatet er en student-model, der er svær at spore tilbage til sin kilde.

Typiske angrebsmønstre inkluderer brugen af tusindvis af falske konti for at omgå rate limits, rotation mellem IP-adresser og geografier samt langsom, taktisk forespørgselsrytme, der ligner legitim brug. Angriberne målretter særligt modellens mest værdifulde egenskaber: kompleks ræsonnering, kodeforståelse, flersproget dækning og specialiseret domæneviden.

En afgørende egenskab ved disse angreb er, at de ikke behøver at stjæle modellens vægte. De behøver kun adgang til outputtet. Det gør dem fundamentalt anderledes end traditionelle cyberangreb, og det gør dem langt sværere at forhindre med standard IT-sikkerhed.

Distillation attacks i erhvervslivet

For virksomheder, der udvikler egne AI-produkter, er distillation attacks en direkte trussel mod det forretningsmæssige fundament. Hvis en konkurrent kan replikere jeres modellers evner gennem API-trafik, bliver årelange F&U-investeringer forvandlet til en råvare på under et par måneder. Det gælder især for SaaS-virksomheder, der bygger proprietære vertikale modeller til fx juridisk analyse, medicinsk diagnostik eller finansiel modellering.

Større danske virksomheder, der har fine-tunet foundation models med intern viden, står overfor en mere subtil risiko. Hver gang en model besvarer et spørgsmål, lækker den noget af den træningsviden, den blev tilpasset med. Tilstrækkeligt mange forespørgsler fra en insider eller en kompromitteret konto kan rekonstruere betydelige dele af den oprindelige træningsdata. Det er ikke kun IP-tyveri; det kan være et brud på persondataforordningen, hvis datasættet indeholder personoplysninger.

Enterprise-forsvaret bygger på flere lag. API-gateways med aggressiv rate limiting blokerer højvolumen-scraping, adfærdsbaseret overvågning identificerer mistænkelige mønstre, og guardrails begrænser, hvor meget intern viden modellen eksponerer i et enkelt svar. Dertil kommer output-watermarking, der gør det muligt at bevise, om en konkurrents model er trænet på jeres data.

Prissætning spiller også en rolle. Flere AI-udbydere har indført differentierede pristrin, hvor ekstrem volumen bliver økonomisk uholdbar for en potentiel angriber. Det er en stille, men effektiv barriere, der udnytter angriberens egen forretningslogik.

For virksomheder, der bruger AI snarere end bygger den, er risikoen indirekte, men reel. En distilleret konkurrentmodel kan pludselig tilbyde 80 procent af jeres leverandørs kapabilitet til 20 procent af prisen, hvilket presser hele markedets prisstruktur og kan ændre forhandlingsdynamikken med jeres AI-partnere.

Hvad et distillation attack ikke er

Den hyppigste forveksling er med legitim knowledge distillation. Frontier-labs som OpenAI, Anthropic og Google distillerer rutinemæssigt deres egne modeller for at skabe hurtigere, billigere versioner til kunderne. Den tekniske proces er identisk; det er autorisationen, der adskiller. Legitim distillation sker med ejerskab eller eksplicit licens, mens et distillation attack per definition foregår uden tilladelse og i strid med serviceaftalen.

Et distillation attack er heller ikke det samme som prompt injection eller jailbreaking. Prompt injection forsøger at manipulere modellens adfærd i realtid, mens jailbreaking omgår sikkerhedsfiltre. Distillation attacks er derimod en langsom, strategisk træningsoperation, hvor formålet ikke er at narre modellen, men at kopiere den.

Endelig er det vigtigt at forstå, at angrebet ikke kræver adgang til modellens vægte, kildekode eller interne arkitektur. En angriber kan udføre et succesfuldt distillation attack med kun en standard API-nøgle og tilstrækkelig tid. Det betyder, at klassiske sikkerhedsforanstaltninger som firewalls, kryptering og adgangskontrol ikke beskytter mod denne trussel. Forsvaret må ligge i, hvordan modellen bruges, ikke kun hvordan den opbevares.

Relaterede termer

Knowledge Distillation: Den legitime træningsteknik, hvor en student-model lærer af en teacher-model med ejerens tilladelse.

Adversarial Distillation: En beslægtet variant, hvor angrebet kombineres med adversariale eksempler for at omgå modellens sikkerhedsmekanismer.

Model Theft: Overbegrebet for uautoriseret kopiering af AI-modeller, hvor distillation er én angrebsvektor blandt flere.

Data Poisoning: Et komplementært angreb, hvor angriberen forurener træningsdata i stedet for at kopiere outputtet.

Guardrails: Kontrolmekanismer, der begrænser, hvor meget en model afslører i et enkelt svar, og dermed sænker distillation-effektiviteten.

Red Teaming for AI: Systematisk testning af, hvor sårbar en model er over for bl.a. distillation attacks.

OWASP Agentic AI Top 10: Brancherammen, der kategoriserer modeltyveri og beslægtede risici.

AI Risk Management: Den strategiske disciplin, der bl.a. dækker trusselsmodellering af distillation attacks.

AI washing illustration: virksomheder bruger kunstig intelligens som undskyldning for fyringer og nedskæringer

I marts 2026 blev kunstig intelligens for første gang den mest citerede årsag til fyringsrunder i...

Hvad hvis dine bedste AI-eksperter kunne gennemgå din tekst samtidigt, på få sekunder, og give dig...

AI-agenter der automatiserer B2B-indkøbsprocesser i en digital økonomi

Ifølge Gartners seneste prognose vil 90 % af alle B2B-køb være formidlet af AI-agenter inden 2028....

AI-implementering

Compliance og Governance

AI til Marketing og Salg

AI ROI Beregner

AI Nyheder

AI Ordbog

AI Skills

Hvad er et Distillation Attack?

AI ORDBOG

Hvordan virker et distillation attack?

Distillation attacks i erhvervslivet

Hvad et distillation attack ikke er

Relaterede termer

AI Washing: Når AI bruges som undskyldning for fyringer

Vores Agent har et monopol af Agenter til sin rådighed for content

AI-agenter overtager B2B-indkøb: Er du klar?