Hvad er et Distillation Attack?

Et distillation attack (destillationsangreb) er en form for AI-modeltyveri, hvor en aktør systematisk sender tusindvis af forespørgsler til en proprietær model via dens API og bruger svarene til at træne en kopi. Resultatet er en ny model, der efterligner originalens evner, uden at angriberen har betalt for eller licenseret den oprindelige teknologi.

Angrebet er blevet en af de mest omtalte AI-sikkerhedstrusler i 2026. Anthropic har dokumenteret industrielle kampagner med over 16 millioner forespørgsler mod Claude, og Google har sporet kampagner med mere end 100.000 prompts rettet mod Geminis ræsonneringsevne. For virksomheder, der investerer i at bygge eller fine-tune egne AI-modeller, er distillation attacks en reel og voksende IP-risiko.

Termen låner sit navn fra knowledge distillation, der er en helt legitim træningsteknik. Forskellen ligger i tilladelse: en angriber har ingen.

Læsetid 4 minOpdateret april 2026

Hvordan virker et distillation attack?

Et distillation attack følger en bedragerisk simpel opskrift. Angriberen opretter adgang til et offer-LLM, typisk gennem en betalt API eller gratis prøveaccount, og begynder at sende et stort volumen af nøje udvalgte prompts. Svarene samles i et datasæt af input-output-par, der derefter bruges til at fine-tune en mindre, billigere foundation-model. Når processen er færdig, har angriberen en kopi med 70-95 procent af originalens kapabilitet til en brøkdel af udviklingsomkostningen.

De mest avancerede kampagner er langt mere forfinede end blot kopiering. Google Threat Intelligence Group har beskrevet flertrinsprocedurer, hvor angribere først udvinder chain of thought-ræsonnering fra den oprindelige model, derefter genererer syntetisk træningsdata i stor skala og til sidst renser datasættet for at fjerne fingeraftryk og bias fra kildemodellen. Resultatet er en student-model, der er svær at spore tilbage til sin kilde.

Typiske angrebsmønstre inkluderer brugen af tusindvis af falske konti for at omgå rate limits, rotation mellem IP-adresser og geografier samt langsom, taktisk forespørgselsrytme, der ligner legitim brug. Angriberne målretter særligt modellens mest værdifulde egenskaber: kompleks ræsonnering, kodeforståelse, flersproget dækning og specialiseret domæneviden.

En afgørende egenskab ved disse angreb er, at de ikke behøver at stjæle modellens vægte. De behøver kun adgang til outputtet. Det gør dem fundamentalt anderledes end traditionelle cyberangreb, og det gør dem langt sværere at forhindre med standard IT-sikkerhed.

Consile hjælper danske virksomheder med at forstå og forsvare sig mod distillation attacks og beslægtede AI-sikkerhedstrusler. Kontakt os for en vurdering af jeres modelsikkerhed.

Distillation attacks i erhvervslivet

For virksomheder, der udvikler egne AI-produkter, er distillation attacks en direkte trussel mod det forretningsmæssige fundament. Hvis en konkurrent kan replikere jeres modellers evner gennem API-trafik, bliver årelange F&U-investeringer forvandlet til en råvare på under et par måneder. Det gælder især for SaaS-virksomheder, der bygger proprietære vertikale modeller til fx juridisk analyse, medicinsk diagnostik eller finansiel modellering.

Større danske virksomheder, der har fine-tunet foundation models med intern viden, står overfor en mere subtil risiko. Hver gang en model besvarer et spørgsmål, lækker den noget af den træningsviden, den blev tilpasset med. Tilstrækkeligt mange forespørgsler fra en insider eller en kompromitteret konto kan rekonstruere betydelige dele af den oprindelige træningsdata. Det er ikke kun IP-tyveri; det kan være et brud på persondataforordningen, hvis datasættet indeholder personoplysninger.

Enterprise-forsvaret bygger på flere lag. API-gateways med aggressiv rate limiting blokerer højvolumen-scraping, adfærdsbaseret overvågning identificerer mistænkelige mønstre, og guardrails begrænser, hvor meget intern viden modellen eksponerer i et enkelt svar. Dertil kommer output-watermarking, der gør det muligt at bevise, om en konkurrents model er trænet på jeres data.

Prissætning spiller også en rolle. Flere AI-udbydere har indført differentierede pristrin, hvor ekstrem volumen bliver økonomisk uholdbar for en potentiel angriber. Det er en stille, men effektiv barriere, der udnytter angriberens egen forretningslogik.

For virksomheder, der bruger AI snarere end bygger den, er risikoen indirekte, men reel. En distilleret konkurrentmodel kan pludselig tilbyde 80 procent af jeres leverandørs kapabilitet til 20 procent af prisen, hvilket presser hele markedets prisstruktur og kan ændre forhandlingsdynamikken med jeres AI-partnere.

Hvad et distillation attack ikke er

Den hyppigste forveksling er med legitim knowledge distillation. Frontier-labs som OpenAI, Anthropic og Google distillerer rutinemæssigt deres egne modeller for at skabe hurtigere, billigere versioner til kunderne. Den tekniske proces er identisk; det er autorisationen, der adskiller. Legitim distillation sker med ejerskab eller eksplicit licens, mens et distillation attack per definition foregår uden tilladelse og i strid med serviceaftalen.

Et distillation attack er heller ikke det samme som prompt injection eller jailbreaking. Prompt injection forsøger at manipulere modellens adfærd i realtid, mens jailbreaking omgår sikkerhedsfiltre. Distillation attacks er derimod en langsom, strategisk træningsoperation, hvor formålet ikke er at narre modellen, men at kopiere den.

Endelig er det vigtigt at forstå, at angrebet ikke kræver adgang til modellens vægte, kildekode eller interne arkitektur. En angriber kan udføre et succesfuldt distillation attack med kun en standard API-nøgle og tilstrækkelig tid. Det betyder, at klassiske sikkerhedsforanstaltninger som firewalls, kryptering og adgangskontrol ikke beskytter mod denne trussel. Forsvaret må ligge i, hvordan modellen bruges, ikke kun hvordan den opbevares.

Ofte stillede spørgsmål om Distillation Attack

Er et distillation attack ulovligt?

I de fleste tilfælde ja, fordi det bryder serviceaftalen med AI-udbyderen og kan udgøre krænkelse af forretningshemmeligheder eller ophavsret. Retspraksis er dog stadig under udvikling, og mange sager ender som kommercielle tvister frem for strafferetlige anklager. I 2026 har flere regeringer, inklusive den amerikanske, begyndt at se på distillation attacks som et spørgsmål om national sikkerhed.

Kan min virksomhed beskytte sig mod et distillation attack?

Ja, men det kræver flere samtidige forsvar. Rate limiting, adfærdsovervågning, output-watermarking, streng kontoverifikation og differentieret prissætning udgør tilsammen en effektiv barriere. Consile hjælper danske virksomheder med at kortlægge deres AI-modellers eksponering og etablere de rette tekniske og kontraktuelle beskyttelser.

Hvordan ved jeg, om nogen allerede har distilleret min model?

Tegn inkluderer usædvanlige forespørgselsmønstre, volumenstigninger fra specifikke IP-intervaller eller konti samt konkurrerende produkter, der pludselig matcher jeres modellers unikke svarstil. Watermarking-teknikker gør det muligt at bevise, om en anden model er trænet på jeres output. Tidlig detektion kræver dog dedikeret logging og analyse fra dag ét.

Hvad er et Distillation Attack?

Hvordan virker et distillation attack?

Distillation attacks i erhvervslivet

Hvad et distillation attack ikke er

Relaterede termer

Ofte stillede spørgsmål om Distillation Attack