Hvad er Knowledge Distillation?

Knowledge distillation er en teknik, hvor en stor, trænet AI-model (kaldet "læreren") overfører sin viden til en markant mindre model ("eleven"). Eleven lærer ikke bare de rigtige svar, men også lærerens nuancerede sandsynlighedsfordelinger, som indeholder information om sammenhænge mellem kategorier og begreber, der går tabt i traditionel træning.

For virksomheder løser knowledge distillation et centralt dilemma: De mest præcise AI-modeller er ofte for store, langsomme og dyre til produktion. Med destillation kan man bevare 90-95 % af præcisionen i en model, der kører 5-10 gange hurtigere og koster en brøkdel at drifte. Det gør avanceret AI tilgængelig på mobilenheder, i realtidssystemer og i miljøer med begrænset infrastruktur.

Teknikken er blevet et nøgleværktøj i den bølge af modeloptimering, der følger efter de seneste års eksplosion i størrelsen af LLM'er og foundation models. Hvor kapløbet tidligere handlede om at bygge den største model, handler det nu i stigende grad om at gøre modellerne effektive nok til praktisk brug.

Læsetid 4 minOpdateret marts 2026

Hvordan virker knowledge distillation?

Processen starter med en stor, præcis model (læreren), der allerede er trænet på en opgave. Når læreren behandler et input, producerer den ikke bare ét svar, men en sandsynlighedsfordeling over alle mulige svar. Denne fordeling indeholder værdifuld information: Hvis læreren f.eks. klassificerer et billede som "kat" med 85 % sikkerhed, men også vurderer "los" til 10 % og "hund" til 3 %, afslører det, at katten ligner en los mere end en hund. Disse "bløde mål" (soft targets) er kernen i destillation.

Eleven trænes derefter til at efterligne lærerens sandsynlighedsfordelinger frem for blot de hårde etiketter (rigtigt/forkert). Det sker typisk via en kombineret tabsfunktion, der balancerer mellem at matche lærerens bløde output og de faktiske korrekte svar. En parameter kaldet "temperature" styrer, hvor bløde sandsynlighederne gøres under træning.

Resultatet er en model, der er markant mindre i parameterantal, men som har lært de underliggende mønstre og sammenhænge, læreren har opfanget. I praksis kan dette betyde en reduktion fra milliarder til millioner af parametre med kun et beskedent tab i præcision.

Der findes flere varianter af teknikken. Response-based distillation fokuserer på det endelige output. Feature-based distillation overfører viden fra modellens mellemliggende lag. Relation-based distillation bevarer forholdet mellem datapunkter på tværs af lag. Nyere tilgange som multi-teacher distillation lader eleven lære fra flere specialiserede lærere samtidig, hvilket kan give endnu bedre resultater.

Consile rådgiver om modeloptimering og knowledge distillation til virksomheder, der vil reducere AI-omkostninger uden at gå på kompromis med kvaliteten. Kontakt os for en uforpligtende vurdering af jeres setup.

Knowledge distillation i erhvervslivet

Den mest umiddelbare forretningsværdi ved knowledge distillation er omkostningsreduktion. At køre en stor sprogmodel i produktion kan koste titusinder af kroner om måneden i cloud-compute. En destilleret version af samme model kan reducere denne omkostning med 80-90 % og samtidig svare inden for millisekunder i stedet for sekunder. For virksomheder med høje API-volumener er besparelsen betydelig.

Kundesupport og chatbots er et oplagt anvendelsesområde. En stor model kan trænes til at besvare komplekse kundehenvendelser med høj kvalitet, hvorefter dens viden destilleres til en kompakt model, der kører med under 100 ms latency. Det muliggør ægte realtidssamtaler uden den forsinkelse, brugerne oplever med store modeller.

Inden for finans bruger kreditvurderingssystemer og compliance-platforme destillerede modeller, fordi de skal træffe beslutninger hurtigt og ofte under regulatoriske krav om forklarbarhed. En mindre model er lettere at auditere og dokumentere, hvilket er afgørende under EU AI Act.

Edge-deployment er et tredje centralt scenarie. Producenter, der vil køre AI-modeller direkte på enheder (sensorer, mobiltelefoner, medicinsk udstyr) uden cloud-forbindelse, er afhængige af modeller, der er små nok til begrænset hardware. Knowledge distillation er den foretrukne metode til at skabe disse modeller uden at starte træningen fra bunden.

Endelig ser vi knowledge distillation som en kritisk komponent i AI-agent-arkitekturer, hvor hurtig inference er nødvendig for at agenter kan reagere i realtid og holde omkostningerne nede, selv ved tusinder af samtidige kald.

Hvad knowledge distillation ikke er

Knowledge distillation er ikke det samme som fine-tuning. Fine-tuning tilpasser en eksisterende models parametre til en specifik opgave, men modellen forbliver lige stor. Distillation skaber en helt ny, mindre model. De to teknikker kan dog kombineres: Man kan fine-tune en stor model til en opgave og derefter destillere den til produktion.

Destillation bør heller ikke forveksles med pruning (beskæring) eller kvantisering. Pruning fjerner dele af en eksisterende model, mens kvantisering reducerer præcisionen af modellens tal (f.eks. fra 32-bit til 8-bit). Distillation er fundamentalt anderledes, fordi den træner en helt ny model fra bunden, guidet af lærerens output. I praksis kombinerer mange virksomheder alle tre teknikker for maksimal effektivitet.

Det er også vigtigt at forstå, at destillation ikke er gratis kvalitet. Eleven kan arve lærerens fejl og bias. Hvis læreren hallucinerer eller er skæv i sin træningsdata, vil eleven sandsynligvis gøre det samme. Derfor kræver destillation grundig evaluering af både lærer og elev, og virksomheder bør teste den destillerede model grundigt, før den sættes i produktion.

Ofte stillede spørgsmål om Knowledge Distillation

Hvor meget kvalitet mister man ved knowledge distillation?

Det afhænger af opgaven og størrelsesforskellen mellem lærer og elev. I mange tilfælde bevarer den destillerede model 90-95 % af lærerens præcision, mens den er 5-10 gange mindre. For opgaver med klare mønstre kan tabet være næsten umærkeligt. Consile hjælper med at evaluere, om det konkrete kvalitetstab er acceptabelt for jeres use case.

Kan man destillere enhver AI-model?

I princippet ja, men resultaterne varierer. Destillation fungerer bedst, når læreren er veltrænet og eleven har tilstrækkelig kapacitet til at fange de vigtigste mønstre. Hvis eleven er for lille, vil kvaliteten falde markant. Det kræver eksperimentering at finde den rette balance.

Hvad er forskellen på knowledge distillation og at træne en lille model direkte?

En lille model, der trænes direkte på data, lærer kun fra de hårde etiketter (rigtigt/forkert). En destilleret model lærer derimod fra lærerens rige sandsynlighedsfordelinger, som indeholder information om ligheder og sammenhænge mellem kategorier. Det giver typisk bedre generalisering end direkte træning på samme data.

Hvad er Knowledge Distillation?

Hvordan virker knowledge distillation?

Knowledge distillation i erhvervslivet

Hvad knowledge distillation ikke er

Relaterede termer

Ofte stillede spørgsmål om Knowledge Distillation