Skip to content
AI Ordbog / Self-Distillation (Selvdestillation)

Self-Distillation (Selvdestillation)

Self-distillation er en teknik, hvor en AI-model bruger sin egen viden til at forbedre sig selv. Forstå princippet, fordelene og de konkrete erhvervsanvendelser.

Self-Distillation (Selvdestillation)
Frame 4
Frame 3
Frame 2
Frame 1
Frame 5
Self-Distillation (Selvdestillation)
AI ORDBOG

Hvordan virker self-distillation?

I traditionel knowledge distillation træner man en lille "elev"-model til at efterligne en stor "lærer"-model. Self-distillation fjerner denne adskillelse. Her er det den samme model, der genererer de bløde sandsynlighedsfordelinger (soft targets), som den derefter lærer af i næste iteration.

Konkret fungerer det typisk ved, at modellen først trænes normalt. Derefter bruges dens egne output som træningsmål for en ny runde. De bløde targets indeholder langt mere information end hårde labels: i stedet for at sige "dette er kategori A", siger de "dette er 85 % kategori A, 10 % kategori B og 5 % kategori C". Den nuance hjælper modellen med at opfange mønstre, den missede første gang.

I konteksten af store sprogmodeller findes der to dominerende tilgange. Den lagbaserede variant tilføjer midlertidige klassifikatorer til modellens mellemlag under træning. De dybere lag fungerer som lærere for de grundere lag. Efter træning fjernes de ekstra klassifikatorer, og modellen kører med sin normale arkitektur.

Den on-policy variant lader modellen generere sine egne ræsonnementer (f.eks. chain-of-thought-trin) og destillerer den resulterende viden tilbage i sig selv. Det kræver ingen ekstern lærermodel og har vist sig særligt effektivt til at forbedre ræsonneringsevner i LLM'er.

Resultatet er en model, der bevarer sin størrelse, men opnår bedre generalisering og mere stabile output, fordi den har lært af sin egen bedste adfærd.

Self-distillation i erhvervslivet

For virksomheder, der allerede har en fungerende AI-model, er self-distillation en pragmatisk optimeringsteknik. Den kræver ikke nye datasæt, ingen ekstern lærermodel og ingen ændring af modelarkitekturen. Det gør den til et attraktivt næste skridt, når en model virker, men ikke performer godt nok.

Et typisk scenarie er en kundeservicebot, der svarer korrekt 80 % af tiden. Med self-distillation kan man forbedre præcisionen ved at lade modellen lære af sine bedste svar, uden at man skal investere i en helt ny, større model. Virksomheder som Meta har brugt self-distillation som en standarddel af post-training-pipelinen for modeller som Llama 3.

Inden for finans anvendes teknikken til at skabe mere præcise risikomodeller og handelsalgoritmer. Modellerne destillerer deres egen viden for at reducere støj i forudsigelserne og opnå mere konsistente resultater over tid.

Self-distillation er også relevant for virksomheder med krav om on-premise AI. Fordi teknikken forbedrer ydeevnen uden at øge modelstørrelsen, kan den hjælpe organisationer med at få mere ud af deres eksisterende hardware. Det reducerer behovet for dyre GPU-opgraderinger og holder inferensomkostningerne nede.

Kombineret med teknikker som fine-tuning og kvantisering udgør self-distillation en del af den moderne modeloptimeringsværktøjskasse, der gør enterprise AI både billigere og hurtigere.

Hvad self-distillation ikke er

Self-distillation forveksles ofte med knowledge distillation, men de to er grundlæggende forskellige. Knowledge distillation kræver to modeller af forskellig størrelse, hvor den store lærer den lille op. Self-distillation bruger kun én model, der forbedrer sig selv. Den ene teknik handler om komprimering, den anden om raffinering.

Self-distillation er heller ikke det samme som self-supervised learning, hvor modellen lærer fra ulabellede data ved at forudsige skjulte dele af input. I self-distillation bruger modellen sine egne forudsigelser som træningsmål, ikke ulabellede data.

Det er også vigtigt at forstå, at self-distillation ikke er en erstatning for gode træningsdata. Teknikken forbedrer, hvad modellen allerede kan, men den kan ikke kompensere for grundlæggende mangler i det datasæt, modellen oprindeligt blev trænet på.

Relaterede termer

Knowledge Distillation: Overførsel af viden fra en stor lærermodel til en mindre elevmodel for at opnå komprimering uden væsentligt tab af ydeevne.

Fine-tuning: Tilpasning af en præ-trænet model til en specifik opgave eller et specifikt domæne ved at træne videre på nye data.

Foundation Model: De store, generelle AI-modeller (som GPT, Claude, Gemini), der danner grundlag for specialiserede anvendelser.

LLM (Large Language Model): Store sprogmodeller, der er et af de primære anvendelsesområder for self-distillation.

Model Compression: Samlebetegnelse for teknikker (inkl. distillation, pruning, kvantisering) der gør modeller mindre og hurtigere.

Inference: Processen hvor en trænet model genererer forudsigelser, og et område hvor self-distillation kan reducere omkostninger.

Reinforcement Learning: Træningsteknik baseret på belønningssignaler, der ofte kombineres med self-distillation i moderne LLM-træning.