Skip to content
AI Ordbog / Model Compression (Modelkomprimering)

Model Compression (Modelkomprimering)

Model Compression reducerer AI-modellers størrelse og ressourceforbrug uden væsentligt tab af præcision. Lær teknikker, fordele og erhvervsanvendelser.

Model Compression (Modelkomprimering)
Frame 4
Frame 3
Frame 2
Frame 1
Frame 5
Model Compression (Modelkomprimering)
AI ORDBOG

Hvordan virker Model Compression?

Model Compression bygger på en central indsigt: de fleste AI-modeller indeholder betydelig redundans. Ikke alle parametre bidrager lige meget til modellens præstationer, og mange værdier kan forenkles uden mærkbar effekt på resultaterne. De fire primære komprimeringsteknikker udnytter dette på hver sin måde.

Kvantisering reducerer den numeriske præcision i modellens parametre. En typisk AI-model gemmer vægte som 32-bit decimaltal, men kvantisering konverterer dem til 8-bit, 4-bit eller endda 3-bit formater. Googles TurboQuant har vist, at KV-caches kan komprimeres til 3 bit pr. værdi med op til 6x mindre hukommelsesforbrug og 8x hurtigere inferens, uden tab af nøjagtighed. Model Quantization er den mest udbredte komprimeringsteknik, fordi den er relativt enkel at anvende på eksisterende modeller.

Pruning fjerner de dele af modellen, der bidrager mindst til resultaterne. Det svarer til at beskære et træ: man fjerner de grene, der ikke bærer frugt. Pruning kan fjerne individuelle vægte (ustruktureret pruning) eller hele neuroner, kanaler og lag (struktureret pruning). MIT-forskning fra 2026 viser, at pruning kan anvendes allerede under træning, så komprimerede modeller træner op til 1,5x hurtigere.

Knowledge Distillation træner en lille "elev-model" til at efterligne en stor "lærer-model". Eleven lærer ikke kun de korrekte svar, men også lærermodellens sandsynlighedsfordeling over alle mulige svar, hvilket overfører en dybere forståelse. Resultatet er en ny, langt mindre model, der bevarer størstedelen af den stores kapacitet.

Low-rank-dekomposition erstatter store vægtmatricer med produktet af flere mindre matricer. Teknikker som LoRA anvender dette princip og har gjort det muligt at tilpasse store modeller med en brøkdel af de ressourcer, der normalt kræves.

Model Compression i erhvervslivet

For virksomheder, der allerede har investeret i AI, er Model Compression en direkte vej til lavere omkostninger og bredere udrulning. En enkelt virksomhed, der anvender komprimering på tværs af 10 AI-workflows, kan spare mellem 500.000 og 2 millioner dollars årligt på cloud-infrastruktur. Besparelsen kommer fra mindre GPU-hukommelse, hurtigere inferens og lavere energiforbrug.

Konkrete eksempler illustrerer potentialet: en juridisk tech-startup reducerede sin månedlige AWS-regning fra 18.000 til 1.200 dollars ved at kombinere 4-bit kvantisering, 85% pruning og prompt-komprimering. En stor e-handelsvirksomhed komprimerede sin anbefalingsmodel fra 25 GB til 3 GB med en kombination af distillation og kvantisering, uden mærkbar effekt på anbefalingskvaliteten.

Model Compression er også nøglen til Edge AI. Når modeller skal køre på mobiltelefoner, IoT-enheder eller lokale servere uden internetforbindelse, er størrelsen afgørende. Komprimerede modeller muliggør AI i produktionslinjer, butikker og felten, hvor latency og databeskyttelse gør cloud-løsninger upraktiske.

Inden for regulerede brancher som finans og sundhed giver komprimering desuden mulighed for at køre modeller on-premise, hvilket eliminerer behovet for at sende følsomme data til eksterne cloud-tjenester. Over 72% af virksomheder med AI-deployments prioriterer inferenseffektivitet som en kritisk faktor i deres skaleringsstrategi.

Hvad Model Compression ikke er

Model Compression er ikke det samme som at vælge en mindre model fra starten. At bruge en Small Language Model (SLM) er et arkitekturvalg, mens komprimering er en efterbehandling (eller træningsintegreret teknik) der bevarer den store models viden i en mere kompakt form. En komprimeret 70B-model og en fra scratch trænet 7B-model er fundamentalt forskellige, selvom de kan have sammenlignelig størrelse.

Det er heller ikke en garanteret gratis frokost. Forskning viser, at store sprogmodeller udviser faseskift ved komprimering: præstationen kan forblive stabil over et bredt komprimeringsinterval, men kollapser pludseligt når en kritisk tærskel overskrides. Det kræver systematisk test at finde den rette balance mellem størrelse og kvalitet for netop jeres use case.

Endelig er Model Compression ikke en erstatning for god modeludvikling. En dårligt trænet model bliver ikke bedre af at blive komprimeret. Komprimering bevarer og koncentrerer den viden, modellen allerede har. Det er et optimeringsværktøj, ikke et kvalitetsværktøj.

Relaterede termer

Model Quantization (Modelkvantisering): En specifik komprimeringsteknik, der reducerer den numeriske præcision i modellens parametre fra f.eks. 32-bit til 8-bit eller lavere.

Knowledge Distillation (Vidensdestillation): Proces hvor en stor lærermodel overfører sin viden til en mindre elevmodel gennem træning.

LoRA (Low-Rank Adaptation): Teknik til effektiv tilpasning af store modeller ved at indsætte små, trænbare matricer i modellens lag.

Inference (Inferens): Processen hvor en trænet model genererer output. Model Compression reducerer de ressourcer, inferens kræver.

Edge AI: AI der kører lokalt på enheder frem for i skyen. Model Compression er forudsætningen for at deploye avancerede modeller på edge-enheder.

Small Language Model (SLM): Mindre sprogmodeller designet fra bunden til at være effektive, i modsætning til komprimerede versioner af store modeller.

Inferensoptimering (Inference Optimization): Bredere disciplin der omfatter Model Compression, men også hardware-optimering, batching og caching.