Blog
Kontakt os

LoRA (Low-Rank Adaptation)

LoRA (Low-Rank Adaptation) er en teknik til at finjustere store AI-modeller uden at ændre hele modellens vægte. I stedet for at gentræne milliarder af parametre tilføjer LoRA små, trænbare matricer til udvalgte lag i modellen. Resultatet er en tilpasset model, der koster en brøkdel at træne sammenlignet med fuld fine-tuning.

For virksomheder er LoRA afgørende, fordi det demokratiserer adgangen til specialiserede AI-modeller. Hvor fuld finjustering kræver klynger af dyre GPU'er og uger af træningstid, kan LoRA tilpasse en LLM på et enkelt grafikkort på under en time. Det betyder, at også mellemstore virksomheder kan skræddersy AI til deres domæne, sprog og forretningslogik.

LoRA blev introduceret af forskere fra Microsoft i 2021, og teknikken er siden blevet industristandarden for parameter-effektiv finjustering (PEFT). Den bruges bredt i både open-source-miljøer og enterprise-platforme som AWS Bedrock, Azure AI og Groq.

Læsetid 3 minOpdateret april 2026

Hvordan virker LoRA?

Kernen i LoRA bygger på en matematisk observation: Når man finjusterer en stor model, er de faktiske ændringer i vægtene "low-rank". Det vil sige, at den essentielle information kan repræsenteres med langt færre dimensioner end den fulde vægtmatrix. LoRA udnytter dette ved at fryse de oprindelige modelvægte og tilføje to små matricer ved siden af hvert udvalgt lag.

Konkret: I stedet for at opdatere en 1000x1000-matrice med 1 million parametre, indsætter LoRA to matricer af rang 4, altså en 1000x4 og en 4x1000-matrice. Det giver 8.000 trænbare parametre i stedet for 1 million. Under træning justeres kun disse små matricer, mens resten af modellen forbliver urørt.

Når modellen skal bruges i produktion, kan LoRA-matricerne flettes sammen med de originale vægte. Det betyder, at der ikke er nogen ekstra forsinkelse (latency) ved inferens. Modellen opfører sig som en fuldt finjusteret model, men træningstiden og hukommelsesforbruget har været drastisk lavere.

I praksis reducerer LoRA antallet af trænbare parametre med op til 10.000 gange og GPU-hukommelsesforbruget med en faktor 3 sammenlignet med fuld finjustering. En model med 7 milliarder parametre kan finjusteres med blot 14-16 GB RAM, en opgave der normalt kræver flere high-end GPU'er.

Consile hjælper virksomheder med at vælge den rette strategi for modeltilpasning, fra LoRA-prototyper til produktionsklar fine-tuning. Kontakt os for en uforpligtende vurdering af jeres behov.

LoRA i erhvervslivet

LoRA åbner en række muligheder, som tidligere var forbeholdt virksomheder med store AI-budgetter. Den mest umiddelbare anvendelse er domænespecifikke sprogmodeller. En advokatvirksomhed kan tilpasse en foundation model til juridisk dansk, et biotekselskab kan specialisere en model til medicinsk terminologi, og en e-commerce-virksomhed kan træne en model til produktbeskrivelser i sin tone of voice.

IBM Research beskriver en fremtid med en "menu" af LoRA-tilpassede modeller til forskellige roller i virksomheden. Forestil jer en base-model med separate LoRA-adaptere til kundeservice, intern vidensbase, salgsassistance og compliance-tjek. Hver adapter fylder få megabytes, og de kan skiftes dynamisk baseret på opgaven.

I multi-agent systemer er LoRA særligt interessant, fordi hver agent kan have sin egen specialiserede adapter uden at kræve separate, fulde modeller. Det reducerer infrastrukturomkostningerne markant og gør det realistisk at køre mange specialiserede agenter parallelt.

Enterprise-platforme som AWS Bedrock, Groq og Azure AI tilbyder nu LoRA-finjustering som en managed service. Virksomheder kan uploade deres træningsdata, vælge en base-model og få en tilpasset model tilbage uden at håndtere GPU-infrastruktur selv. Det sænker den tekniske barriere yderligere og gør LoRA tilgængelig for teams uden dyb ML-ekspertise.

Hvad LoRA ikke er

LoRA er ikke fuld finjustering. Selvom resultaterne ofte er sammenlignelige, viser forskning fra NeurIPS 2025, at LoRA kan have sværere ved meget store datasæt og komplekse domæner som programmering og matematik. For opgaver, der kræver dybtgående ændringer i modellens adfærd, kan fuld finjustering stadig være nødvendig. Mange produktionsteams bruger derfor LoRA til eksperimenter og prototyper, og skifter til fuld finjustering for den endelige produktionsmodel.

LoRA er heller ikke det samme som prompt engineering. Prompt engineering ændrer ikke modellen, men formulerer instruktioner, der guider dens output. LoRA ændrer faktisk modellens vægte (om end indirekte) og skaber en permanent specialisering. De to teknikker supplerer hinanden: Prompt engineering styrer, hvad modellen gør, mens LoRA ændrer, hvad modellen kan.

Endelig er LoRA ikke en kvantiseringsteknik. QLoRA (Quantized LoRA) kombinerer LoRA med kvantisering for endnu lavere hukommelsesforbrug, men selve LoRA handler om effektiv tilpasning, ikke om komprimering af modellen.

Ofte stillede spørgsmål om LoRA

Hvad er forskellen på LoRA og QLoRA?

LoRA tilføjer små trænbare matricer til en model i fuld præcision (16-bit). QLoRA komprimerer først modellen til 4-bit og anvender derefter LoRA oven på den komprimerede model. QLoRA bruger ca. 75% mindre hukommelse, men træningen er omkring 30% langsommere. Selve træningen foregår stadig i høj præcision, så kvaliteten er sammenlignelig.

Kan min virksomhed bruge LoRA uden et ML-team?

Ja. Cloud-platforme som AWS Bedrock og Azure AI tilbyder LoRA-finjustering som managed service, hvor du uploader data og får en tilpasset model uden at håndtere infrastruktur. Consile hjælper virksomheder med at vælge den rette tilgang til modeltilpasning og sætter processen op fra start til slut.

Hvornår bør man vælge fuld finjustering frem for LoRA?

Fuld finjustering er bedre, når du har meget store datasæt, kræver maksimal præcision i komplekse domæner (f.eks. kodegenerering eller matematik), eller ønsker fundamentale ændringer i modellens adfærd. LoRA er bedst til domænetilpasning, stilændringer og opgaver, hvor du har begrænsede data og ressourcer.