Anthropic har netop lanceret Claude Opus 4.7, den nyeste version af deres mest avancerede AI-model....
LoRA (Low-Rank Adaptation) gør det muligt at tilpasse store sprogmodeller til specifikke opgaver med op til 10.000x færre parametre. Forstå teknikken og dens forretningsværdi.


Kernen i LoRA bygger på en matematisk observation: Når man finjusterer en stor model, er de faktiske ændringer i vægtene "low-rank". Det vil sige, at den essentielle information kan repræsenteres med langt færre dimensioner end den fulde vægtmatrix. LoRA udnytter dette ved at fryse de oprindelige modelvægte og tilføje to små matricer ved siden af hvert udvalgt lag.
Konkret: I stedet for at opdatere en 1000x1000-matrice med 1 million parametre, indsætter LoRA to matricer af rang 4, altså en 1000x4 og en 4x1000-matrice. Det giver 8.000 trænbare parametre i stedet for 1 million. Under træning justeres kun disse små matricer, mens resten af modellen forbliver urørt.
Når modellen skal bruges i produktion, kan LoRA-matricerne flettes sammen med de originale vægte. Det betyder, at der ikke er nogen ekstra forsinkelse (latency) ved inferens. Modellen opfører sig som en fuldt finjusteret model, men træningstiden og hukommelsesforbruget har været drastisk lavere.
I praksis reducerer LoRA antallet af trænbare parametre med op til 10.000 gange og GPU-hukommelsesforbruget med en faktor 3 sammenlignet med fuld finjustering. En model med 7 milliarder parametre kan finjusteres med blot 14-16 GB RAM, en opgave der normalt kræver flere high-end GPU'er.
LoRA åbner en række muligheder, som tidligere var forbeholdt virksomheder med store AI-budgetter. Den mest umiddelbare anvendelse er domænespecifikke sprogmodeller. En advokatvirksomhed kan tilpasse en foundation model til juridisk dansk, et biotekselskab kan specialisere en model til medicinsk terminologi, og en e-commerce-virksomhed kan træne en model til produktbeskrivelser i sin tone of voice.
IBM Research beskriver en fremtid med en "menu" af LoRA-tilpassede modeller til forskellige roller i virksomheden. Forestil jer en base-model med separate LoRA-adaptere til kundeservice, intern vidensbase, salgsassistance og compliance-tjek. Hver adapter fylder få megabytes, og de kan skiftes dynamisk baseret på opgaven.
I multi-agent systemer er LoRA særligt interessant, fordi hver agent kan have sin egen specialiserede adapter uden at kræve separate, fulde modeller. Det reducerer infrastrukturomkostningerne markant og gør det realistisk at køre mange specialiserede agenter parallelt.
Enterprise-platforme som AWS Bedrock, Groq og Azure AI tilbyder nu LoRA-finjustering som en managed service. Virksomheder kan uploade deres træningsdata, vælge en base-model og få en tilpasset model tilbage uden at håndtere GPU-infrastruktur selv. Det sænker den tekniske barriere yderligere og gør LoRA tilgængelig for teams uden dyb ML-ekspertise.
LoRA er ikke fuld finjustering. Selvom resultaterne ofte er sammenlignelige, viser forskning fra NeurIPS 2025, at LoRA kan have sværere ved meget store datasæt og komplekse domæner som programmering og matematik. For opgaver, der kræver dybtgående ændringer i modellens adfærd, kan fuld finjustering stadig være nødvendig. Mange produktionsteams bruger derfor LoRA til eksperimenter og prototyper, og skifter til fuld finjustering for den endelige produktionsmodel.
LoRA er heller ikke det samme som prompt engineering. Prompt engineering ændrer ikke modellen, men formulerer instruktioner, der guider dens output. LoRA ændrer faktisk modellens vægte (om end indirekte) og skaber en permanent specialisering. De to teknikker supplerer hinanden: Prompt engineering styrer, hvad modellen gør, mens LoRA ændrer, hvad modellen kan.
Endelig er LoRA ikke en kvantiseringsteknik. QLoRA (Quantized LoRA) kombinerer LoRA med kvantisering for endnu lavere hukommelsesforbrug, men selve LoRA handler om effektiv tilpasning, ikke om komprimering af modellen.
Fine-tuning: Den overordnede proces, hvor en forudtrænet model tilpasses til en specifik opgave eller et domæne. LoRA er en parameter-effektiv variant af fine-tuning.
LLM (Large Language Model): De store sprogmodeller som GPT, Claude og Llama, som LoRA typisk anvendes på for at specialisere dem til bestemte opgaver.
Foundation Model: De generelle basismodeller, der trænes på enorme datamængder og derefter tilpasses med teknikker som LoRA.
Model Quantization: Teknik til at komprimere modelvægte for at reducere hukommelsesforbrug. QLoRA kombinerer kvantisering med LoRA.
Inferensoptimering: Samlebetegnelse for teknikker der gør AI-modeller hurtigere og billigere at køre i produktion, inklusiv LoRA-merging.
Deep Learning: Det bredere felt inden for maskinlæring, som LoRA opererer inden for, baseret på neurale netværk med mange lag.
Anthropic har netop lanceret Claude Opus 4.7, den nyeste version af deres mest avancerede AI-model....
De fleste AI-sprogværktøjer taler 100 sprog nogenlunde. Vi ville bygge et, der taler ét sprog...
Du læser lige nu en tekst, der aldrig har været i nærheden af et menneskeligt tastatur. Ikke én...