I marts 2026 blev kunstig intelligens for første gang den mest citerede årsag til fyringsrunder i...
Context caching genbruger AI-modellens hukommelse på tværs af forespørgsler og kan reducere omkostninger op til 90%. Se hvornår det giver mening.


Når en sprogmodel modtager en prompt, omregner den hver eneste token til interne talrepræsentationer (key/value-tensorer i modellens attention-lag). Det er denne forbehandling, der koster både tid og penge. Hvis den samme tekst sendes ind igen, gentager modellen normalt hele arbejdet fra bunden.
Context caching ændrer dette ved at gemme de allerede beregnede tensorer i en cache. Når næste forespørgsel kommer ind med samme præfiks – for eksempel den samme produktdokumentation eller systeminstruktion – genbruger modellen den cachede del og behandler kun den nye, dynamiske del af prompten.
Der findes to hovedtyper. Implicit caching er aktiveret automatisk, og platformen finder selv gentagelser. Det er enkelt, men giver mindre kontrol. Eksplicit caching kræver, at udvikleren markerer hvilke dele af prompten der skal caches og refererer til den i efterfølgende kald. Det giver mere forudsigelige besparelser og bedre kontrol over hvad der gemmes.
Caches har en levetid – typisk 5 til 60 minutter for prompt caching og op til timer for context caching afhængigt af leverandør. Når levetiden udløber, slettes cachen, og næste forespørgsel skal betale fuld pris for at opbygge den igen.
Prismodellen er konsistent på tværs af leverandører: at skrive til cachen koster lidt mere end normal input (typisk 25% over), mens læsning fra cachen koster 10-25% af normal input-pris. Besparelsen kommer, når den samme cache bliver læst mange gange.
Context caching giver mest værdi i scenarier, hvor den samme store mængde tekst skal indgå i mange forespørgsler. Det dækker en stor del af de AI-løsninger, virksomheder bygger i dag.
Kundeservice og chatbots: En supportbot, der besvarer spørgsmål om virksomhedens produkter, har brug for de samme produktmanualer i hver eneste samtale. Ved at cache manualerne én gang og genbruge dem på tværs af tusindvis af samtaler falder omkostningen pr. samtale dramatisk, og svartiden bliver mærkbart hurtigere.
Dokumentanalyse: En jurist eller revisor, der stiller flere spørgsmål til den samme kontrakt eller årsrapport, behøver ikke at sende dokumentet ind igen for hvert spørgsmål. Cachen holder dokumentet klar, mens analytikeren arbejder sig igennem sine forespørgsler. Det er en simplere arkitektur end RAG og fungerer godt, når dokumenterne er afgrænsede og kendte på forhånd.
Kodningsassistenter: AI-værktøjer, der hjælper udviklere, sender ofte hele kodefiler ind som kontekst. Med caching kan filerne genbruges på tværs af flere kald, hvilket gør forslag og analyser mærkbart hurtigere.
Standardiserede arbejdsgange: Når en virksomhed bruger den samme lange systeminstruktion til alle sine AI-medarbejdere, kan instruktionen caches centralt. Det betyder, at hver enkelt forespørgsel kun betaler for den dynamiske del af samtalen, ikke for de hundredvis eller tusindvis af tokens i baggrundsinstruktionen.
For en organisation, der kører mange forespørgsler om dagen mod en LLM, kan context caching være forskellen mellem en business case, der ikke hænger sammen, og en, der gør.
Context caching er ikke det samme som at træne eller fine-tune en model. Cachen ændrer ikke modellens vægte eller adfærd. Den gemmer udelukkende den forbehandling, modellen alligevel ville have lavet, og genbruger resultatet. Når cachen udløber, er der ingen blivende effekt på modellen.
Det er heller ikke det samme som semantic caching, hvor systemet gemmer hele svar på spørgsmål og returnerer samme svar, hvis et nyt spørgsmål ligner et tidligere. Context caching genbruger den forbehandlede kontekst, men modellen genererer stadig et nyt svar for hver forespørgsel. Det betyder, at svaret kan tilpasses den enkelte bruger, selvom baggrundsdokumentationen er den samme.
Endelig løser context caching ikke problemet med at give modellen ny viden. Hvis indholdet, der caches, bliver forældet, skal cachen opdateres manuelt eller efter dens udløb. For dynamiske datakilder er RAG eller andre retrieval-tilgange ofte mere passende.
Token: Den mindste enhed af tekst, en sprogmodel arbejder med. Caching måles og prissættes pr. token.
Context Window: Den maksimale mængde tekst, en model kan behandle i én forespørgsel. Caching gør det praktisk at fylde context window med stor baggrundskontekst.
LLM: Large Language Model – den type AI-model, context caching typisk optimerer.
RAG: Retrieval-Augmented Generation – en alternativ tilgang til at give modeller adgang til ekstern viden.
Prompt Engineering: Design af prompts, der udnytter caching ved at placere statisk indhold først i prompten.
Foundation Model: De store basemodeller (Claude, Gemini, GPT) der understøtter caching som en del af deres API.
I marts 2026 blev kunstig intelligens for første gang den mest citerede årsag til fyringsrunder i...
Hvad hvis dine bedste AI-eksperter kunne gennemgå din tekst samtidigt, på få sekunder, og give dig...
Ifølge Gartners seneste prognose vil 90 % af alle B2B-køb være formidlet af AI-agenter inden 2028....