Du behøver ikke en cloud-tjeneste eller et NVIDIA-grafikkort for at køre en kraftfuld LLM lokalt....
Latency i AI-systemer er forsinkelsen fra input til output. Forstå hvad der skaber latency, hvordan det påvirker forretningen, og hvad du kan gøre ved det.


Latency i et AI-system opstår i flere led. Det første er netværkslatency: den tid det tager for data at rejse fra brugerens enhed til serveren, der kører modellen. Hvis modellen hostes i en cloud-region langt fra brugeren, kan denne forsinkelse alene udgøre hundredvis af millisekunder.
Det andet led er compute-latency: den tid selve modellen bruger på at behandle input og generere et output. Her spiller modelstørrelse en afgørende rolle. En stor LLM med hundredvis af milliarder parametre kræver markant mere regnekraft end en mindre, specialiseret model. Modellens arkitektur, herunder om den bruger teknikker som Mixture of Experts (MoE), påvirker også hastigheden.
Det tredje led er pre- og postprocessing: tokenisering af input, sammensætning af context (herunder eventuelle RAG-opslag), og formatering af output. I et RAG-setup skal systemet først søge i en vidensbase, hente relevante dokumenter og kombinere dem med brugerens forespørgsel, før modellen overhovedet begynder at generere.
Endelig spiller infrastrukturlaget en rolle. GPU-tilgængelighed, batching-strategier og om systemet bruger dedikerede eller delte ressourcer påvirker den samlede svartid. Continuous batching, hvor nye forespørgsler løbende tilføjes til den aktive GPU-batch, er en teknik, der balancerer throughput og latency.
I kundevendte applikationer er latency direkte forbundet med brugeroplevelse og konvertering. En AI-chatbot, der bruger fem sekunder på at svare, mister brugerens opmærksomhed. En produktanbefalingsmotor, der ikke leverer resultater inden siden er loadet, bliver aldrig vist. Realtids-fraud detection, der ikke kan vurdere en transaktion inden timeout, lader potentielt svindel passere.
I interne processer har latency en produktivitetskostnad. Når hundredvis af medarbejdere dagligt interagerer med AI-assistenter til søgning i dokumenter, generering af rapporter eller besvarelse af kundehenvendelser, akkumulerer selv små forsinkelser sig til timer af tabt produktivitet. For virksomheder, der skalerer Agentic AI-systemer, hvor AI-agenter kalder hinanden i kæder, multipliceres latency med antallet af agentinteraktioner.
Latency påvirker også, hvilke use cases der overhovedet er mulige. Realtidsanalyse af videofeeds, stemmestyrede interfaces, autonome køretøjer og industriel procesoptimering kræver sub-100 ms responstider. Virksomheder med høj latency er afskåret fra disse højværdi-scenarier.
Derudover har latency en direkte omkostningsdimension. Længere inference-tider betyder længere GPU-belastning per forespørgsel, hvilket øger infrastrukturomkostningerne. Optimeret latency giver typisk 5-10x bedre pris-ydelse-forhold.
Latency forveksles ofte med throughput, men de to begreber måler forskellige ting. Latency er den tid, en enkelt forespørgsel tager fra start til slut. Throughput er antallet af forespørgsler, et system kan håndtere per sekund. Et system kan have høj throughput og samtidig høj latency, f.eks. ved batch-processing, hvor mange forespørgsler behandles parallelt, men hver enkelt venter længe på at komme igennem.
Latency er heller ikke det samme som oppetid eller tilgængelighed. Et system kan være tilgængeligt 99,99 % af tiden og stadig have uacceptabel latency. Ligeledes er lav latency ikke en garanti for kvalitet: en model kan svare hurtigt men upræcist. Den rette balance mellem svartid og svarkvalitet er en central designbeslutning.
Det er også vigtigt at skelne mellem faktisk latency og oplevet latency. Teknikker som streaming, hvor modellen sender output token for token, reducerer ikke den samlede svartid, men giver brugeren en oplevelse af øjeblikkelig respons. Mange moderne AI-applikationer bruger denne tilgang til at forbedre brugeroplevelsen uden nødvendigvis at reducere den tekniske latency.
Inference: Selve processen, hvor en AI-model behandler input og genererer output. Inference-hastigheden er den primære komponent i AI-latency.
Edge AI: AI-behandling tæt på datakilden, der reducerer netværkslatency markant ved at undgå roundtrips til cloud-servere.
LLM (Large Language Model): Store sprogmodeller, hvis størrelse og kompleksitet er en hovedårsag til compute-latency i tekstbaserede AI-systemer.
Model Quantization: Teknik til at reducere modellens præcision (f.eks. fra 16-bit til 4-bit), hvilket sænker latency og hukommelsesforbrug.
RAG (Retrieval-Augmented Generation): Arkitektur der tilføjer et søgnings-led før generering, hvilket øger den samlede latency men forbedrer svarkvaliteten.
Token / Tokenization: Input og output måles i tokens, og latency rapporteres ofte som tid per token (time-to-first-token og tokens-per-second).
Du behøver ikke en cloud-tjeneste eller et NVIDIA-grafikkort for at køre en kraftfuld LLM lokalt....
Halvdelen af alle danske netbutikker investerer i AI i 2026, og for første gang nogensinde dukker...
Snowflake lancerede den 18. marts 2026 Project SnowWork i research preview, og det er mere end blot...