Latency i AI-systemer

AI ORDBOG

Hvad skaber latency i AI-systemer?

Latency i et AI-system opstår i flere led. Det første er netværkslatency: den tid det tager for data at rejse fra brugerens enhed til serveren, der kører modellen. Hvis modellen hostes i en cloud-region langt fra brugeren, kan denne forsinkelse alene udgøre hundredvis af millisekunder.

Det andet led er compute-latency: den tid selve modellen bruger på at behandle input og generere et output. Her spiller modelstørrelse en afgørende rolle. En stor LLM med hundredvis af milliarder parametre kræver markant mere regnekraft end en mindre, specialiseret model. Modellens arkitektur, herunder om den bruger teknikker som Mixture of Experts (MoE), påvirker også hastigheden.

Det tredje led er pre- og postprocessing: tokenisering af input, sammensætning af context (herunder eventuelle RAG-opslag), og formatering af output. I et RAG-setup skal systemet først søge i en vidensbase, hente relevante dokumenter og kombinere dem med brugerens forespørgsel, før modellen overhovedet begynder at generere.

Endelig spiller infrastrukturlaget en rolle. GPU-tilgængelighed, batching-strategier og om systemet bruger dedikerede eller delte ressourcer påvirker den samlede svartid. Continuous batching, hvor nye forespørgsler løbende tilføjes til den aktive GPU-batch, er en teknik, der balancerer throughput og latency.

Latency i erhvervslivet: hvor det gør ondt

I kundevendte applikationer er latency direkte forbundet med brugeroplevelse og konvertering. En AI-chatbot, der bruger fem sekunder på at svare, mister brugerens opmærksomhed. En produktanbefalingsmotor, der ikke leverer resultater inden siden er loadet, bliver aldrig vist. Realtids-fraud detection, der ikke kan vurdere en transaktion inden timeout, lader potentielt svindel passere.

I interne processer har latency en produktivitetskostnad. Når hundredvis af medarbejdere dagligt interagerer med AI-assistenter til søgning i dokumenter, generering af rapporter eller besvarelse af kundehenvendelser, akkumulerer selv små forsinkelser sig til timer af tabt produktivitet. For virksomheder, der skalerer Agentic AI-systemer, hvor AI-agenter kalder hinanden i kæder, multipliceres latency med antallet af agentinteraktioner.

Latency påvirker også, hvilke use cases der overhovedet er mulige. Realtidsanalyse af videofeeds, stemmestyrede interfaces, autonome køretøjer og industriel procesoptimering kræver sub-100 ms responstider. Virksomheder med høj latency er afskåret fra disse højværdi-scenarier.

Derudover har latency en direkte omkostningsdimension. Længere inference-tider betyder længere GPU-belastning per forespørgsel, hvilket øger infrastrukturomkostningerne. Optimeret latency giver typisk 5-10x bedre pris-ydelse-forhold.

Hvad latency ikke er

Latency forveksles ofte med throughput, men de to begreber måler forskellige ting. Latency er den tid, en enkelt forespørgsel tager fra start til slut. Throughput er antallet af forespørgsler, et system kan håndtere per sekund. Et system kan have høj throughput og samtidig høj latency, f.eks. ved batch-processing, hvor mange forespørgsler behandles parallelt, men hver enkelt venter længe på at komme igennem.

Latency er heller ikke det samme som oppetid eller tilgængelighed. Et system kan være tilgængeligt 99,99 % af tiden og stadig have uacceptabel latency. Ligeledes er lav latency ikke en garanti for kvalitet: en model kan svare hurtigt men upræcist. Den rette balance mellem svartid og svarkvalitet er en central designbeslutning.

Det er også vigtigt at skelne mellem faktisk latency og oplevet latency. Teknikker som streaming, hvor modellen sender output token for token, reducerer ikke den samlede svartid, men giver brugeren en oplevelse af øjeblikkelig respons. Mange moderne AI-applikationer bruger denne tilgang til at forbedre brugeroplevelsen uden nødvendigvis at reducere den tekniske latency.

Relaterede termer

Inference: Selve processen, hvor en AI-model behandler input og genererer output. Inference-hastigheden er den primære komponent i AI-latency.

Edge AI: AI-behandling tæt på datakilden, der reducerer netværkslatency markant ved at undgå roundtrips til cloud-servere.

LLM (Large Language Model): Store sprogmodeller, hvis størrelse og kompleksitet er en hovedårsag til compute-latency i tekstbaserede AI-systemer.

Model Quantization: Teknik til at reducere modellens præcision (f.eks. fra 16-bit til 4-bit), hvilket sænker latency og hukommelsesforbrug.

RAG (Retrieval-Augmented Generation): Arkitektur der tilføjer et søgnings-led før generering, hvilket øger den samlede latency men forbedrer svarkvaliteten.

Token / Tokenization: Input og output måles i tokens, og latency rapporteres ofte som tid per token (time-to-first-token og tokens-per-second).

Illustration af enterprise AI-automatisering og multi-agent orkestrering

IBM Think 2026 fandt sted den 5. maj i Boston, og konferencens budskab var klart: virksomheder, der...

Microsoft Agent 365 og 365 E7 generelt tilgængelige som control plane til AI-agenter

Microsoft har 1. maj gjort Agent 365 generelt tilgængelig som control plane til AI-agenter, og...

AI-agenter til finanssektoren med automatisering og dataintegration

Anthropic har netop lanceret ti færdigbyggede AI-agenter målrettet finanssektoren, en fuld...

AI-implementering

Compliance og Governance

AI til Marketing og Salg

AI ROI Beregner

AI Nyheder

AI Ordbog

AI Skills

Latency i AI-systemer

AI ORDBOG

Hvad skaber latency i AI-systemer?

Latency i erhvervslivet: hvor det gør ondt

Hvad latency ikke er

Relaterede termer

IBM Think 2026: Multi-agent AI bliver virkelighed

Microsoft Agent 365 og 365 E7 med control plane til AI-agenter

Anthropic lancerer 10 AI-agenter til finans