Latency i AI-systemer
Latency i AI-systemer er den tid, der går fra et AI-system modtager et input, til det leverer et output. Det kan være de sekunder, en chatbot bruger på at svare, eller de millisekunder, en fraud detection-model bruger på at vurdere en transaktion. Jo lavere latency, jo hurtigere og mere flydende opleves systemet.
For virksomheder, der bygger AI ind i kundevendte processer, interne værktøjer eller realtidsbeslutninger, er latency ikke et teknisk detaljemål. Det er en forretningsmæssig KPI. Amazon har dokumenteret, at 100 ms ekstra forsinkelse koster ca. 1 % i omsætning. Samme logik gælder, når medarbejdere venter på svar fra en AI Agent eller en kunde oplever forsinkelser i en Conversational AI-løsning.
Latency i AI-systemer afhænger af flere faktorer: modelstørrelse, infrastruktur, netværksafstand og optimeringsniveau. Forståelsen af disse faktorer er afgørende for at træffe de rette arkitekturbeslutninger.
Hvad skaber latency i AI-systemer?
Latency i et AI-system opstår i flere led. Det første er netværkslatency: den tid det tager for data at rejse fra brugerens enhed til serveren, der kører modellen. Hvis modellen hostes i en cloud-region langt fra brugeren, kan denne forsinkelse alene udgøre hundredvis af millisekunder.
Det andet led er compute-latency: den tid selve modellen bruger på at behandle input og generere et output. Her spiller modelstørrelse en afgørende rolle. En stor LLM med hundredvis af milliarder parametre kræver markant mere regnekraft end en mindre, specialiseret model. Modellens arkitektur, herunder om den bruger teknikker som Mixture of Experts (MoE), påvirker også hastigheden.
Det tredje led er pre- og postprocessing: tokenisering af input, sammensætning af context (herunder eventuelle RAG-opslag), og formatering af output. I et RAG-setup skal systemet først søge i en vidensbase, hente relevante dokumenter og kombinere dem med brugerens forespørgsel, før modellen overhovedet begynder at generere.
Endelig spiller infrastrukturlaget en rolle. GPU-tilgængelighed, batching-strategier og om systemet bruger dedikerede eller delte ressourcer påvirker den samlede svartid. Continuous batching, hvor nye forespørgsler løbende tilføjes til den aktive GPU-batch, er en teknik, der balancerer throughput og latency.
Consile hjælper virksomheder med at optimere AI-systemers ydeevne og reducere latency. Kontakt os for en teknisk gennemgang af jeres AI-arkitektur.
Latency i erhvervslivet: hvor det gør ondt
I kundevendte applikationer er latency direkte forbundet med brugeroplevelse og konvertering. En AI-chatbot, der bruger fem sekunder på at svare, mister brugerens opmærksomhed. En produktanbefalingsmotor, der ikke leverer resultater inden siden er loadet, bliver aldrig vist. Realtids-fraud detection, der ikke kan vurdere en transaktion inden timeout, lader potentielt svindel passere.
I interne processer har latency en produktivitetskostnad. Når hundredvis af medarbejdere dagligt interagerer med AI-assistenter til søgning i dokumenter, generering af rapporter eller besvarelse af kundehenvendelser, akkumulerer selv små forsinkelser sig til timer af tabt produktivitet. For virksomheder, der skalerer Agentic AI-systemer, hvor AI-agenter kalder hinanden i kæder, multipliceres latency med antallet af agentinteraktioner.
Latency påvirker også, hvilke use cases der overhovedet er mulige. Realtidsanalyse af videofeeds, stemmestyrede interfaces, autonome køretøjer og industriel procesoptimering kræver sub-100 ms responstider. Virksomheder med høj latency er afskåret fra disse højværdi-scenarier.
Derudover har latency en direkte omkostningsdimension. Længere inference-tider betyder længere GPU-belastning per forespørgsel, hvilket øger infrastrukturomkostningerne. Optimeret latency giver typisk 5-10x bedre pris-ydelse-forhold.
Hvad latency ikke er
Latency forveksles ofte med throughput, men de to begreber måler forskellige ting. Latency er den tid, en enkelt forespørgsel tager fra start til slut. Throughput er antallet af forespørgsler, et system kan håndtere per sekund. Et system kan have høj throughput og samtidig høj latency, f.eks. ved batch-processing, hvor mange forespørgsler behandles parallelt, men hver enkelt venter længe på at komme igennem.
Latency er heller ikke det samme som oppetid eller tilgængelighed. Et system kan være tilgængeligt 99,99 % af tiden og stadig have uacceptabel latency. Ligeledes er lav latency ikke en garanti for kvalitet: en model kan svare hurtigt men upræcist. Den rette balance mellem svartid og svarkvalitet er en central designbeslutning.
Det er også vigtigt at skelne mellem faktisk latency og oplevet latency. Teknikker som streaming, hvor modellen sender output token for token, reducerer ikke den samlede svartid, men giver brugeren en oplevelse af øjeblikkelig respons. Mange moderne AI-applikationer bruger denne tilgang til at forbedre brugeroplevelsen uden nødvendigvis at reducere den tekniske latency.
Relaterede termer
Inference er det øjeblik, hvor en AI-model omsætter data til svar. Forstå hvorfor inference er den største omkostning i AI, og hvordan du optimerer den.
Edge AI kører AI-modeller lokalt på enheder i stedet for i skyen. Forstå fordelene, anvendelserne og hvornår edge-tilgangen giver mening for din virksomhed.
Model Quantization reducerer AI-modellers størrelse og øger hastigheden markant. Forstå teknikken, fordelene og hvornår den giver mening for din virksomhed.
Tokens er de byggesten, AI-modeller arbejder med. Forstå hvad tokenization er, hvorfor det påvirker pris, hastighed og kvalitet — og hvad det betyder for din virksomhed.
Model deployment er processen med at bringe en trænet AI-model i produktion. Lær hvad det kræver, og hvorfor det er afgørende for AI-værdiskabelse.
Cloud AI giver virksomheder adgang til AI-tjenester via cloud-platforme uden store investeringer i hardware. Forstå fordele, risici og den europæiske kontekst.
Ofte stillede spørgsmål om Latency i AI-systemer
Hvad er acceptabel latency for en AI-chatbot?+
For de fleste kundevendte chatbots bør time-to-first-token ligge under 1 sekund, og det fulde svar bør leveres inden for 3-5 sekunder. Med streaming kan brugeren se svaret bygge sig op, hvilket gør ventetiden acceptabel. For interne assistenter kan tolerancen være lidt højere, men over 10 sekunder falder brugeradoptionen markant.
Kan man reducere latency uden at skifte model?+
Ja. Teknikker som model quantization, KV-cache-optimering, intelligent batching og geografisk placering af inference-servere tættere på brugerne kan reducere latency med 2-10x uden at ændre selve modellen. Consile hjælper med at identificere de optimeringsmuligheder, der giver størst effekt for jeres setup.
Hvad er forskellen på latency og time-to-first-token?+
Latency dækker den samlede tid fra input til komplet output. Time-to-first-token (TTFT) måler kun tiden til det første token leveres. TTFT er særligt relevant for streaming-applikationer, hvor brugeren ser svaret genereres løbende. Begge metrikker bør monitoreres i produktion.