Hvad er Inference?

AI ORDBOG

Hvordan virker inference?

Inference foregår i to faser. Først behandler modellen dit input (en prompt, et billede, en datarække) og opbygger en intern repræsentation af, hvad der spørges om. Derefter genererer modellen sit output, token for token i tilfældet med sprogmodeller, eller som en samlet prediktion ved klassifikation og regression.

Hastigheden afhænger af modellens størrelse, hardwaren den kører på, og hvor komplekst inputtet er. En foundation model med hundredvis af milliarder parametre kræver betydeligt mere compute per inference-kald end en specialiseret, mindre model. Det er her afvejningen mellem kvalitet og hastighed opstår.

Latency, altså den tid det tager fra input til output, er afgørende for brugeroplevelsen. I en kundeservicechat forventer brugeren svar inden for sekunder. I en batch-analyse af tusindvis af dokumenter er gennemløbstid vigtigere end latency per forespørgsel. Valget af inference-strategi afhænger derfor af, hvilken type applikation du bygger.

Moderne inference-optimering bruger teknikker som kvantisering (at reducere præcisionen af modellens beregninger uden væsentligt kvalitetstab), batching (at samle flere forespørgsler og behandle dem samtidig) og caching (at genbruge tidligere beregninger). Disse teknikker kan reducere omkostningerne med faktor 5 til 10 sammenlignet med en uoptimeret opsætning.

Inference i erhvervslivet

Hver gang en virksomhed bruger AI i produktion, er det inference, der kører. Det gælder chatbots, der besvarer kundehenvendelser. Det gælder anbefalingsmotorer, der foreslår produkter. Det gælder AI-agenter, der automatiserer arbejdsgange. Og det gælder analyseværktøjer, der scanner dokumenter for risici eller mønstre.

Omkostningsstrukturen er vigtig at forstå. Træning af en stor sprogmodel kan koste millioner af kroner, men det sker typisk én gang (eller ved regelmæssige genoptræninger). Inference kører derimod konstant, for hver eneste bruger, hver eneste forespørgsel, døgnet rundt. OpenAI har rapporteret, at inference-udgifterne for GPT-4 var op til 15 gange højere end træningsomkostningerne i 2024. For virksomheder, der skalerer AI-løsninger, er inference-budgettet derfor den post, der kræver mest opmærksomhed.

Valget af infrastruktur spiller en stor rolle. Cloud-baseret inference er fleksibel og kræver minimal opsætning, men omkostningerne kan eskalere hurtigt ved høj volumen. On-premise inference giver fuld kontrol over data og forudsigelige omkostninger, men kræver investering i hardware. Edge AI placerer inference tæt på brugeren eller enheden, hvilket reducerer latency og båndbreddeforbrug, men begrænser modelstørrelsen.

Den optimale løsning for de fleste virksomheder er en hybrid tilgang: cloud til fleksibilitet og skalering, edge til tidskritiske applikationer, og on-premise til følsomme data. Consile hjælper virksomheder med at designe den rette inference-arkitektur baseret på deres specifikke behov.

Hvad inference ikke er

Inference er ikke træning. Træning er den fase, hvor modellen lærer fra data ved at justere sine parametre. Inference bruger de fastlåste parametre til at behandle nye input. En model, der kører inference, lærer ikke nyt af de data, den behandler (medmindre der er implementeret et feedback-loop, der fører tilbage til genoptræning).

Inference er heller ikke det samme som fine-tuning. Fine-tuning er en lettere form for træning, der tilpasser en eksisterende model til et specifikt domæne. Inference er det, der sker efter træning og fine-tuning, når modellen er klar til at levere resultater.

Det er også vigtigt ikke at forveksle inference-hastighed med modelkvalitet. En hurtigere inference betyder ikke nødvendigvis dårligere svar. Med de rette optimeringer kan man opnå både lav latency og høj kvalitet. Omvendt er en langsom model ikke automatisk bedre; den kan blot køre på utilstrækkelig hardware.

Relaterede termer

LLM (Large Language Model): Den type model, der oftest kører inference i moderne AI-applikationer. Jo større model, jo mere compute kræves per inference-kald.

Foundation Model: De store, fortrænede modeller, der danner grundlaget for inference i de fleste enterprise-løsninger.

Edge AI: En deploymentstrategi, hvor inference flyttes tæt på brugeren eller enheden for at reducere latency.

Fine-tuning: Processen, der tilpasser en model inden den bruges til inference i et specifikt domæne.

Latency i AI-systemer: Den tid det tager fra input til output under inference, og en kritisk faktor for brugeroplevelsen.

Cloud AI: Inference, der køres i skyen via tjenester som AWS, Azure eller Google Cloud.

Model Quantization: En optimeringsteknik, der reducerer modellens størrelse for hurtigere og billigere inference.

Illustration af AI-agenter og automatisering i enterprise-virksomheder

Google Cloud har netop lanceret Gemini Enterprise Agent Platform og introduceret begrebet Agentic...

GPT-5.5 og GPT-5.5-Cyber lanceres af OpenAI som modsvar til Anthropics Claude Mythos

OpenAI har på under en uge lanceret to modeller, der ændrer balancen i AI-kapløbet. GPT-5.5 kom 23....

EU AI Act compliance deadlines illustration

EU-trilogen om AI Act Omnibus kollapsede 28. april efter 12 timers forhandlinger uden en politisk...

AI-implementering

Compliance og Governance

AI til Marketing og Salg

AI ROI Beregner

AI Nyheder

AI Ordbog

AI Skills

Hvad er Inference?

AI ORDBOG

Hvordan virker inference?

Inference i erhvervslivet

Hvad inference ikke er

Relaterede termer

Google Cloud satser på agenter: Agentic Enterprise forandrer AI

GPT-5.5-Cyber: OpenAI's modsvar til Claude Mythos

EU AI Act Omnibus kollapsede: Alle deadlines står ved magt