Inference Shift (Inferensskiftet)
Inference Shift beskriver det fundamentale skift i AI-industrien, hvor inferens har overhalet traening som den stoerste post paa computebudgettet. Frem til 2023 gik stoerstedelen af verdens AI-compute til at traene modeller. I 2025 stod inferens for halvdelen af al AI-compute. I 2026 er andelen steget til to tredjedele. Skiftet er ikke et modeord. Det er en oekonomisk realitet, der aendrer, hvilken hardware virksomheder koeber, hvilke cloud-aftaler der giver mening, og hvordan AI-budgetter fordeles.
Taenk paa det saadan: at traene GPT-4 kostede anslaaet 100 millioner dollars over faa maaneder. Men hver eneste gang en bruger sender en prompt til ChatGPT, koerer en inferensoperation. Med over 400 millioner brugere multipliceret med snesevis af daglige forespoegsler overstiger de akkumulerede inferensomkostninger hurtigt traeningsomkostningen. For de fleste virksomheder, der bruger AI i produktion, udgoer inferens 80-90 % af den samlede livstidsomkostning.
For danske virksomheder, der bygger AI ind i kundeservice, salg eller produktudvikling, betyder Inference Shift, at budgetfokus skal flyttes. Det handler ikke laengere primaert om, hvad det koster at tilpasse en model. Det handler om, hvad det koster at koere den tusindvis af gange om dagen, hver dag, aar efter aar. Den erkendelse aendrer alt fra valg af cloud-udbyder til hardware-strategi og arkitektoniske beslutninger om tokenokonomi.
Hvorfor inferens er blevet dyrere end traening
1. Traening er en engangsomkostning, inferens er en driftsomkostning. Naar en foundation model er traenet, er den traenet. Inferens derimod koerer saa laenge modellen er i produktion. Hver API-kald, hver chatbesked, hver automatiseret beslutning er en inferensoperation. For en virksomhed, der betjener 10.000 brugere dagligt med en LLM-baseret tjeneste, kan de akkumulerede inferensomkostninger overstige traeningsomkostningen inden for faa maaneder.
2. Agentic AI multiplicerer inferensbehovet. En enkelt brugerforesporgsel til et agentic AI-system genererer ikke et enkelt inferenskald. Agenten planlaegger, kalder vaerktoejer, evaluerer mellemresultater og justerer sin tilgang. Et enkelt brugeroenske kan udloese 5-50 inferensoperationer. Naar virksomheder skifter fra simple chatbots til agentbaserede workflows, eksploderer inferensforbruget.
3. Reasoning-modeller bruger massivt mere compute per foresporgsel. Modeller som OpenAI o3 og DeepSeek R1 bruger extended chain-of-thought, hvor modellen genererer hundredvis eller tusindvis af interne tokens, foer den producerer et svar. DeepSeek R1 forbedrede sin AIME-benchmark-noejagtighed fra 15,6 % til 71 % ved at bruge mere inferens-compute. Det er en 4,5x forbedring, men ogsaa en markant stigning i omkostninger per foresporgsel.
4. Test-time compute scaling udfordrer traditionelle skaleringsmodeller. Forskningen viser, at en 7B-parameter model med 100x inferens-compute kan matche en 70B-model med standard inferens. Det betyder, at virksomheder kan vaelge mellem at koere en stor model billigt eller en lille model dyrt, afhangig af opgaven. Denne fleksibilitet er ny og kraever en helt anden tilgang til kapacitetsplanlaegning.
5. Inferensinfrastruktur stiller andre krav end traeningsinfrastruktur. Traening er store, planlagte batch-koersler i centraliserede datacentre. Inferens er kontinuerlig, latens-sensitiv og ofte distribueret. Traening optimerer for peak FLOPS. Inferens optimerer for gennemstroemning per watt, hukommelse per token og tid til foerste token (TTFT). Det er to fundamentalt forskellige infrastrukturparadigmer.
6. Energi er blevet den reelle flaskehals. Et enkelt NVIDIA B200-rack kan traekke op mod 120 kW. Naar tusindvis af disse racks koerer inferens 24/7, bliver stroemforsyning og koeling de begraensende faktorer. I 2026 er det ikke compute-kapacitet, men energi, der afgorer, hvor meget inferens et datacenter kan levere. Det er en af grundene til, at hyperscalere som Google, Microsoft og Amazon investerer i atomkraft og nye energikilder.
7. Token-okonomien driver arkitekturvalg. Prisen per million tokens varierer dramatisk mellem udbydere og modeller. GPT-4o koster 1,25 USD per million input-tokens paa Azure. Claude 3.5 Sonnet koster 3,00 USD per million input-tokens paa AWS Bedrock. Disse forskelle driver virksomheder til at bruge model routing, hvor simple forespoegsler sendes til billige modeller og kun komplekse opgaver rammer de dyre frontier-modeller.
8. Batch-inferens reducerer omkostningerne med op til 50 %. Amazon Bedrock tilbyder batch-inferens til halv pris sammenlignet med on-demand. Google Vertex AI giver op til 57 % rabat ved 3-aarige commitments. Azure tilbyder Provisioned Throughput Units (PTU), der kan reducere omkostningerne med op til 70 % paa forudsigelige workloads. For virksomheder med stabile inferensmonstre er disse rabatmodeller afgoorende for at holde budgettet.
Vi hjaelper danske virksomheder med at navigere Inference Shift: fra valg af inferensplatform og model routing-strategi til FinOps-setup og compliance-dokumentation. Kontakt os for en konkret gennemgang af, hvordan du optimerer dine inferensomkostninger.
Konkrete konsekvenser for virksomheder
Inferensbudgettering erstatter traeningsbudgettering. Traditionelt budgetterede AI-teams for traening: hvor mange GPU-timer koster det at fine-tune en model? Med Inference Shift skal budgettet primaert daekke driftsomkostninger. En dansk e-commerce-virksomhed, der bruger AI til produktanbefalinger, betaler maske 5.000 kr. for at fine-tune en model, men 50.000 kr. om maaneden for at koere den mod deres katalog i realtid. Budgetmodellen ligner mere SaaS end traditionel IT-investering.
Model routing bliver en kernekompetence. Ikke alle forespoegsler kraever en frontier-model. En simpel FAQ-besvarelse kan haandteres af en small language model til en broekedel af prisen. Virksomheder, der implementerer intelligent routing, sender 60-70 % af forespoegsler til billige modeller og kun de resterende til dyre modeller. Det kan reducere den samlede inferensomkostning med 40-60 % uden maalbar kvalitetsforringelse paa de simple opgaver.
Edge-inferens aabner nye use cases. Naar inferens flytter fra cloud til edge-enheder, forsvinder latens og dataforsendelsesomkostninger. En dansk produktionsvirksomhed kan koere kvalitetskontrol-AI direkte paa en NPU i en kameraenhed paa produktionslinjen. Responstiden falder fra 200 ms (cloud roundtrip) til under 10 ms (lokal inferens). Det goer realtids-AI muligt i skaerme, der kraever millisekund-beslutninger.
Inferensoptimering pavirker modelvalg. Teknikker som kvantisering (reducering af modelpreecision fra FP16 til INT8 eller INT4) kan halvere inferensomkostningen med minimalt kvalitetstab. Speculative decoding, hvor en lille model forudsiger tokens, som en stor model derefter verificerer, kan oege gennemstroemningen med 2-3x. Disse teknikker er ikke laengere akademiske. De er produktionsvaerktoejer, som enhver virksomhed med serioes AI-drift boer evaluere.
Caching reducerer redundante inferensoperationer. Mange AI-systemer besvarer de samme typer spoergsmaal gentagne gange. Semantisk caching gemmer svar paa lignende forespoegsler og serverer dem uden ny inferens. En kundeservice-AI kan typisk cache 20-30 % af sine svar, hvilket direkte reducerer inferensomkostningerne med tilsvarende. Context caching, som Google Vertex AI tilbyder, reducerer omkostningen for gentagne kontekstvinduer.
FinOps for AI bliver en ny disciplin. Ligesom cloud-FinOps hjaelper virksomheder med at styre AWS- og Azure-regninger, opstaar AI FinOps som disciplin for at styre inferensomkostninger. Det inkluderer monitoring af tokenforbbrug per tjeneste, allokering af omkostninger til forretningsenheder, optimering af modelmix og forhandling af volumenrabatter. Uden AI FinOps risikerer virksomheder at inferensomkostningerne vokser ukontrolleret, efterhaanden som AI-brugen skalerer.
SLA-krav aendrer sig. I traeningsverdenen maalte man paa, hvornaar modellen var faerdig. I inferensverdenen maaler man paa latens (tid til foerste token), gennemstroemning (tokens per sekund) og tilgaengelighed (uptime). En dansk fintech-virksomhed, der bruger AI til kreditvurdering, har brug for garanteret latens under 500 ms og 99,9 % uptime. Det stiller krav til infrastruktur, der er fundamentalt anderledes end et traeningscluster.
Hardware og udbydere i inferensmarkedet
NVIDIA dominerer med Blackwell-arkitekturen. NVIDIAs B200 GPU, bygget paa Blackwell-arkitekturen, er den mest udbredte inferens-chip i 2026. Den koster mellem 30.000 og 40.000 USD per enhed og lejes i cloud til 4,90-6,50 USD per time. Blackwell-platformen tilbyder en 30x forbedring i inferensydelse per watt sammenlignet med den tidligere Hopper-generation. NVIDIAs styrke er det modne CUDA-softwareokosystem, som goer det nemt at deploye modeller uden at omskrive kode.
AMD presser paa med MI300X og MI350. AMDs MI300X tilbyder 192 GB HBM3-hukommelse og 5,3 TB/s baandbredde. Det er 36 % mere hukommelse end NVIDIAs H200 (141 GB). For store modeller, der ikke passer i en enkelt GPU's hukommelse, er MI300X ofte det bedre valg. Prisen ligger paa 10.000-15.000 USD per enhed, markant lavere end NVIDIA. Cloud-leje starter fra 1,85 USD per time hos udbydere som Vultr. Den nyere MI350 med 288 GB HBM3e og 8 TB/s baandbredde er begyndt at blive tilgaengelig i 2026.
Groq har bygget hardware specifikt til inferens. Groqs Language Processing Unit (LPU) er designet udelukkende til sekventiel tokengenerering. Resultatet er sub-100 ms tid til foerste token og deterministisk latens, uanset belastning. For applikationer, der kraever realtidssvar, er Groq den hurtigste udbyder paa markedet. Prisen per token er konkurrencedygtig med GPU-baserede loesninger, og den forudsigelige ydeevne goer kapacitetsplanlaegning enklere.
Google og Amazon bygger egen silicium. Googles TPU v5e og den nyere TPU 8i (Zebrafish) er optimeret til inferens paa Google Cloud. Amazons Trainium 2 og Inferentia 2 tilbyder konkurrencedygtige tokens-per-dollar til inferensworkloads paa AWS. Begge chiptyper undgaar NVIDIAs prispreemie og giver cloud-udbyderne bedre marginer, som de kan videregive til kunderne i form af lavere priser.
Cloud-udbyderne differentierer sig paa pris og features. AWS Bedrock tilbyder den bredeste modelportefoelje (Anthropic, Meta, Mistral, Amazon) med batch-inferens til halv pris. Azure AI Foundry giver adgang til OpenAI-modeller med enterprise SLA og PTU-rabatter paa op til 70 %. Google Vertex AI tilbyder de stoerste volumenrabatter (57 % ved 3-aarige commitments) og kontekst-caching, der reducerer omkostningen for gentagne kontekstvinduer.
Open-source inference-platforme vokser. vLLM, TensorRT-LLM og SGLang er open-source inference engines, der koerer paa egne GPU'er. De giver virksomheder fuld kontrol over infrastrukturen og undgaar cloud-marginerne. For en dansk virksomhed med specialiserede compliance-krav kan on-premise inferens med vLLM paa en MI300X vaere baade billigere og mere fleksibelt end managed cloud-tjenester.
Markedet for inferens-optimerede chips vokser eksplosivt. Markedet for inferens-optimerede chips forventes at overstige 50 milliarder USD i 2026. Det samlede AI-inferensmarked forventes at vokse fra 106 milliarder USD i 2025 til 255 milliarder USD i 2030, med en aarlig vaekstrate paa 19,2 %. Denne vaekst driver en boelge af nye aktorer, fra startups som Cerebras og SambaNova til etablerede spillere som Intel med Gaudi 3.
Adgang, priser og danske overvejelser
Inference er det øjeblik, hvor en AI-model omsætter data til svar. Forstå hvorfor inference er den største omkostning i AI, og hvordan du optimerer den.
Token Economics handler om, hvordan tokens styrer prissætning, forbrug og rentabilitet i AI-systemer. Lær hvad det betyder for din virksomheds AI-budget.
AI FinOps er disciplinen for finansiel styring af AI-workloads. Lær hvordan du kontrollerer GPU-, trænings- og inferensomkostninger og skaber synlighed i AI-forbrug.
Edge AI kører AI-modeller lokalt på enheder i stedet for i skyen. Forstå fordelene, anvendelserne og hvornår edge-tilgangen giver mening for din virksomhed.
En model router sender hver AI-forespørgsel til den rette model baseret på kompleksitet, pris og hastighed. Forstå hvordan det sparer 30-70% på AI-omkostninger.
Model Quantization reducerer AI-modellers størrelse og øger hastigheden markant. Forstå teknikken, fordelene og hvornår den giver mening for din virksomhed.
Test-time compute lader AI-modeller bruge ekstra beregningskraft under inferens for bedre svar. Forstå paradigmet og dets betydning for din virksomhed.
Inferensoptimering reducerer omkostninger og latenstid, når AI-modeller kører i produktion. Forstå teknikker som kvantisering, batching og KV-cache.
Ofte stillede spoergsmaal om Inference Shift
Hvad er forskellen paa traening og inferens?+
Traening er processen, hvor en AI-model laerer fra data. Det sker een gang (eller ved re-traening) og kraever store maengder compute i en koncentreret periode. Inferens er, naar den traenede model bruges til at lave forudsigelser eller generere svar. Det sker kontinuerligt, hver gang en bruger interagerer med modellen. For de fleste virksomheder koster inferens 80-90 % af den samlede AI-udgift.
Hvorfor er inferens pludselig saa dyrt?+
Tre faktorer driver omkostningerne: volumenstigning (flere brugere og applikationer), agentic workflows (en brugerhandling udloeser 5-50 inferenskald), og reasoning-modeller (der bruger tusindvis af interne tokens per svar). Selvom prisen per token er faldet 90 % paa to aar, stiger det samlede forbrug hurtigere. Resultatet er stigende regninger trods faldende enhedspriser.
Hvad koster inferens i praksis for en dansk virksomhed?+
Det afhaenger af model, volumen og udbyder. En kundeservice-AI med 1.000 daglige samtaler paa GPT-4o koster ca. 500-2.000 kr. om maaneden. Samme workload paa Gemini 2.0 Flash koster under 100 kr. Med en agentic workflow, der bruger 10x flere tokens, multipliceres priserne tilsvarende. Valg af model og routing-strategi kan betyde 10-50x forskel i maanedlig omkostning.
Skal min virksomhed investere i egne GPU'er til inferens?+
Kun hvis dit forbrug er stabilt og overstiger 50.000-100.000 kr. om maaneden i cloud-inferens. En AMD MI300X koster 10.000-15.000 USD og kan med open-source software (vLLM, TensorRT-LLM) levere sammenlignelig kapacitet. Tilbagebetalingstiden er typisk 3-6 maaneder. For variable workloads eller spoergsmaal om flere modeltyper er cloud stadig det mest fleksible valg.
Hvad kraever EU AI Act i forhold til inferens?+
For hoejrisiko AI-systemer kraever EU AI Act logging af inferensoperationer, overvagning for bias og model drift, og dokumentation af beslutningsprocesser. Det gaelder systemer i brug, ikke kun under udvikling. Danske virksomheder i regulerede brancher (finans, sundhed, HR) skal sikre, at deres inferensinfrastruktur kan levere denne dokumentation. Manglende compliance kan resultere i boder paa op til 35 millioner EUR.
Hvad er model routing, og hvorfor er det vigtigt?+
Model routing sender forespoegsler til den mest kostnadseffektive model, der kan haandtere opgaven. Simple spoergsmaal gaar til en billig model (f.eks. Gemini Flash til 0,10 USD/M tokens), mens komplekse opgaver sendes til en frontier-model (f.eks. GPT-4o til 1,25 USD/M tokens). Virksomheder, der implementerer routing, reducerer typisk inferensomkostningen med 40-60 % uden maalbar kvalitetsforringelse paa de simple opgaver.
Hvordan pavirker Inference Shift valg af cloud-udbyder?+
Cloud-udbyderne differentierer sig markant paa inferens. AWS Bedrock har den bredeste modelportefoelje og batch-rabatter paa 50 %. Azure giver adgang til OpenAI-modeller med PTU-rabatter paa op til 70 %. Google Vertex AI tilbyder de stoerste volumenrabatter (57 % ved 3-aarige commitments). For GDPR-compliance er det vigtigt, at alle tre har EU-baserede regioner (Frankfurt, Stockholm, Hamina).