Op mod 56 % af alle Google-søgninger ender i dag uden et eneste klik. For B2B-virksomheder, der har...
Test-time compute lader AI-modeller bruge ekstra beregningskraft under inferens for bedre svar. Forstå paradigmet og dets betydning for din virksomhed.


Ved traditionel AI-inferens kører en prompt igennem modellens neurale netværk i ét enkelt gennemløb (en forward pass), og resultatet kommer med det samme. Test-time compute bryder med det mønster ved at tillade modellen at bruge ekstra beregningsskridt, før den leverer sit endelige svar.
Konkret sker det typisk på to måder. Den første er udvidet chain-of-thought-ræsonnement, hvor modellen genererer en intern tænkeproces med mellemtrin, selvevaluering og revision. Det er den tilgang, man ser i modeller som OpenAI o-serien og i chain of thought-teknikker generelt.
Den anden mekanisme er søgebaseret generering, hvor modellen udforsker flere mulige svar parallelt, scorer dem via en reward model og vælger det bedste. Det minder om, hvordan et skakprogram evaluerer flere træk frem, før det vælger det optimale.
Et centralt fund fra forskningen er, at optimeret test-time compute kan gøre mindre modeller lige så præcise som langt større modeller. Hugging Face har vist, at en model med 500 millioner parametre kan overgå GPT-4o på matematiske benchmarks, når den får den rette mængde tænketid. Det åbner for en helt ny afvejning: i stedet for at betale for en større model, kan man betale for mere tænketid per forespørgsel.
Nøglen er, at mængden af test-time compute kan tilpasses dynamisk. Enkle spørgsmål kræver minimal ekstra beregning, mens komplekse opgaver kan få betydeligt mere. Det gør systemet fleksibelt og omkostningseffektivt, når det implementeres rigtigt.
For virksomheder ændrer test-time compute den grundlæggende cost-benefit-beregning ved AI-implementering. Når et forkert svar koster mere end et langsomt svar, er ekstra tænketid en god investering. Det gælder i brancher som finans, sundhed, jura og teknisk rådgivning, hvor præcision er afgørende.
I praksis betyder det, at en LLM, der bruges til at analysere kontrakter, kan bruge test-time compute til at gennemgå dokumentet fra flere vinkler, identificere potentielle risici og dobbeltchecke sine konklusioner, før den præsenterer resultatet. Forskellen mellem et overfladisk svar og en grundig analyse ligger netop i den ekstra inferens-compute.
Sundhedssektoren er et andet oplagt område. AI-modeller kan bruge udvidet ræsonnement til at gennemgå patientjournaler, sammenligne med klinisk litteratur og foreslå behandlingsplaner med gennemsigtigt ræsonnement. Her er den ekstra beregningstid minimal sammenlignet med den kliniske værdi.
For virksomheder, der allerede arbejder med generativ AI, har paradigmet en praktisk konsekvens: valget af model handler ikke længere kun om størrelse og træning. Det handler også om, hvor meget inferens-compute man allokerer per opgave. Det kræver en mere nuanceret tilgang til AI-arkitektur og budgettering.
Deloitte estimerer, at inferens-workloads vil udgøre omkring to tredjedele af al AI-compute i 2026, op fra en tredjedel i 2023. Det understreger, at test-time compute ikke er et niche-emne, men en central driftsovervejelse for enhver virksomhed med AI i produktion.
Test-time compute er ikke det samme som at træne en model længere eller med flere data. Træning og inferens er to adskilte faser. Træning bygger modellens grundlæggende kapacitet, mens test-time compute handler om, hvordan modellen bruger den kapacitet, når den skal løse en konkret opgave. Mere test-time compute gør ikke en dårligt trænet model god, men det kan gøre en godt trænet model markant bedre til komplekse opgaver.
Det er heller ikke en erstatning for fine-tuning eller RAG. Fine-tuning ændrer modellens parametre permanent, og RAG giver modellen adgang til ekstern viden. Test-time compute handler derimod om, hvor meget beregningsindsats modellen lægger i at ræsonnere over den viden, den allerede har. De tre tilgange supplerer hinanden, og mange enterprise-løsninger kombinerer alle tre.
Endelig er test-time compute ikke gratis. Mere tænketid betyder flere GPU-sekunder og dermed højere driftsomkostninger per forespørgsel. Kunsten er at allokere den ekstra compute, hvor den giver mest værdi, og undgå at bruge den på trivielle opgaver, hvor et hurtigt svar er tilstrækkeligt.
Reasoning Model (Ræsonneringsmodel): AI-modeller designet til at ræsonnere trin for trin, ofte ved at bruge test-time compute til udvidet tænkning.
Chain of Thought (CoT): En teknik, hvor modellen genererer mellemliggende ræsonneringstrin for at nå et bedre endeligt svar.
LLM (Large Language Model): De store sprogmodeller, der er det primære anvendelsesområde for test-time compute-skalering.
Foundation Model: De grundlæggende modeller, hvis præstation kan forbedres markant med optimeret test-time compute.
Fine-tuning: En alternativ skaleringsstrategi, der ændrer modellens parametre i stedet for at øge inferens-compute.
Inference: Selve processen, hvor en trænet model genererer output, og hvor test-time compute anvendes.
Op mod 56 % af alle Google-søgninger ender i dag uden et eneste klik. For B2B-virksomheder, der har...
Forestil dig en fremtid, hvor dine kunder aldrig besøger din hjemmeside igen. Ikke fordi du har...
AI kan nu producere videoer af jeres CEO, der er umulige at skelne fra ægte optagelser. Spørgsmålet...