En praktisk analyse af kvalitet, tokenforbrug og svartid, målt på et almindeligt Claude-abonnement, ikke i et laboratorium. Datagrundlag: 906 gennemførte model-kald.
Anthropic publicerer selv benchmarks, og internettet flyder over med leaderboards. Men ingen af dem besvarer det spørgsmål, du reelt sidder med som abonnementsbruger: "Jeg har Claude Code på en fast månedspris. Hvilken model og hvilket effort-niveau skal jeg vælge, og hvad koster det mig i kvote og ventetid?"
På et abonnement betaler du nemlig ikke pr. token i kroner. Du betaler i to andre valutaer: brugskvote (alt, hvad modellen skriver, tæller mod loftet i dit 5-timers vindue) og tid (et kald på 25 minutter er en reel omkostning, uanset prisen på fakturaen). Så vi gjorde det, ingen benchmarks gør: vi målte selv på den rigtige produktionssti gennem Claude Code på et Max-abonnement, med alt hvad det indebærer af systemprompts, kvotelofter og ventetid. Præcis den motor, du selv sidder med.
Det blev til 906 gennemførte kald over fire dage. Resultaterne væltede vores egne forventninger.
1. Opus 4.8 dominerer totalt på svære opgaver. Den er på én gang den mest præcise (95 % rigtige mod Sonnets 78 % og Haikus 70 %), den mest token-økonomiske (4.000 tokens i snit mod Haikus 26.000) og den hurtigste (48 sekunder mod Haikus 144). Det er ikke det sædvanlige "kvalitet koster". Det er ren dominans på alle tre akser samtidig.
2. På effort-knappen er medium det suveræne sweet spot. Skiftet fra low til medium købte 7 ekstra rigtige svar ud af 180 forsøg (96,1 % → 100,0 %) for kun 34 % flere tokens. Alt over medium købte intet: high og xhigh leverede nul ekstra rigtige svar netto, men kostede 15 % og 69 % flere tokens og gav mærkbart længere ventetid.
3. Mere effort er ikke automatisk bedre, men dommen gælder kun, så længe opgaverne kan løses. Opus 4.8 rammer 100 % allerede ved medium på vores opgavesæt, så der er bogstaveligt talt ikke plads til forbedring derover. På et langt sværere sæt, hvor modellen kun klarer 1 ud af 5, bliver spørgsmålet interessant igen. Den måling er i gang (mere om det til sidst).
Tommelfingerreglen ud af data: brug medium som standard til svært ræsonnementarbejde, low til alt rutinepræget, og gem xhigh/max til opgaver, hvor du har konstateret, at medium faktisk fejler.
Du behøver ikke være teknisk for at følge med her. Du skal bare have tre begreber på plads.
Sprogmodeller læser og skriver i "tokens", små bidder af ord. Tommelfingerreglen er, at 1.000 tokens svarer til cirka 750 ord. Det vigtige er, at når en model "tænker", skriver den i praksis hele sin tankerrække ud som tokens, og dem betaler du for, både i kvote og i ventetid. En model, der bruger 26.000 tokens på én opgave, har altså skrevet, hvad der svarer til omkring 35 normalsider, for at nå frem til ét tal.
Effort er en indstilling i Claude Code (low/medium/high/xhigh/max), der styrer, hvor grundigt modellen må arbejde: hvor meget den tænker, før den svarer, og hvor mange mellemregninger den laver. Tænk på det som forskellen på at bede en medarbejder om et hurtigt overslag og bede om en gennemarbejdet rapport. Spørgsmålet, hele denne analyse besvarer, er: hvornår er rapporten faktisk bedre end overslaget, og hvornår betaler du bare for flere sider?
Vi gav modellerne 60 opgaver fra to af verdens hårdeste matematikkonkurrencer for gymnasieelever, begge fra 2025: AIME (adgangsprøven til det amerikanske matematiklandshold, 30 opgaver) og HMMT (Harvard-MIT Mathematics Tournament, 30 opgaver, der regnes for endnu sværere).
Hvorfor lige dem? Tre grunde. For det første er de svære nok til at adskille frontier-modeller: på lette opgavesæt scorer alle moderne modeller 96-99 %, og så måler man ingenting. For det andet er svaret entydigt og maskinelt kontrollerbart: facit er et tal, så der er ingen subjektiv bedømmelse og intet "det lyder rigtigt". For det tredje er opgaverne fra 2025, hvilket reducerer risikoen for, at modellerne har set facitlisten under deres træning.
Én ærlighed med det samme: matematikopgaver måler ræsonnement, ikke alt. Resultaterne siger noget om modellernes evne til hård, flertrins logik, ikke direkte om tekstkvalitet eller kodning. Men ræsonnement er netop den evne, effort-knappen er designet til at skrue på.
Dommeren er en maskine, ikke et menneske: samme matematiske facit-tjekker, som Hugging Face bruger til offentlige benchmarks. Den forstår, at "1/2" og "0,5" er samme svar. Et kald, der ikke bliver færdigt inden for tidsgrænsen, tæller som fejl. Det lyder selvfølgeligt, men er afgørende: uden den regel bliver langsomme modeller kunstigt belønnet, fordi deres sværeste opgaver bare forsvinder ud af regnskabet. Alle procenter angives med et statistisk usikkerhedsinterval, og læsereglen er enkel: overlapper to intervaller, kan man ikke med sikkerhed sige, at der er forskel.
Vigtigst af alt: i effort-analysen løser modellen de samme 60 opgaver på hvert niveau, 3 gange pr. opgave. Så kan vi se præcis hvilke opgaver et effort-trin "vipper" fra forkert til rigtig, i stedet for kun at sammenligne gennemsnit.
Og en praktisk fodnote, der i sig selv er et datapunkt: målingen ramte gentagne gange abonnementets brugsloft og måtte genoptages i næste 5-timers vindue. Xhigh-niveauet alene krævede tre tilløb over tre brugsvinduer. Så meget koster høj effort i den virkelige verden.
Første spørgsmål: hvilken model skal overhovedet være udgangspunktet? Alle tre modeller fik de samme 60 opgaver ved samme effort (medium):
| Model | Rigtige | Timeouts | Gns. tokens | Median tokens | Gns. tid |
|---|---|---|---|---|---|
| Opus 4.8 | 95,0 % | 0 | 4.052 | 2.296 | 48 sek. |
| Sonnet 4.6 | 78,3 % | 11 | 7.504 | 6.006 | 94 sek. |
| Haiku 4.5 | 70,0 % | 2 | 26.347 | 20.832 | 144 sek. |
Den normale intuition er, at den bedste model er den dyreste at bruge. Her er det omvendt, og det er måske analysens vigtigste pointe: de svagere modeller "flagrer". Når en opgave er for svær, går de i stå i lange, kredsende tankerrækker: de skriver og skriver, forfølger blindgyder og rammer alligevel forkert eller løber tør for tid. Haiku brugte i snit 6½ gange så mange tokens som Opus og var 3 gange langsommere. Resultatet var 25 procentpoint lavere. Opus tænker kortere, fordi den tænker rigtigt første gang.
To konkrete beviser fra rådata: Af de 11 opgaver, Sonnet ikke kunne blive færdig med på 10 minutter, løste Opus 9, uden en eneste timeout. Haiku løste 0 af dem.
Og Opus' median på 2.296 tokens betyder, at halvdelen af verdens sværeste gymnasieopgaver blev løst på under ~1.700 ord.
Haikus median var 20.832.
Konklusionen på modelduellen: Opus 4.8 er den eneste konfiguration, hvor ingen anden model er bedre på bare én akse uden at være dårligere på en anden. Den fristelse, mange virksomheder falder for ("den billige model er nok god nok"), viste sig at være den dyreste beslutning i regnskabet: på svære opgaver brændte Haiku mere kvote, tog længere tid og fejlede seks gange oftere. Derfor handler resten af analysen om at finde den rigtige indstilling af Opus 4.8. (Et forbehold: denne del er kørt med 1 gentagelse pr. opgave, så usikkerhedsintervallerne er brede. Rangordenen Opus ≫ Sonnet ≫ Haiku er robust; de præcise procenter er ikke skarpe.)
Vi skrev tidligere om lanceringen af Opus 4.8.
Det her er, hvad løfterne holder til i praksis.
Hovedmålingen: Opus 4.8 løser de samme 60 opgaver ved effort low, medium, high og xhigh, med 3 gentagelser pr. opgave, 180 kald pr. niveau, i alt 720 kald. Ingen kald timede ud.
| Effort | Rigtige | Gns. tokens | Tokens pr. rigtigt svar | Gns. tid |
|---|---|---|---|---|
| low | 96,1 % | 3.597 | 3.742 | 44 sek. |
| medium | 100,0 % | 4.830 | 4.830 | 58 sek. |
| high | 99,4 % | 5.532 | 5.563 | 65 sek. |
| xhigh | 98,9 % | 8.170 | 8.262 | 90 sek. |
Kurven fortæller en historie i to akter.
Det ene trin købte 7 ekstra rigtige svar ud af 180 forsøg, og brød ingen: ikke ét kald gik fra rigtig til forkert. Prisen var 34 % flere tokens og 14 sekunder ekstra ventetid i snit. Det er et godt køb: nøjagtigheden gik fra 96,1 % til en fejlfri serie på 180 ud af 180.
Fordi modellen løser de samme opgaver på hvert niveau, kan vi gøre regnskabet helt konkret op: hvad vandt og tabte hvert trin?
| Trin | Nye rigtige | Nye forkerte | Netto | Token-pris for trinnet |
|---|---|---|---|---|
| low → medium | +7 | −0 | +7 | +34 % |
| medium → high | +0 | −1 | −1 | +15 % |
| high → xhigh | +1 | −2 | −1 | +48 % |
High og xhigh løste tilsammen ikke én opgave, som medium ikke allerede løste, men de tabte enkelte kald, som medium havde løst. Samtidig voksede tokenregningen støt: xhigh koster 69 % flere tokens og 55 % mere ventetid end medium, for et (marginalt) dårligere resultat. Målt i "tokens pr. rigtigt svar" (den reneste effektivitetsmålestok for en abonnementsbruger) er xhigh 71 % dyrere pr. leveret resultat end medium.
To vigtige nuancer, så vi ikke overfortolker. For det første: forskellen mellem medium, high og xhigh på kvalitetsaksen er ikke statistisk sikker: usikkerhedsintervallerne overlapper bredt. Det ærlige udsagn er ikke "xhigh gør modellen dummere", men: over medium er der med sikkerhed ingen kvalitetsgevinst at hente på dette opgavesæt, og med sikkerhed en markant merpris i tokens og tid. Merprisen er nemlig ikke usikker; den står i hvert eneste kald. For det andet: loftet er nået. Når medium scorer 100 %, kan high og xhigh pr. definition kun gøre én af to ting: ingenting eller skade. Det er et mætningsfænomen, ikke nødvendigvis en egenskab ved effort-knappen som sådan.
Gennemsnittene skjuler noget interessant. Medianen er lav på alle niveauer (1.872-4.628 tokens), de fleste opgaver er "billige" for Opus, uanset effort. Gennemsnittet drives af et lille mindretal af virkelig hårde opgaver, og det er præcis dem, der bliver meget dyrere ved høj effort: det dyreste enkeltkald ved xhigh brugte 92.789 tokens og 16½ minut. Det svarede rigtigt, men medium løste samme opgave for en brøkdel. Effort skruer altså mest op for tænkningen dér, hvor opgaven er svær. Det er sådan set fornuftig adfærd. Problemet er bare, at på dette opgavesæt var den ekstra tænkning ikke nødvendig.
Én opgave fortjener et portræt. HMMT-opgave nr. 24 var sættets eneste konsekvente smertensbarn: ved low fejlede 2 af 3 forsøg, medium løste alle 3, high tabte 1, og xhigh tabte 1. I ét xhigh-forsøg tyggede modellen sig gennem 47.131 tokens på 9½ minut og svarede stadig forkert. Den slags enkeltopgaver er en påmindelse om, at "mere tænketid" ikke er en garanti, men et lotteri med bedre odds, og at gentagelser er nødvendige for overhovedet at se det.
Svartiden skalerer næsten lineært med tokens: 44 sekunder (low), 58 (medium), 65 (high), 90 (xhigh) i gennemsnit, men med lang hale: de tungeste xhigh-kald tog 6-10 minutter. For interaktivt arbejde er det forskellen på "flow" og "kaffepause". Vores ene gennemførte kald på det højeste niveau, max, tog 264 sekunder og 24.181 tokens, cirka 1,6 gange det, medium brugte på præcis samme opgave, for præcis samme korrekte svar. Ét kald er en anekdote, ikke data (abonnementsloftet faldt, før vi nåede flere), men anekdoten peger samme vej som alt det andet: voldsomt merforbrug på opgaver, der ikke kræver det.
Her kommer det ærlige forbehold, der samtidig er den mest spændende tråd at trevle videre i: "high/xhigh køber intet" er dokumenteret på opgaver, medium kan løse. Det er den praktisk relevante konklusion for 99 % af arbejdsdage, men den må ikke citeres som "xhigh er altid spild".
Derfor er næste måling allerede i gang: et bevidst hårdere opgavesæt (Apex 2025), hvor Opus 4.8 ved low kun klarer cirka 1 ud af 5 opgaver, og hvor et enkelt kald kan tage op til 25 minutter og koste 116.000 tokens. Først dér, hvor modellen faktisk er presset, kan højere effort vise sin værdi. Eller afsløre, at den ikke har nogen. Med op til 25 minutter pr. kald på et abonnement med kvotelofter er det en kørsel over flere dage. Resultaterne får deres eget indlæg, når de er i hus. (En praktisk detalje for andre, der vil måle selv: fra 15. juni trækker headless-kørsler på abonnement fra en separat månedlig kredit. Vi har tidligere beskrevet opsplitningen af Claude-prisen.)
| Situation | Anbefaling | Hvorfor |
|---|---|---|
| Rutineopgaver, udkast, hurtige spørgsmål | Opus 4.8 @ low | 96 % af maksimal kvalitet til laveste token- og tidspris (44 sek. i snit) |
| Svært ræsonnement: analyse, flertrinslogik, hård fejlfinding | Opus 4.8 @ medium | Sweet spot: i denne måling fejlfri (180/180) for 34 % flere tokens end low |
| "Bare giv den fuld gas" | Lad være, som standard | Over medium betalte vi 15-69 % flere tokens og op til dobbelt ventetid for nul ekstra rigtige svar |
| Opgaver hvor medium beviseligt fejler | xhigh/max, selektivt og verificér | Det er her, høj effort kan have hjemme; Apex-målingen skal vise, om den har det |
| Fristelsen: "den billige model er god nok" | Tjek igen | Haiku brugte 6½× flere tokens og 3× mere tid end Opus og fejlede 6× oftere. På svære opgaver er den dyre model den billige |
En analyse er kun så troværdig som sine forbehold, så her er de vigtigste. Alt her er konkurrencematematik, den bedste tilgængelige målestok for hårdt flertrins-ræsonnement med objektiv facitkontrol, men generalisering til skrivning, kodning og analysearbejde er en hypotese, ikke et resultat.
Konfidensintervallerne overlapper mellem medium, high og xhigh på kvalitetsaksen; token- og tidsforskellene er derimod store og systematiske. Effort-stigen er kun målt på Opus 4.8. Sonnet og Haiku kunne reagere anderledes (Haiku ignorerer i øvrigt knappen helt).
Modelduellen er kørt med 1 gentagelse pr. opgave og skal læses med bredere marginer end effort-målingen, der har 3. Og alt er målt på abonnement, ikke rå API. Det er en feature for analysens formål (virkelighedstro), men tallene kan ikke direkte sammenlignes med rene API-benchmarks.
Tre ting, I kan handle på i morgen.
Sæt en fornuftig standard, og afvig kun med grund. Hvis jeres team kører Claude Code, er medium det dokumenterede udgangspunkt for svært arbejde og low for resten. "Fuld gas som standard" er ikke grundighed. Det er at betale 69 % overpris i kvote og vente dobbelt så længe på det samme (eller et marginalt dårligere) svar. Det gælder især, hvis flere deler et abonnements kvotevindue.
Vælg ikke model efter prisskiltet, men efter regnskabet. Den dyreste lære fra modelduellen er, at "billig pr. token" og "billig pr. løst opgave" er to vidt forskellige ting. På svære opgaver var topmodellen samtidig den mest økonomiske og den hurtigste. Hvis jeres use-case indeholder reel kompleksitet, er nedskalering til en mindre model ofte en falsk besparelse.
Brug token-forbruget som termometer. Den dybeste pointe fra 906 kald: token-økonomi er et kvalitetstegn. Den model og det effort-niveau, der løser opgaven med færrest tokens, er typisk også den, der forstår den bedst. Når forbruget eksploderer, er det som regel ikke grundighed, I ser. Det er en model, der er faret vild. (Det er i øvrigt det stik modsatte af tokenmaxxing-kulturen, hvor stort forbrug bliver fejret som et statussymbol.)
Når Apex-målingen er færdig, følger vi op med svaret på det spørgsmål, denne analyse måtte lade stå åbent: hvad sker der med effort-knappen, når modellen møder opgaver, den faktisk ikke kan løse? Hold øje med bloggen.