Anthropic udsendte Claude Opus 4.8 den 28. maj. Bare 41 dage efter Opus 4.7, hvilket er et hurtigere tempo end normalt for dem.
Prisen er den samme som før, og benchmark-tallene er flyttet et par procentpoint. Det interessante ligger et andet sted: modellen er blevet bedre til at indrømme, når den er usikker eller har lavet fejl. For os der bygger agenter i produktion, betyder det mere end endnu et benchmark-spring.
Opus 4.8 koster det samme som 4.7: 5 dollars per million input-tokens og 25 per million output-tokens. Fast mode kører nu i 2,5 gange hastighed og er tre gange billigere end på tidligere modeller. Hvis du vil forstå, hvorfor token-pris betyder noget for et AI-budget, har vi skrevet om tokenøkonomi i ordbogen.
Benchmark-løftet er moderat. Agentisk kodning går fra 64,3% til 69,2%. Multidisciplinær ræsonnement med værktøjer fra 54,7% til 57,9%. Anthropic kalder det selv "en beskeden men håndgribelig forbedring", og det er en ærlig beskrivelse. Du mærker næppe forskellen i en enkelt opgave, men over en hel arbejdsdag med agenter lægger det sig oveni.
Det største spring er et andet: modellen er omkring fire gange mindre tilbøjelig end forgængeren til at lade fejl i sin egen kode passere uden at sige noget. Det fremgår af Anthropics egen lancering.
Anthropic træner alle deres modeller til at undgå påstande, de ikke kan bakke op. Problemet med sprogmodeller har været, at de springer til konklusioner og melder fremskridt, selv når grundlaget er tyndt. Hvis du har brugt en AI-agent til kodning, kender du følelsen: den siger "færdig, alt virker", og så fejler testene.
Opus 4.8 er ifølge tidlige testere mere tilbøjelig til at flagge usikkerhed og mindre tilbøjelig til at finde på. Det grænser op til det, vi i ordbogen kalder AI-selvverificering: at modellen tjekker sit eget arbejde, før den afleverer. En tester fra Bridgewater fremhævede netop, at modellen selv påpeger problemer i input og output, som andre modeller overlod til brugeren at opdage.
Det skal siges, hvad "ærlighed" betyder her. Det er ikke en moralsk egenskab. Det betyder, at modellens ord ligger tættere på, hvad den faktisk har gjort. Det er noget andet end hallucinationer, hvor modellen finder på fakta. Her handler det om, at den ikke overdriver sin egen fremgang. For en udvikler er det forskellen på en agent, du kan lade køre uovervåget, og en du skal tjekke efter hver gang.
Anthropics alignment-team skriver også, at modellen rammer nye højder på prosociale træk som at støtte brugerens autonomi. Raterne for bedrag og medvirken til misbrug er lavere end på 4.7.
Sammen med modellen lancerede Anthropic en feature kaldet Dynamic Workflows, i research preview til Claude Code på Enterprise-, Team- og Max-planer. Den lader Claude planlægge en opgave, sætte hundredvis af subagenter i gang parallelt i én session, og verificere resultatet inden den melder tilbage. Det er en agentbaseret arbejdsgang sat i system.
Det konkrete eksempel fra Anthropic: Claude Code med Opus 4.8 kan køre kodebase-migreringer på tværs af hundredtusindvis af linjer kode, fra start til merge, med den eksisterende test-suite som målestok.
Det her ligger tæt på det arbejde, vi laver med agent swarms og MCP-servere.
Princippet er det samme som i vores Debate MCP: del opgaven op, lad flere agenter arbejde, og verificér før noget går videre. Forskellen er, at det nu kører indbygget i Claude Code i stedet for at skulle orkestreres manuelt.
Der er kommet en effort-kontrol ved siden af modelvælgeren i claude.ai og Cowork. Du vælger selv, hvor meget modellen skal tænke. Høj effort giver bedre svar og bruger flere tokens. Lav effort svarer hurtigere og trækker langsommere på dine rate limits. Opus 4.8 står på "high" som standard.
I Claude Code hedder de højere niveauer "extra" (skrevet xhigh) og "max". Anthropic anbefaler "extra" til svære opgaver og lange asynkrone workflows, og har hævet rate limits i Claude Code for at give plads til det højere token-forbrug.
For udviklere er der en mindre, men praktisk ændring: Messages API accepterer nu system-entries inde i selve messages-arrayet. Du kan opdatere modellens instruktioner midt i en opgave uden at bryde prompt-cachen eller sende det gennem en bruger-tur. Til en agent der kører over længere tid, betyder det, at du kan justere rettigheder, token-budget eller kontekst undervejs.
Hvis du allerede kører Opus, er der ingen grund til at vente. Samme pris, lidt bedre tal, og en model der lyver mindre om sit eget arbejde. Skift og kør videre.
Hvis du bygger agenter, er ærligheds-forbedringen den, der tæller. En agent, der selv flagger "det her ser forkert ud", kræver mindre overvågning end en, der altid melder succes. Det er præcis flaskehalsen i autonome workflows: ikke om modellen kan løse opgaven, men om du kan stole på dens egen vurdering af, om den gjorde det.
Anthropic har også antydet, at deres kraftigere Mythos-model nærmer sig en bredere udgivelse, når sikkerhedsforanstaltningerne er på plads. Indtil da er Opus 4.8 den stærkeste frontier-model, de tilbyder offentligt. Vil du vide, hvordan agentisk AI og MCP-servere kan bruges konkret i din virksomhed, så tag fat i os.