Blog
Kontakt os
AI

Claude Opus 4.8 er live: mere ærlig kode og agenter der kører længere

Anthropic udsendte Claude Opus 4.8 den 28. maj. Bare 41 dage efter Opus 4.7, hvilket er et hurtigere tempo end normalt for dem. Prisen er den samme som før, og benchmark-tallene er flyttet et par procentpoint. Det interessante ligger et and…

Opus 4.8 er landet

Anthropic udsendte Claude Opus 4.8 den 28. maj. Bare 41 dage efter Opus 4.7, hvilket er et hurtigere tempo end normalt for dem.

Prisen er den samme som før, og benchmark-tallene er flyttet et par procentpoint. Det interessante ligger et andet sted: modellen er blevet bedre til at indrømme, når den er usikker eller har lavet fejl. For os der bygger agenter i produktion, betyder det mere end endnu et benchmark-spring.

 

Hvad der faktisk er nyt

Opus 4.8 koster det samme som 4.7: 5 dollars per million input-tokens og 25 per million output-tokens. Fast mode kører nu i 2,5 gange hastighed og er tre gange billigere end på tidligere modeller. Hvis du vil forstå, hvorfor token-pris betyder noget for et AI-budget, har vi skrevet om tokenøkonomi i ordbogen.

Benchmark-løftet er moderat. Agentisk kodning går fra 64,3% til 69,2%. Multidisciplinær ræsonnement med værktøjer fra 54,7% til 57,9%. Anthropic kalder det selv "en beskeden men håndgribelig forbedring", og det er en ærlig beskrivelse. Du mærker næppe forskellen i en enkelt opgave, men over en hel arbejdsdag med agenter lægger det sig oveni.

a9007019094f217e98cb8261a2765d7646c01708-2600x1392

Det største spring er et andet: modellen er omkring fire gange mindre tilbøjelig end forgængeren til at lade fejl i sin egen kode passere uden at sige noget. Det fremgår af Anthropics egen lancering.

 

Skal jeg skifte fra Opus 4.7 til 4.8 nu?

Ja. Prisen er den samme, tallene er lidt bedre, og modellen er mere ærlig om egne fejl. Der er ingen grund til at blive på 4.7. Brug modelstrengen claude-opus-4-8 i API'et.

Hvad betyder "mere ærlig" konkret for en udvikler?

Modellen flagger oftere selv, når et resultat er usikkert eller forkert, i stedet for at melde succes. Det reducerer den tid, du skal bruge på at tjekke en agents arbejde efter, og gør den mere egnet til at køre uovervåget.

Kan Dynamic Workflows bruges til vores kodebase?

Hvis I er på Claude Code med Enterprise-, Team- eller Max-plan, ja. Featuren er i research preview og kan køre store migreringer på tværs af mange filer med jeres egen test-suite som kvalitetsmål. Vi hjælper gerne med opsætningen.

 

 

Ærlighed er den reelle opgradering

Anthropic træner alle deres modeller til at undgå påstande, de ikke kan bakke op. Problemet med sprogmodeller har været, at de springer til konklusioner og melder fremskridt, selv når grundlaget er tyndt. Hvis du har brugt en AI-agent til kodning, kender du følelsen: den siger "færdig, alt virker", og så fejler testene.

Opus 4.8 er ifølge tidlige testere mere tilbøjelig til at flagge usikkerhed og mindre tilbøjelig til at finde på. Det grænser op til det, vi i ordbogen kalder AI-selvverificering: at modellen tjekker sit eget arbejde, før den afleverer. En tester fra Bridgewater fremhævede netop, at modellen selv påpeger problemer i input og output, som andre modeller overlod til brugeren at opdage.

40343dc40c700814e02f0ed90a7b513eca85039c-3840x2160

Det skal siges, hvad "ærlighed" betyder her. Det er ikke en moralsk egenskab. Det betyder, at modellens ord ligger tættere på, hvad den faktisk har gjort. Det er noget andet end hallucinationer, hvor modellen finder på fakta. Her handler det om, at den ikke overdriver sin egen fremgang. For en udvikler er det forskellen på en agent, du kan lade køre uovervåget, og en du skal tjekke efter hver gang.

Anthropics alignment-team skriver også, at modellen rammer nye højder på prosociale træk som at støtte brugerens autonomi. Raterne for bedrag og medvirken til misbrug er lavere end på 4.7.

 

Dynamic Workflows og parallelle subagenter

Sammen med modellen lancerede Anthropic en feature kaldet Dynamic Workflows, i research preview til Claude Code på Enterprise-, Team- og Max-planer. Den lader Claude planlægge en opgave, sætte hundredvis af subagenter i gang parallelt i én session, og verificere resultatet inden den melder tilbage. Det er en agentbaseret arbejdsgang sat i system.

Det konkrete eksempel fra Anthropic: Claude Code med Opus 4.8 kan køre kodebase-migreringer på tværs af hundredtusindvis af linjer kode, fra start til merge, med den eksisterende test-suite som målestok.

Det her ligger tæt på det arbejde, vi laver med agent swarms og MCP-servere.

Princippet er det samme som i vores Debate MCP: del opgaven op, lad flere agenter arbejde, og verificér før noget går videre. Forskellen er, at det nu kører indbygget i Claude Code i stedet for at skulle orkestreres manuelt.

 

Effort control og en ny API-detalje

Der er kommet en effort-kontrol ved siden af modelvælgeren i claude.ai og Cowork. Du vælger selv, hvor meget modellen skal tænke. Høj effort giver bedre svar og bruger flere tokens. Lav effort svarer hurtigere og trækker langsommere på dine rate limits. Opus 4.8 står på "high" som standard.

I Claude Code hedder de højere niveauer "extra" (skrevet xhigh) og "max". Anthropic anbefaler "extra" til svære opgaver og lange asynkrone workflows, og har hævet rate limits i Claude Code for at give plads til det højere token-forbrug.

For udviklere er der en mindre, men praktisk ændring: Messages API accepterer nu system-entries inde i selve messages-arrayet. Du kan opdatere modellens instruktioner midt i en opgave uden at bryde prompt-cachen eller sende det gennem en bruger-tur. Til en agent der kører over længere tid, betyder det, at du kan justere rettigheder, token-budget eller kontekst undervejs.

 

 

Hvad det betyder for dit AI-arbejde

Hvis du allerede kører Opus, er der ingen grund til at vente. Samme pris, lidt bedre tal, og en model der lyver mindre om sit eget arbejde. Skift og kør videre.

Hvis du bygger agenter, er ærligheds-forbedringen den, der tæller. En agent, der selv flagger "det her ser forkert ud", kræver mindre overvågning end en, der altid melder succes. Det er præcis flaskehalsen i autonome workflows: ikke om modellen kan løse opgaven, men om du kan stole på dens egen vurdering af, om den gjorde det.

Anthropic har også antydet, at deres kraftigere Mythos-model nærmer sig en bredere udgivelse, når sikkerhedsforanstaltningerne er på plads. Indtil da er Opus 4.8 den stærkeste frontier-model, de tilbyder offentligt. Vil du vide, hvordan agentisk AI og MCP-servere kan bruges konkret i din virksomhed, så tag fat i os.

Fortsæt læsningen