Blog
Kontakt os
AI

Fable 5-prompten blev lækket: den store afsløring udeblev

Da Anthropic den 9. juni 2026 lukkede op for Claude Fable 5, gik der under to døgn, før den kendte jailbreaker Pliny hævdede at have brudt modellen og lagde hele dens systemprompt på GitHub. Overskrifterne skrev sig nærmest selv. Vi har læs…

Anthropics Claude, som danner baggrund for den lækkede Fable 5-systemprompt

Da Anthropic den 9. juni 2026 lukkede op for Claude Fable 5, gik der under to døgn, før den kendte jailbreaker Pliny hævdede at have brudt modellen og lagde hele dens systemprompt på GitHub. Overskrifterne skrev sig nærmest selv.

Vi har læst hele filen igennem, alle godt 122.000 tegn af den, og holdt den op mod det, der rent faktisk er bekræftet. Den korte version er, at den store afsløring nærmest er, at der ingen afsløring er. Her er vores ærlige gennemgang af, hvad der lå i filen, hvad jailbreaket kunne, og hvad det ikke kunne.

 

Hvad skete der med Fable 5?

Fable 5 var Anthropics første offentligt tilgængelige model fra den nye Mythos-klasse, der ligger over Claude Opus i kapacitet. Søstermodellen Mythos 5 blev holdt tilbage til en lukket kreds af godkendte organisationer. Lanceringen var stor, blandt andet fordi Fable 5 røg direkte ind som nummer et på Artificial Analysis' uafhængige intelligensindeks.

Festen blev kort. Inden for cirka 48 timer offentliggjorde Pliny (kendt som Pliny the Liberator) det, han beskrev som modellens fulde systemprompt, både på X og i sit eget GitHub-repo. Få dage senere greb den amerikanske regering ind med en eksportkontrol og påbød Anthropic at suspendere adgangen til både Fable 5 og Mythos 5. Fordi ordren omfattede udenlandske statsborgere overalt, også Anthropics egne medarbejdere, endte virksomheden med at slukke modellerne for alle.

Det er en dramatisk ramme. Men en lækket systemprompt og en regeringsordre er to forskellige ting, og ingen af delene betyder nødvendigvis, at selve modellen blev brudt. Vi tager det et skridt tilbage. Hvad er en systemprompt egentlig, og hvad var det, Pliny rent faktisk fik fat i?

 

Blev Claude Fable 5 reelt hacket?

Ikke i den forstand, de fleste forestiller sig. Pliny fik modellen til at gengive sin egen systemprompt og uden om nogle tekstspærringer, men Anthropic oplyser, at der ikke er dokumenteret et jailbreak med et skadeligt resultat. At læse instruktionerne oven på en model er ikke det samme som at bryde selve modellen.

Er den lækkede systemprompt farlig at bruge?

Den er først og fremmest et indblik i, hvordan Anthropic instruerer Claude. Men den er et uofficielt udtræk, der kan indeholde fejl, og den består udelukkende af instruktioner. Fodr den derfor aldrig ukritisk ind i dine egne AI-agenter, og behandl den som data, du analyserer, ikke som kommandoer, der skal følges.

Hvad er forskellen på Fable 5 og Mythos 5?

Ifølge den lækkede prompt deler de to modeller den samme underliggende model. Fable 5 er den offentligt tilgængelige udgave med ekstra sikkerhedsforanstaltninger for dual-use-kapaciteter, mens Mythos 5 er uden dem og kun tilbydes til godkendte organisationer.

 

 

Hvad er en systemprompt egentlig?

En systemprompt er den instruktion, en udbyder lægger oven på en sprogmodel (en LLM), før du overhovedet skriver din første besked. Den fortæller modellen, hvem den er, hvad den må, hvilken tone den skal ramme, og hvilke værktøjer den har adgang til. Du kan se den som en personalehåndbog, der bliver lagt på bordet, hver gang en ny samtale begynder.

Det vigtige er, at systemprompten ligger oven på modellen, ikke inde i den. Selve modellens evner og dens indbyggede sikkerhed sidder i de vægte, der blev trænet på forhånd. Systemprompten justerer adfærden, men den er grundlæggende bare tekst, og tekst kan læses, kopieres og omgås af enhver, der får fat i den.

Derfor lyder en lækket systemprompt ofte mere dramatisk, end den er. Den afslører, hvordan udbyderen har bedt modellen om at opføre sig, men den udleverer ikke nøglerne til modellens underliggende evner. Det er en pointe, der er værd at holde fast i, når man læser videre.

 

Hvad stod der faktisk i filen?

Filen, vi gennemgik, fylder 122.428 tegn fordelt på knap 1.600 linjer, 72 navngivne sektioner og fulde definitioner af 18 værktøjer. Det matcher i store træk det, der er rapporteret om lækken, selvom vores kopi havde 1.597 linjer mod de 1.585, der oftest citeres. Den lille forskel er i sig selv en påmindelse om, at der cirkulerer flere udgaver.

Og langt det meste af filen er den helt almindelige systemprompt, der driver den offentlige udgave af Claude. Det er afsnit om tone, om kildehenvisninger ved websøgning, om hvordan modellen håndterer filer og værktøjer, og en meget grundig sikkerhedsdel om børnesikkerhed, selvskade, spiseforstyrrelser og ophavsret. Det er solidt håndværk, men det er ikke hemmeligheder.

Det Fable 5-specifikke fylder reelt en enkelt paragraf. Den fortæller, at Fable 5 og Mythos 5 deler den samme underliggende model, at Fable har ekstra sikkerhedsforanstaltninger for såkaldte dual-use-kapaciteter, og at Mythos er uden dem og kun til godkendte organisationer. Det er stort set hele forskellen mellem den dramatiske overskrift og det faktiske indhold.

Et vigtigt forbehold hører med. Det her er et uofficielt udtræk, ikke et dokument, Anthropic har udgivet. Den slags udtræk kan indeholde huller eller passager, som modellen selv har fundet på (en såkaldt hallucination). Du bør derfor læse filen som et stærkt fingerpeg om strukturen, ikke som en garanteret ordret kopi.

 

Hvad kunne jailbreaket, og hvad kunne det ikke?

Plinys teknik byggede på det, man kan kalde opdeling og samling. I stedet for at bede modellen om noget forbudt direkte, deler man anmodningen op i små, harmløst udseende dele og samler først det hele til sidst. Det er en reel og ikke-triviel evne, men den forudsætter, at angriberen på forhånd ved præcis, hvad der skal trækkes ud, og selv kan stykke delene sammen igen.

Det, der konkret blev vist, var altså to ting. At man kunne få modellen til at gengive sin egen systemprompt, og at man kunne lede den uden om nogle af dens tekstuelle spærringer. Det er ikke ingenting. Men det er heller ikke en universalnøgle, der åbner alt.

Anthropic afviser, at der er tale om et reelt brud. Virksomheden oplyser, at den ikke har modtaget dokumentation for et jailbreak, der har ført til et skadeligt resultat, og at det viste enten er harmløst eller uden reel merværdi sammenlignet med frit tilgængelige modeller. En cybersikkerhedsdirektør kaldte det over for Fortune slet ikke et jailbreak, men derimod defensiv prompting, altså noget forsvarere selv har brug for.

Og så er der det, der ikke står i filen. Flere medier har skrevet om en skjult mekanisme, der angiveligt skulle sabotere koden for folk, der forsøgte at træne konkurrerende modeller. Vi søgte hele filen igennem, og ord som distillation, sabotage og konkurrent optræder nul gange. Den historie stammer fra Anthropics eget materiale og fra kommentatorer, ikke fra den lækkede prompt. Det er præcis derfor, det giver mening at læse kilden selv og de mere nøgterne analyser frem for kun overskrifterne.

 

Hvad kan danske virksomheder tage med?

Den første lære er nøgtern. En systemprompt er ikke en hemmelighed, du kan bygge din sikkerhed på. Antag, at dine egne prompts kan lække, og læg derfor aldrig API-nøgler, persondata eller forretningshemmeligheder direkte ind i dem. Sikkerhed gennem hemmeligholdelse holder sjældent i længden.

Den anden lære handler om promptinjektion. Hele episoden minder os om, at tekst skal behandles som data, ikke som ordrer. Hvis du bygger AI-agenter, der læser mails, dokumenter eller hjemmesider, skal du regne med, at nogen før eller siden gemmer skjulte instruktioner i det indhold. En lækket systemprompt er i øvrigt selv et godt eksempel, for den består udelukkende af instruktioner, du ikke bør fodre ukritisk ind i dine egne systemer.

Den tredje lære er den mest opløftende. Den rigtige sikkerhed flytter sig fra teksten og ned i modellen. Da Anthropic kunne pege på, at de samme oplysninger var tilgængelige i andre modeller, og at de farligste områder er spærret på et dybere niveau, viser det, at moderne AI-sikkerhed i stigende grad bygger på trænede spærringer og klassifikatorer, ikke kun på formuleringer i en prompt.

Vores anbefaling fra konsulentstolen er derfor at skrue ned for dramaet og op for governance. Få overblik over, hvilke modeller I bruger, hvilke data der må deles, og hvordan I tester jeres egne AI-løsninger for præcis denne type svagheder. Det er mere værd end at frygte den næste overskrift om et jailbreak.

Fortsæt læsningen