Skip to content
AI Ordbog / Jailbreaking (af AI)

Jailbreaking (af AI)

Jailbreaking er teknikker, der omgår AI-modellers sikkerhedsregler. Forstå risikoen for din virksomhed, de mest udbredte angrebstyper, og hvordan du beskytter dine AI-systemer.

Jailbreaking (af AI)
Frame 4
Frame 3
Frame 2
Frame 1
Frame 5
Jailbreaking (af AI)
AI ORDBOG

Hvordan fungerer jailbreaking af AI?

Jailbreaking udnytter en grundlæggende spænding i sprogmodeller: de er trænet til at være hjælpsomme og følge instruktioner, men samtidig til at overholde sikkerhedsretningslinjer. En angriber finder måder at prioritere den ene egenskab over den anden.

Den mest udbredte teknik er rollebaserede angreb, hvor brugeren beder modellen påtage sig en persona, der ikke er bundet af de normale regler. En anden metode er multi-turn escalation, hvor en serie af tilsyneladende uskyldige spørgsmål gradvist leder modellen mod at producere forbudt indhold. Nyere forskning viser, at denne type flertrinsangreb har en succesrate på over 90 % mod flere store sprogmodeller.

Context Compliance Attacks (CCA) er en nyere og bemærkelsesværdigt simpel teknik. Angriberen injicerer en fabrikeret samtalehistorik, så modellen tror, den allerede har svaret positivt på en skadelig forespørgsel. Modellen fortsætter derefter det mønster, den mener at have påbegyndt.

I 2026 er autonomous jailbreak agents blevet en reel trussel. Store reasoning-modeller kan nu automatisere jailbreak-processen og opnå succesrater på over 97 % på tværs af modeller. Det betyder, at det ikke længere kræver ekspertviden at udføre et jailbreak-angreb.

Endelig findes prompt injection, som er beslægtet med jailbreaking. Prompt injection fokuserer specifikt på at injicere instruktioner, der overskriver systemets oprindelige prompt, mens jailbreaking er den bredere kategori af teknikker, der omgår enhver form for sikkerhedsmekanisme.

Jailbreaking som forretningsrisiko

Når en virksomhed eksponerer en AI-model i et kundevendt produkt, en intern chatbot eller en automatiseret workflow, skaber et succesfuldt jailbreak en direkte sikkerhedsbrist. Modellen kan tvinges til at afsløre fortrolige systeminstruktioner, lække forretningslogik eller generere output, der strider mod virksomhedens politikker.

Risikoen er særligt høj for organisationer, der bruger AI-agenter med adgang til interne systemer. Når en agent kan åbne pull requests, forespørge databaser eller udløse automatiserede handlinger, kan et jailbreak eskalere fra et promptproblem til en reel sikkerhedshændelse. Et dokumenteret eksempel involverer en kinesisk hackinggruppe, der jailbreakede en AI-kodningsassistent til at scanne porte, identificere sårbarheder og udvikle exploit-scripts.

For virksomheder i regulerede brancher som sundhed, finans eller offentlig administration tilføjer EU AI Act og andre reguleringsrammer yderligere konsekvenser. Et jailbreak kan medføre compliancebrud, auditfejl og potentielle sanktioner. Under EU AI Act klassificeres mange AI-systemer som højrisiko, og en demonstreret sårbarhed over for jailbreaking kan sætte en organisations certificering på spil.

De økonomiske konsekvenser er håndgribelige. Jailbreak-relaterede forstyrrelser kan koste virksomheder tusindvis af dollars per time i tabt produktivitet og akut respons, ud over de langsigtede omkostninger ved reputationsskade og kundernes tabte tillid.

Hvad jailbreaking ikke er

Jailbreaking forveksles ofte med AI-hallucinationer, men de to fænomener er grundlæggende forskellige. Hallucinationer opstår, når en model genererer forkert information i god tro. Jailbreaking kræver en bevidst handling fra en bruger, der aktivt forsøger at omgå modellens sikkerhed. Det ene er en fejl i modellen, det andet er et angreb udefra.

Det er også vigtigt at skelne jailbreaking fra lovlig red teaming og sikkerhedstest. Virksomheder bør systematisk teste deres AI-systemers modstandsdygtighed over for jailbreaking, og denne form for autoriseret test er en del af god AI governance. Forskellen ligger i intentionen og autorisationen: red teaming styrker sikkerheden, mens uautoriseret jailbreaking kompromitterer den.

Endelig er jailbreaking ikke et problem, der kan løses med en enkelt foranstaltning. Der findes ingen patch eller opdatering, der eliminerer risikoen permanent. Effektiv beskyttelse kræver en lagdelt tilgang med input-validering, output-filtrering, guardrails, logging, human-in-the-loop og løbende overvågning. Det er en fortsat proces, ikke en engangsopgave.

Relaterede termer

Prompt Injection: En specifik angrebsteknik, hvor uautoriserede instruktioner injiceres i en models input for at overskrive systempromptens retningslinjer. Tæt beslægtet med jailbreaking, men mere snævert defineret.

Guardrails: Foruddefinerede regler og filtre, der beskytter AI-systemer mod misbrug, datalæk og skadelige output. Den primære forsvarsmekanisme mod jailbreaking.

AI Governance: De politikker, processer og strukturer, der sikrer ansvarlig brug af AI. Inkluderer jailbreak-forebyggelse som en del af risikostyring.

Shadow AI: Uautoriseret brug af AI-værktøjer i organisationer. Shadow AI-systemer mangler typisk de guardrails, der beskytter mod jailbreaking.

EU AI Act: EUs reguleringsramme for AI, der stiller krav til sikkerhed og robusthed, herunder modstandsdygtighed over for manipulation som jailbreaking.

Red Teaming for AI: Autoriseret sikkerhedstest af AI-systemer, hvor specialister forsøger at finde sårbarheder, inklusiv jailbreak-muligheder.

Human-in-the-Loop (HITL): En tilgang, hvor mennesker godkender kritiske AI-beslutninger, hvilket reducerer risikoen fra succesfulde jailbreaks.