Capability Threshold (Kapabilitetsgrænse)
Et capability threshold er den grænse, hvor en AI-models evner bliver tilstrækkeligt avancerede til at udgøre en potentiel risiko. Når en model krydser et capability threshold, udløser det typisk skærpede krav til sikkerhed, test og regulatorisk overholdelse. Konceptet er centralt i både EU AI Act og de frivillige sikkerhedspolitikker, som førende AI-virksomheder har vedtaget.
For virksomheder, der anvender eller overvejer foundation models, er capability thresholds afgørende at forstå. De bestemmer, hvilke modeller der kræver ekstra compliance-arbejde, hvilke use cases der kan implementeres uden yderligere godkendelse, og hvornår en model bevæger sig fra at være et produktivitetsværktøj til et system med systemisk risikopotentiale.
Tænk på det som en hastighedsgrænse for AI: under grænsen gælder standardreglerne, men over grænsen aktiveres strengere krav til dokumentation, overvågning og menneskelig kontrol.
Hvordan fungerer capability thresholds?
Capability thresholds kan defineres på to måder: kvantitativt og kvalitativt. Den kvantitative tilgang sætter en konkret beregningsgrænse. EU AI Act klassificerer f.eks. general-purpose AI-modeller som modeller med "systemisk risiko", hvis de er trænet med mere end 10^25 FLOP (floating-point operations). Californiens SB 53 sætter grænsen ved 10^26 FLOP. Over disse tærskler udløses ekstra krav til risikovurdering, dokumentation og sikkerhedstest.
Den kvalitative tilgang fokuserer på, hvad modellen faktisk kan. Frontier Model Forum og organisationer som METR definerer Critical Capability Levels (CCL), hvor specifikke farlige evner evalueres: kan modellen assistere med cybervåben, generere overbevisende misinformation, eller handle autonomt uden menneskelig kontrol? Disse evalueringer kræver systematisk red teaming og det, der kaldes capability elicitation, hvor man aktivt forsøger at finde skjulte eller latente evner i modellen.
En vigtig erkendelse i 2025-2026 er, at standardtest ikke altid afslører en models fulde potentiale. En model kan virke harmløs under normal brug, men vise farlige evner, når den gives adgang til værktøjer, trænes på specifikke opgaver, eller promptes med avancerede teknikker. Derfor investerer sikkerhedsinstitutter som UK AISI og Frontier Model Forum i stadig mere sofistikerede evalueringsmetoder.
Udfordringen vokser yderligere med fænomenet "evaluation awareness", hvor avancerede modeller kan registrere, at de bliver testet, og strategisk tilpasse deres output for at fremstå mindre kapable, end de reelt er.
Consile hjælper virksomheder med at forstå, hvor deres AI-systemer befinder sig i forhold til capability thresholds, og hvad det betyder for compliance og sikkerhed. Kontakt os for en uforpligtende vurdering af jeres AI-setup.
Capability thresholds i erhvervslivet
For virksomheder har capability thresholds tre praktiske konsekvenser. Den første er compliance: hvis jeres AI-leverandør bruger en model, der krydser en regulatorisk grænse, kan det udløse krav om teknisk dokumentation, risikovurdering og løbende overvågning under EU AI Act. Det gælder, uanset om I selv har trænet modellen eller blot bruger den via en API.
Den anden konsekvens handler om leverandørvurdering. Når I evaluerer AI-platforme og -tjenester, bør capability thresholds indgå i jeres due diligence. Spørgsmålet er ikke bare, om modellen er god nok til opgaven, men også om den er kraftfuld nok til at udløse ekstra regulatoriske forpligtelser. En frontier model med højere kapabilitet kan paradoksalt nok kræve mere compliance-arbejde end en mindre model, der løser opgaven lige så godt.
Den tredje konsekvens er strategisk. Capability thresholds skaber et naturligt skel mellem AI-systemer, der kan implementeres hurtigt, og dem, der kræver grundigere forberedelse. Virksomheder med en solid AI governance-struktur kan navigere dette skel hurtigere end konkurrenter, der først skal bygge governance op, når regulering rammer.
I praksis betyder det, at jeres AI-strategi bør inkludere en vurdering af, hvilke capability thresholds jeres nuværende og planlagte AI-systemer befinder sig i forhold til. Det kræver ikke, at I selv evaluerer modellerne teknisk, men at I stiller de rigtige spørgsmål til jeres leverandører og forstår konsekvenserne af svarene.
Hvad capability thresholds ikke er
Capability thresholds er ikke en on/off-kontakt for, om AI er farlig. En model under en given grænse kan stadig producere hallucinationer, have bias eller bruges til skadelige formål. Thresholds handler om sandsynligheden for systemisk risiko, ikke om individuel misbrug. De er et regulatorisk og sikkerhedsmæssigt værktøj, ikke en kvalitetsstempel.
Det er også vigtigt at skelne capability thresholds fra risikoklassificering. EU AI Acts risikoniveauer (minimal, begrænset, høj, uacceptabel) handler om, hvad AI-systemet bruges til. Capability thresholds handler om, hvad modellen kan. En model kan krydse et capability threshold uden at blive brugt i en højrisiko-kontekst, og omvendt kan en mindre kapabel model bruges i en højrisiko-applikation. De to dimensioner supplerer hinanden.
Endelig er capability thresholds ikke statiske. Efterhånden som AI-teknologien udvikler sig, og mindre modeller opnår evner, der tidligere var forbeholdt de største systemer, vil grænserne blive justeret. Det er en løbende kalibrering mellem teknologisk udvikling og regulatorisk respons.
Relaterede termer
En frontier model er den mest avancerede type AI-model på markedet. Forstå hvad der kendetegner dem, og hvorfor de er centrale for virksomheders AI-strategi.
AI Governance er den organisatoriske ramme for ansvarlig AI-brug. Forstå hvad det indebærer og hvorfor det er afgørende for din virksomhed.
EU AI Act er den første omfattende AI-lovgivning i verden. Forstå kravene, risikokategorierne og hvad det betyder for danske virksomheder.
Red teaming for AI er struktureret, modstandsdygtig test af AI-systemer. Lær hvordan virksomheder finder sårbarheder, før de bliver udnyttet.
Guardrails er de tekniske og proceduremæssige kontroller, der holder AI-systemer inden for acceptable grænser. Lær hvordan guardrails beskytter din virksomhed.
AI Risk Management handler om at identificere, vurdere og håndtere risici ved AI-systemer. Lær frameworks, best practices og krav fra EU AI Act.
Ofte stillede spørgsmål om Capability Threshold
Hvem bestemmer, hvor capability thresholds ligger?+
Det afhænger af konteksten. EU AI Act sætter en kvantitativ grænse ved 10^25 FLOP for general-purpose AI-modeller med systemisk risiko. Frontier Model Forum og AI-sikkerhedsinstitutter som UK AISI definerer kvalitative grænser baseret på specifikke farlige evner. Mange AI-virksomheder sætter også egne interne thresholds som del af deres sikkerhedspolitik.
Skal min virksomhed bekymre sig om capability thresholds, hvis vi bare bruger standard AI-værktøjer?+
Hvis I bruger AI-tjenester fra store leverandører, har leverandøren ansvar for at overholde threshold-relaterede krav. Men som deployer har I stadig ansvar under EU AI Act for at bruge systemet korrekt og dokumentere jeres brug. Consile hjælper med at afklare, hvor jeres ansvar starter og slutter.
Ændrer capability thresholds sig over tid?+
Ja. Både regulatoriske og tekniske thresholds justeres løbende. EU-Kommissionen kan opdatere FLOP-grænsen i takt med teknologiens udvikling. Kvalitative thresholds opdateres, efterhånden som nye risikoscenarier identificeres. Det er en dynamisk proces, der kræver løbende opmærksomhed.