Mechanistic Interpretability (Mekanistisk fortolkelighed)

Mechanistic interpretability er et forskningsfelt, der forsøger at forstå, hvordan AI-modeller faktisk når frem til deres svar. Hvor traditionel evaluering tester, hvad en model siger, undersøger mechanistic interpretability, hvordan modellen tænker: hvilke interne kredsløb aktiveres, hvilke mønstre genkendes, og hvordan information flyder fra input til output.

For virksomheder er dette relevant, fordi det rykker AI fra at være en sort boks til et system, man kan inspicere og forstå. MIT Technology Review udnævnte feltet til en af 2026s ti vigtigste teknologiske gennembrud, og Anthropic har allerede brugt teknikken i sikkerhedsvurderinger af produktionsmodeller.

Kort sagt: mechanistic interpretability giver os redskaberne til at åbne låget og se, hvad der foregår inde i en LLM, før vi stoler på dens beslutninger.

Læsetid 3 minOpdateret marts 2026

Hvordan virker Mechanistic Interpretability?

Kernen i mechanistic interpretability er reverse engineering af neurale netværk. Forskere undersøger de individuelle neuroner og forbindelser i en model for at kortlægge, hvilke koncepter de repræsenterer, og hvordan de samarbejder om at producere et output.

En central teknik er sparse autoencoders (SAE). Problemet med neurale netværk er, at en enkelt neuron ofte reagerer på mange forskellige koncepter samtidig, et fænomen kaldet polysemantik. Sparse autoencoders løser dette ved at dekomponere aktiveringerne til mere rene funktioner, hvor hver funktion svarer til ét begreb. Anthropic har med denne metode identificeret næsten 15.000 tolkbare funktioner i en enkelt model, hvor 70 % af dem tydeligt repræsenterer specifikke koncepter som arabisk skrift eller DNA-mønstre.

En anden tilgang er circuit analysis, hvor forskere sporer den præcise sti, en model tager fra prompt til svar. Det svarer til at kortlægge de elektriske kredsløb i en chip: man finder ud af, hvilke komponenter der er involveret i en bestemt type beslutning.

Resultatet er ikke blot akademisk. Anthropic brugte mechanistic interpretability i sikkerhedsvurderingen af Claude Sonnet 4.5, før modellen blev frigivet. Forskere undersøgte interne funktioner for farlige kapaciteter, vildledende tendenser og uønskede mål. Det var første gang, fortolkelighedsforskning blev integreret direkte i en produktionsbeslutning.

Consile hjælper virksomheder med at forstå og styre deres AI-systemer. Kontakt os for en samtale om, hvordan fortolkelighed og AI Governance kan styrke jeres compliance og tillid til AI.

Mechanistic Interpretability i erhvervslivet

For virksomheder, der anvender AI i kritiske processer, åbner mechanistic interpretability en række muligheder. Den mest oplagte er compliance. EU AI Act stiller krav om gennemsigtighed og dokumentation af højrisiko AI-systemer. Mechanistic interpretability giver en konkret metode til at demonstrere, at man forstår, hvad ens model gør, og hvorfor.

Inden for fraud detection og risikostyring kan teknikken afsløre, om en model baserer sine beslutninger på legitime signaler eller utilsigtede mønstre. OpenAI arbejder eksempelvis på en AI-løgndetektor, der bruger modellens interne repræsentationer til at identificere, hvornår et system er vildledende.

I regulerede brancher som finans, sundhed og forsikring er evnen til at forklare en AI-beslutning ikke blot ønskelig, den er lovpåkrævet. Mechanistic interpretability supplerer Explainable AI (XAI) ved at gå dybere end output-baserede forklaringer og vise, hvad der faktisk sker inde i modellen.

Feltet er i hastig overgang fra forskning til produktion. Virksomheder som Anthropic og Google DeepMind investerer massivt, og værktøjer til model-inspektion bliver stadig mere tilgængelige for tekniske teams uden dyb forskningsbaggrund.

Hvad Mechanistic Interpretability ikke er

Mechanistic interpretability er ikke det samme som Explainable AI (XAI), selvom de to felter er beslægtede. XAI fokuserer typisk på at forklare en models output i forståelige termer, for eksempel ved at fremhæve, hvilke inputfaktorer der vejede tungest. Mechanistic interpretability går et niveau dybere og undersøger de interne mekanismer, der producerede svaret.

Det er heller ikke en færdig løsning til AI-sikkerhed. Feltet er stadig ungt, og selv de mest avancerede teknikker dækker kun dele af en models adfærd. Fundamentale begreber som hvad en feature præcist er mangler stadig stringente definitioner, og mange fortolkeligheds-forespørgsler er beregningsmæssigt svære at besvare. Det betyder ikke, at teknikken er ubrugelig, men at den bør ses som ét redskab i en bredere AI Governance-strategi.

Endelig er mechanistic interpretability ikke en erstatning for grundig test og evaluering. Den giver indsigt i, hvordan en model kan opføre sig, men garanterer ikke, at alle problematiske mønstre bliver opdaget.

Ofte stillede spørgsmål om Mechanistic Interpretability

Hvad er forskellen på mechanistic interpretability og Explainable AI?

Explainable AI forklarer, hvad en model beslutter, og hvilke faktorer der påvirkede resultatet. Mechanistic interpretability går dybere og kortlægger de interne kredsløb og funktioner, der producerer beslutningen. Tænk på det som forskellen mellem at læse en vejrudsigt (XAI) og at forstå de atmosfæriske modeller bag den (mechanistic interpretability).

Kan min virksomhed bruge mechanistic interpretability i dag?

Feltet er i overgang fra forskning til praksis. Store AI-leverandører som Anthropic anvender det allerede i sikkerhedsvurderinger. For de fleste virksomheder er det mest relevant som en del af leverandørdialog og compliance-strategi. Consile kan hjælpe med at vurdere, hvordan fortolkelighed passer ind i jeres AI-governance.

Er mechanistic interpretability et krav i EU AI Act?

EU AI Act nævner ikke mechanistic interpretability specifikt, men stiller krav om gennemsigtighed og dokumentation for højrisiko AI-systemer. Mechanistic interpretability er en af de mest lovende metoder til at opfylde disse krav i praksis.

Mechanistic Interpretability (Mekanistisk fortolkelighed)

Hvordan virker Mechanistic Interpretability?

Mechanistic Interpretability i erhvervslivet

Hvad Mechanistic Interpretability ikke er

Relaterede termer

Ofte stillede spørgsmål om Mechanistic Interpretability